Deep-Learning-Systeme spielen in der heutigen Zeit eine immer bedeutendere Rolle und werden laufend weiterentwickelt und verbessert. Auch in der Medizin, z.B. in der Diagnostik, sollen solche Systeme immer mehr zum Einsatz kommen. Die Systeme erzielen im Bereich der Bilderkennung sehr gute Ergebnisse bei der Erkennung und Klassifizierung von Krankheiten.

Gerade im Bereich der Medizin sind die Kontrolle und die CE-Zertifizierung solcher Systeme besonders wichtig. Aktuell gibt es jedoch für den Einsatz solcher Systeme keine Gesetze oder harmonisierte Normen in der EU, die zum einen die Funktionalität der Deep Learning Anwendung so regeln, dass sie eine Grundlage für eine nachhaltige Integration dieser Technologie in die Routineprozesse bilden und zum anderen tatsächlich die Natur der Deep Learning Netze als ein Regelwerk untermauern. Dennoch gibt es bereits viele Normen und Best Practices, die aufzeigen, wie eine Zertifizierung trotzdem stattfinden kann.

Innerhalb dieser Bachelorarbeit soll anhand eines im HSA KIT, einer Software der HS Analysis GmbH, trainierten DL-Modells zur Erkennung von kolorektalen Karzinomen in der Histologie vorgeführt werden, wie die Dokumentation der Datenerhebung und des Trainings des DL-Modells, sowie die zugehörige Auswertung der Qualität des Modells an sinnvollen Metriken im Hinblick auf eine CE-Zertifizierung erfolgen kann. Beim Training des Modells soll kein neues DL-Verfahren neu entwickelt werden, sondern ein bereits vorhandenes Verfahren trainiert werden und mit den möglichen Hyperparameter des HSA KITs optimiert werden. Das Modell soll am Ende der Arbeit auf WSIs von Hämatoxylin-Eosin gefärbten Gewebeschnitte angewendet werden und diese in gesunde, Adenom haltige und Karzinom haltige Areale unterteilen. Die Ergebnisse sollen im Anschluss analysiert und bewertet werden, auch im Bezug auf die Zertifizierung.

Am Anfang des Artikels wird Motivation, Ziel der Arbeit und Aufbau und Vorgehen besprochen. Danach wird auf die Theoretischen Grundlagen eingegangen, die zum Verständnis des Artikels benötigt werden. Im nächsten Abschnitt wird auf den momentanen Stand der Technik eingegangen werden. Hierfür wird einerseits auf DL-Modelle eingegangen, welche schon zertifiziert wurden, andererseits werden auch Forschungsarbeiten aufgezeigt, die sich mit dem konkreten Beispiel der Erkennung von Darmkrebs beschäftigen. Danach soll aufgezeigt werden, wie dies in der Praxis vollzogen werden kann. Dabei wird auf die Datenerhebung der Ground Truth Daten eingegangen, sowie die Erstellung und Dokumentation der DL-Modelle beschrieben. Darauf hin erfolgt dann die Analyse und der Vergleich der DL-Modelle. Als letztes werden dann die wichtigsten Ergebnisse erfasst und es erfolgt ein Ausblick auf mögliche zukünftige Projekte.

Grundlagen

In diesem Kapitel werden die Theoretischen Grundlagen erläutert, welche zum Verständnis des Artikels benötigt werden. Hier wird auf die medizinischen Grundlagen eingegangen, sowie auf den Ablauf der Diagnose für Darmkrebs im klinischen Betrieb. Daraufhin werden die die technischen Grundlagen erklärt. Hierbei werden die Grundlagen für Deep Learning geklärt, sowie auf die Metriken eingegangen. Außerdem werden die Grundlagen zur CE-Zertifizierung von DL-Modellen geklärt.

Medizinische Grundlagen

Darmkrebs ist die bei Frauen zweithäufigste und bei Männern dritthäufigste auftretende Krebserkrankung in Deutschland. Das mittler Erkrankungsalter liegt in Deutschland bei über 70 Jahre. Infolge der gesetzlichen Vorsorgeuntersuchung seit 2002 sind die Fallzahlen innerhalb Deutschlands angestiegen, aber auch früher gut behandelbare Tumore erkannt. Mit 1,93 Millionen war es laut WHO 2020 die dritthäufigste Krebsart bei neuen Krebsfällen weltweit und hatte mit 916.000 Toten die zweithöchste Sterbensrate weltweit. Die häufigste Auftretende Krebsart im Darm ist das kolorektale Karzinom, welches im Kolon (Dickdarm) oder im Rektum (Enddarm) auftritt. Innerhalb dieser Arbeit werden He gefärbte WSIs von Kolonkarzinomen untersucht.

Bei den Kolontumoren handelt es sich um solide Tumore. Dies bedeutet, dass sich um eine Neubildung von Gewebe handelt. Bei dem zu untersuchenden Gewebe handelt es sich um Drüsengewebe der Schleimhäute. Innerhalb dieser Arbeit wird nur zwischen Gesunden Drüsen, wie in Abbildung 1, zu sehen, Adenom und Karzinom unterschieden.

Bei Adenom, wie in Abbildung 2 zu sehen, handelt es sich um einen benignen, also um einen gutartigen, Tumor. Als Adenom werden gutartige Tumore bezeichnet, welche ursprünglich Drüsengewebe waren. Bei der Entwicklung zum Adenom beginnen die Drüsen kaputt zu gehen und verlieren ihre bei gesunden Drüsen gut erkennbare Struktur. Die Abgrenzung zum umliegenden Gewebe ist in diesem Stadion noch sehr gut möglich, da es noch nicht zu einer Infiltrierung durch den Tumor kommt.

Ein Adenom kann sich unter umständen zu einem bösartigen Tumor entwickeln. Tritt dieser Fall ein, handelt es sich um ein Karzinom, welches in Abbildung 3 zu sehen ist. Im Vergleich zum Adenom, ist die Abgrenzung des Karzinoms zum Umliegenden Gewebe abschnittsweise nicht mehr möglich, da es bei dem Tumor zu einer infiltrieren und zerstören des umliegenden Gewebes kommt.

Diagnose in der Klinik

Wenn der Verdacht auf Darmkrebs bei einem Patienten besteht, werden verschiedene Einsatzverfahren in die Wege geleitet. Mit diesen soll ermittelt werden, ob es sich tatsächlich um eine Tumorerkrankung handelt, aber auch, falls es zu einer Bestätigung kommt, wie weit entwickelt diese ist. Die Tastuntersuchung, der Okkultbluttest, die Rektoskopie, die Sigmoidoskopie, die Koloskopie und die Röntgenuntersuchung mit Kontrastmittel gelten hierbei als die wichtigsten Untersuchungmethoden um eine Tumorerkrankung nachzuweisen. Bei der Koloskopie, der Darmspiegelung, handelt es sich um die aussagekräftigste und wichtigste Methode zur Untersuchung für die Feststellung einer Tumorerkrankung. Sie gilt als der Goldstandart zur Früherkennung von kolorektalen Neoplasien, also gut- und bösartigen Neubildungen von Gewebe, durch fehlregulierten Zellwachstum. Sie muss auch durchgeführt werden, wenn bei dem Okkultbluttest Blut im Stuhl entdeckt wird. Bei dem Okkultbluttest handelt es sich um einen Labortest, welcher ermöglicht geringe Mengen an Blut im Stuhl des Patienten nachzuweisen. Außerdem wird due Koloskopie als Bestandteil der Früherkennung durchgeführt. Bei der Koloskopie handelt es sich um ein Endoskopisches Verfahren. Hierbei wird mit einem Endoskop, ein biegsames Instrument aus Fiberglas, welches unter anderem mit einer Kamera, einer Linse und einer Lichtquelle ausgestattet ist, das gesamte innere des Darms untersucht. Mithilfe des Endoskops kann der Arzt die ausgeleuchtete Darmschleimhaut in Lupenvergrößerung auf einem Bildschirm untersuchen. Der Arzt untersucht hierbei den Darm ausgehend vom After. Für die Untersuchungsqualität ist die gründliche Reinigung des Darms notwendig, weshalb am Vortag oder spätestens am Morgen des Tages der Untersuchung ein Abführmittel oder eine Spüllösung vom Patienten eingenommen werden muss. Wird eine verdächtige Veränderung der Darmschleimhaut währen der Koloskopie entdeckt, so wird eine Biopsie, eine Gewebeprobe, entnommen. Die Probe wird mithilfe einer kleinen Zange, welche durch das Endoskop geschoben wird, gewonnen.

Nach der Entnahme kommt die Biopsie in ein Labor, wo sie fixiert und eingebettet wird, in dünne Schnitte geschnitten wird, welche dann auf einem Objektträger aufgezogen werden. Daraufhin werden die Schnitte dann eingefärbt und werden mithilfe des LIS einem Pathologen zugeteilt, welcher eine mikroskopische Begutachtung durchführt, und einen histologischen Befund erstellt, der wieder über das LIS weitergeleitet wird. Im histologischen Befund werden wichtige Informationen festgehalten, wie z.B. wie sehr sich der Tumor ausgebreitet hat oder wie stark die Zellen sich verändert haben. Meist erfolgt die Erstuntersuchung der Probe durch HE gefärbte Schnitte. Dabei handelt es sich um eine Standartuntersuchung. Je nach Fragestellung erfolgen danach noch andere Untersuchungen durch andere Färbungen oder Marker, wie z.B. Ki-67 oder Her2. Auf dies soll in der Arbeit aber nicht weiter eingegangen werden, da nur ein Training für ein HE-DL-Modell erfolgen soll. Erst nach der Untersuchung durch den Pathologen kann mit Sicherheit gesagt werden ob es sich um eine Krebserkrankung handelt.

Hämatoxylin-Eosin-Färbung

In der Histologie stellt die mikroskopische Untersuchung des Gewebes durch eine HE-Färbung eine Standartuntersuchung für die meisten Gewebeuntersuchungen da, so auch für die Untersuchung des Drüsengewebes auf kolorektale Karzinome. Bei der He-Färbung handelt es sich um eine Kombinationsfärbung, bei der die Kerne und das Cytoplasma unterschiedlich angefärbt werden. Die Kernfärbung erfolgt mit einer Hämatoxylinlösung und die Cytoplasmafärbung mit einer Eosinlösung.  Dadurch werden erhalten die Zellkerne eine dunkelblau-violette Färbung und das Cytoplasma und faserige extrazelluläre Komponenten erhalten eine rosa Färbung, wie in Abbildung 4 zu sehen ist. Die Anwendung erfolgt meist auf Paraffin- oder Gefrierschnitte. Als erster Schritt wird die Färbung der Zellkerne vollzogen. Hierbei ist die Färbung in der Regel progressiv, was bedeutet, dass der Schnitt nur in der Farblösung bleibt, bis dieser stark genug angefärbt ist. Man vermeidet hierdurch eine Überfärbung des Schnittes. Die färbende Eigenschaft wird bei Hämatoxylin durch Oxidation und zusätzliche Beizung hervorgebracht. Die Färbung erfolgt in saurer Umgebung, wodurch es erst zu einer roten Färbung kommt. Die typische blau-violette Färbung erhält der Schnitt erst während der Neutralisation der Säure in Leitungswasser. Dieser Schritt wird „Bläuen“ genannt. Durch kaltes Wasser kann der Prozess verlangsamt werden und durch wärmeres beschleunigt. Einer Wassertemperatur von unter 10°C kann pinkfarbene Artefakte in den Gewebeschnitten verursachen.

Laborinformationssystem

Unter dem Laborinformationssystem (LIS) bzw. Laborinformations- und Managementsystem (LIMS) versteht man EDV-Anwendungen, welche in probenorientierten Laboren, wie zur Diagnose von Darmkrebs benötigt, zum Einsatz kommen. Das LIS muss eine Vielzahl von Aufgaben erledigen könne, um die notwendigen unterschiedlichen Arbeitsabläufe meistern zu können. Verfügbare LIS sind hochgradig individualisierbar, damit sie an die unterschiedlichen Arbeitsprozesse in den Laboren angepasst werden können. Zu den Aufgaben des LIS gehört die Zuteilung der eingehenden Fälle an die Pathologen, Bereitstellung der Informationen, die Datenverarbeitung, Dokumentation der Labortätigkeit und vieles mehr. Für eine sinnvolle Anwendung des DL-Modells für die Diagnose bzw. im Laborbetrieb, wäre eine Schnittstelle zwischen dem jeweiligen LIS im Labor und dem HSA KIT sinnvoll, da dies zu einem besseren Arbeitsfluss führt.

Computer Vision

Unter Computer Vision versteht man die Fähigkeit des visuellen Sehens bei Computern. Hierbei werden analoge Bildinformationen gesichtet und in ein digitales Signal umgewandelt. Hierfür kommen z.B. Videokameras zum Einsatz. Hinausgehend über dies wird der Begriff als synonym verwendet, um Formen der Technologie zu beschreiben, welche sich mit dem computergestützten Digitalisieren von Bildern und erfassen von darin enthaltenen Informationen beschäftigen. Zu diesen Technologien gehört auch das Deep Learning im Bereich der Bilderkennung und Verarbeitung. In den folgenden Abschnitten wird auf Deep Learning und die damit verbundenen technischen Grundlagen eingegangen.

Deep Learning

Als KI kann eine programmierte Regel bezeichnet werden, die angibt, wie sich eine Maschine in einer bestimmten Situation regieren soll. Somit gilt eine Reihe von „Wenn-Dann“ Anweisungen bereits als KI. Hierdurch wird die KI zu einem riesigen Sektor, weshalb eine genauere Unterscheidung in weitere Teilgebiete sinnvoll ist. Ein Teilgebiet der KI ist das Maschinelle Lernen, welches das Teilgebiet Deep Learning enthält, wie in Abbildung 5 zu sehen.

Maschinelles Lernen kann als eine Reihe von Algorithmen gesehen werden, welche Daten analysieren, von diesen lernen und daraufhin Entscheidungen treffen durch das gelernte. Innerhalb des Maschinellen Lernens werden viele klassische Algorithmen einbezogen für verschiedene Aufgaben wie die Clusterbildung, Regression und Klassifizierung. Für das Training werden große Datenmengen benötigt. Eine Verbesserung des Modells erfolgt durch einen Vergleich der Ground Truth Daten und der Ergebnisse. Dabei werden die Parameter immer wieder so angepasst, dass sich der Fehler zwischen den beiden vermindert. Bei Deep Learning handelt es sich um eine vielschichte Struktur von Algorithmen, siehe Abbildung 6, welche als künstliches neuronales Netz bezeichnet wird. Im Bereich Computer Vision werden innerhalb dieser Schichten Merkmale extrahiert wie z.B. Kanten innerhalb der Eingegebenen Bilder. Durch die vielen Schichten können mithilfe von Deep Learning komplexere Probleme gelöst werden als bei Maschinellen Lernen.

Semantische Segmentierung

Die Segmentierung ist ein Teilbereich innerhalb der digitalen Bildverarbeitung und des Computer Vision. Bei der Bild Segmentierung geht es im Allgemeinen darum, Bilder in verschiedene Bereiche einzuteilen. Hierbei werden Benachbarte Pixel anhand eines ausgewählten Homogenitätskriteriums zusammengefasst. Bei der Segmentierung unterschiedet man zwischen drei verschiedenen Verfahren. Der Semantischen Segmentierung, der Instanz Segmentierung, siehe Abbildung 7, und der Panoptischen Segmentierung, welche die beiden anderen Verfahren kombiniert. Innerhalb dieser Arbeit wird die semantische Segmentierung verwendet.

Bei der semantischen Segmentierung wird jeder Pixel des Bildes einer Klasse zugeteilt. Der größte Unterschied zur Instanz Segmentierung liegt dabei darin, dass zwischen Objekten der gleichen Klasse nicht unterschieden wird. Dies heißt, wenn zwei Objekte der gleichen Klasse aneinander Grenzen, wird bei der Instanz Segmentierung zwei Objekte auf dem Bild erkannt, während bei der semantischen Segmentierung beide Objekte nur als ein Objekt erkannt werden, wie in Abbildung 8 am Beispiel der Kühe zu sehen ist.

Encoder und Decoder Struktur

In der Bildverarbeitung werden Convolutional Neural Networks (CNNs) angewendet. Hierbei handelt es sich um neuronale Netzwerke mit einer besonderen Netzarchitektur, wie in Abbildung 9 dargestellt. Charakteristisch für diese sind die Faltunsgoperationen und ihre Verwendung von Filtermatrices, wodurch die Bewahrung der Lokalisierung der Merkmale ermöglicht wird. Für die semitische Segmentierung muss die räumliche Information beibehalten werden, weshalb hierfür kein Fully Connected Layer, wie es normal am Ende eines CNNs verwendet wird, benutzt. Ein solches Netzt wird dann als Fully Connected Network bezeichnet.

Hierbei wird eine Sogenannte Encoder-Decoder Struktur verwendet. Bei den „normalen“ CNNs wird als Input eine Matrix gegeben und als Ausgabe der innerhalb der verschiedenen Schichten errechnete Zahlenwert, welcher die Klassifizierung des Inputs ermöglicht. Bei der Encoder-Decoder-Struktur wird eine hochskalierte Featur Map, ähnlich dem Input, als Output gegeben. Wie aus dem Namen schon geschlossen werden kann, wird die Netzstruktur in Encoder und Decoder eingeteilt, wie in Abbildung 10 dargestellt. Hierbei ist der Encoder der Teil des Netzes welcher die Merkmale des Inputs extrahiert und an den Decoder übergibt, welcher aus der übergebenen Feature Map den Output kreiert. Innerhalb des HSA KITS ist es möglich verschiedene Encoder und Decoder für die Semantische Segmentierung auszuwählen.

Data Augemntation

Mithilfe der Data Augmentation kann ein Datenset künstlich vergrößert werden, in dem von dem existierenden Daten modifizierte Kopien erstellt werden. Im Bereich der Bildverarbeitung werden hierfür geometrische Veränderungen, wie z.B. Rotation und Spiegelung der Bilder, Größenveränderung oder entfernen von Bildabschnitten, oder Veränderung der Farben, wie z.B. die Änderung der Helligkeit oder des Kontrastes eines Bildes, zum Einsatz, um die Größe und Diversität eines Datensatzes zu erhöhen. Data Augmentation kann eingesetzt werden, wenn der vorhanden Datensatz zu klein ist, aber auch um die Genauigkeit des Modells zu erhöhen, kosten für das manuelle Markieren der Daten zu senken, sowie das Verhindern von Overfitting. Overfitting ist dann der Fall, wenn das DL-Modell gute Ergebnisse auf den Trainingsdaten erzielt, aber auf Daten, welche dem Modell unbekannt sind, versagt. Das heißt beim Overfitting hat das DL-Modell Muster gelernt, welche nur speziell für die Trainingsdaten relevant sind, aber nicht im Allgemeinen Wichtig sind bzw. vorhanden. Neben der Data Augmentation gibt es noch andere Verfahren um Overfittig zu Verhindern. Beim Anwenden von Data Augmentation ist es wichtig drauf zu achten, ob die gewählten Methoden sinnvoll für die vorhandenen Daten sind, um das Übermitteln von widersprüchlichen Informationen zu verhindern oder das Reduzieren der Daten bis zur Unkenntlichkeit zu vermeiden. Ein Beispiel für eine hinderliche Data Augmentation könnte das Spiegeln bei der Erkennung einzelner Buchstaben sein, da somit aus einem d ein b wird und somit die Bilddaten und das zugeteilte Label sich unterscheiden.

Hyperparameter

Für den Bereich des Deep Learning gibt es einige Parameter. Hierbei ist zu beachten, dass man zwischen Parametern und Hyperparametern unterscheidet.  Unter den Hyperparametern werden die Parameter verstanden, welche der Nutzer einstellt, bevor das Training gestartet wird und andere Parameter, welche während des Trainings durch das Modell selbst optimiert werde, wie z.B. die Gewichtung oder Bias innerhalb der Schichten. Hyperparameter können in zwei Kategorien unterschieden werden. Zum einen gibt es Hyperparameter, die die Netzwerkarchitektur festlegen, wie z.B. die Wahl des Encoders und Decoders, siehe Abschnitt Encoder und Decoder Struktur, zum anderen welche die den Rahmen festgelegenen in dem das Modell trainiert werden soll, wie z.B. die Lernrate oder die Anzahl der Epochen.

Grundlagen der Zertifizierung

EU-Medizinprodukte-Verordnung

Die Medical Device Regulation (MDR), auf Deutsch, die Verordnung (EU) 2017/745 über Medizinprodukte, trat 2017 in Kraft und gilt seit dem 26.05.2021. Die MDR muss von Medizinproduktherstellern eingehalten werden, welche ihre Produkte in der EU in Verkehr bringen oder in Betrieb nehmen wollen. Neben den Herstellern ist die MDR auch für Händler und Importeure sowie die Benannten Stellen von Relevanz. Bei den Benannten Stellen handelt es sich um Konformitätsbewertungsstellen, welche gemäß der MDR benannt wurden. Dabei handelt es sich um eine dritte Partei, welche Konformitätsbewertungen, also Verfahren zur Feststellung, ob ein Produkt den Leistungs- und Sicherheitsanforderungen der MDR entsprechen, durchführt. Innerhalb der MDR werden die Produkte in vier Klassen eingeteilt. Hier geht es von der Klasse I, Klasse mit dem geringsten Risiko, über Klasse IIa und IIb, bis zu Klasse III, Klasse mit dem höchsten Risiko. Die Bestimmung der Klasse eines Medizinprodukts erfolgt abhängig der Zweckbestimmung und der damit einhergehenden Risiken. Bei der Zweckbestimmung handelt es sich um den, durch den Hersteller bestimmten, Anwendungsbereich. Kommt es anhängig der Zweckbestimmung zur Anwendung mehrere Klassifizierungsregeln bei einem Produkt, so gilt die strengste Regel und das Produkt wird in die höchstmögliche Klasse eingestuft. Abhängig der Klassifizierung erhöhen sich die Anforderungen an das jeweilige Medizinprodukt. Z.B. sind die Anforderungen, die die MDR vorgibt, an eine Gehhilfe, welche der Klasse I angehört, geringer als an einen Herzkatheter, welcher bei einer Fehlfunktion zum Tod des Patienten führen kann. Die Anforderungen an den Hersteller sind vielseitig und können in produktübergreifende und produktspezifische Anforderungen eingeteilt werden. Produktübergreifende Anforderungen an den Hersteller sind das Qualitätsmanagementsystem (QMS), welches für Produkte ab Klasse IIa meist eine Zertifizierung benötigt, das Risikomanagementsystem und das eine Verantwortliche Person vom Hersteller beschäftigt wird, welche für die regulatorische Konformität verantwortlich ist. Zu den produktspezifischen Anforderungen zählt die oben genannte Klassifizierung des Produkts, grundlegende Sicherheits- und Leistungsanforderungen, die Technische Dokumentation, eine Klinische Bewertung des Produkts, die Unique Device Identifikation, zur eindeutigen Identifizierung eines Produkts, Labeln des Produkts, damit einhergehend auch Anforderungen an die Gebrauchsanweisung und sonstige Begleitmaterialien, die Konformitätsbewertung und die Post-Market Surveillance (PMS) und Vigilanz.

Verordnung für In-vitro-Diagnostika

Handelt es sich bei einem Medizinprodukt um ein In-vitro-Diagnostikum, so ist laut MDR Artikel 1, (6), a, die MDR nicht anzuwenden. In diesem Fall greift die europäische In vitro Diagnostic Device Regulation (IVDR), auf Deutsch, die Verordnung (EU) 2017/746 über In-Vitro-Diagnostika.  In dieser ist in Artikel 2,2 der Begriff In-vitro-Diagnostikum bestimmt und damit zu überprüfen, ob es sich nicht um ein solches Handelt. Die IVDR trat wie die MDR 2017 in Kraft, ist aber erst seit dem 26.05.2022 gültig. Neben den im Kapitel 2.3.1 genannten Gruppen, für die die MDR gilt, gibt es in der IVDR zusätzlich noch Anforderungen für Labore, die sogenannte In-house-IVD herstellen, Kliniken als Betreiber der Produkte, Lieferanten von For Research Use Only Produkten, sowie Pharmahersteller, im Bereich Companion Diagnostics. Die In-vitro-Diagnostika (IVD), erhalten über die IVDR eine andere Klassifizierung. Das Klassifizierungssystem der IVDR besteht aus den Risikoklassen A-D, welche sich wie bei der MDR, nach der Zweckbestimmung des Produktes richtet und der damit möglichen Gefahr. Abhängig der Risikoklasse eines IVDs wird, wie bei der MDR über das Konformitätsverfahren entschieden, welches angewandt werden muss und der damit zusammenhängende Aufwand. Ähnlich ist außerdem, dass ab der zweiten Klasse, in der MDR Klasse IIa und in der IVDR Klasse B, das QMS durch eine Benannte Stelle auditiert werden muss und die Technische Dokumentation geprüft wird. Die Anforderungen der IVDR sind genauso umfangreich, wie die der MDR und unterscheiden sich hinsichtlich der möglichen Einteilung. Ein grundlegender Unterschied der Anforderungen der IVDR ist, dass keine klinische Bewertung von Nöten ist, sondern eine sogenannte Leistungsbewertung gefordert wird.

Qualitätsmanagementsystem

Sowohl für die Konformitätsverfahren der Zulassung von Medizinprodukten durch die MDR als auch bei der Zulassung von IVD durch die IVDR, werden ab der zweiten Klasse die Auditierung des QMS, meist sogar die Zertifizierung, verlangt. Das QMS eines Herstellers kann sich auf mehrere Produkte und Leistungen beziehen. Durch die Tatsache, dass Medizinprodukte an Menschen eingesetzt werden oder Auskunft über den Zustand eines Menschen geben, sind die Ansprüche and die Zuverlässigkeit und Sicherheit hoch. Das Gesetzt bzw. die Verordnungen schreiben dem Medizinproduktehesteller vor, dass die beschriebenen Leitungen des Produkts ordnungsgemäß und zuverlässig erfüllt werden können und dass das Gefahrenpotential eines Produktes so weit wie möglich durch den aktuellen Stand der Technik gesenkt wird. Der Hersteller trägt hierbei die Haftung, dass dies auch erfüllt ist. Um zu gewährleisten das in allen Bereichen die Qualität gesichert ist, wird das QMS benötigt. Der Nachweis das es den gesetzlichen Anforderungen nach MDR und IVDR entspricht, kann über die Zertifizierung des QMS gemäß der harmonisierte Norm ISO 13485 erfolgen. Diese Norm hat als Zielsetzung die Sicherstellung, dass die regulatorische Konformität des Herstellers und dessen Produkt den gesetzlichen Anforderungen entsprechen, sowie die Sicherheit der Medizinprodukte gewährleistet wird.

Technische Dokumentation

Als Technische Dokumentation werden alle Dokumente verstanden, die von einem Medizinproduktehersteller bereitgestellt werden müssen. Das Erstellen der Technischen Dokumentation ist die Voraussetzung für eine Konformitätsbewertung. Somit ist sie auch Voraussetzung für die Zulassung des Produktes. Die Verordnungen stellen nicht nur Anforderungen an das Produkt, sondern auch an die Dokumentation des Produkts und damit verbundene Prozesse, siehe Abbildung 11.

Post-Market Surveillance

Als PMS, der Überwachung nach Inverkehrbringung, wird ein Prozess bezeichnet, welcher proaktiv und systematisch notwendige Korrektur- und Vorbeugemaßnahmen ableitet, aus Informationen von schon in Verkehr gebrachter Medizinprodukte. Hierbei geht es darum, dass bei einem Medizinprodukt zwar schon vor der Zulassung die Risiken minimiert werden müssen und die Sicherheit der Patienten gewährleistet ist, aber einige Risiken sich erst offenbaren, wenn die Anwender das Produkt täglich einsetzten. Die Ziele der PMS sind:

  • Die systematische Identifizierung von Risken im praktischen gebrauch
  • Die Überprüfung der Leistungsfähigkeit des Produkts im praktischen gebrauch
  • Aufdeckung unentdeckter Sicherheitsprobleme und Produktfehler
  • Die kontinuierliche Aktualisierung der Nutzen-Risiko-Bewertung
  • Falls notwendig, Maßnahmen zum Rückruf einzuleiten

Hersteller können alleinig durch die kontinuierliche und systematische Überwachung der in Verkehr gebrachten Produkte sichern, dass es keine unkontrollierten Risiken auftreten und der Nutzen, welcher verspochen wurde, dem Patienten geboten wurde.

Zweckbestimmung

Wie schon in Kapitel 2.3.1 und 2.3.2 erwähnt, spielt die Zweckbestimmung eine wichtige Rolle bei der Zulassung von Medizinprodukten. In der Zweckbestimmung bestimmt der Hersteller die Verwendung des Produktes. Hierbei ist eine präzise und korrekte Formulierung entscheidend für die erfolgreiche Zulassung eines Produktes. In der Zweckbestimmung wird festgelegt, welchen Medizinischen Zweck das Produkt erfüllen soll, wie z.B. zur Diagnose welcher Krankheit es eingesetzt wird oder was für Verletzungen mit überwacht werden können. Neben dem medizinischen Zweck sollten auch Indikationen und Kontraindikationen, Faktoren wann das Produkt verwendet werden sollte und unter welchen Umständen es keine Anwendung finden sollte bzw. nach strenger Abwägung, festgelegt. Eine Kontraindikation könnte z.B. für eine Diagnose mithilfe einer Röntgenuntersuchung, die Schwangerschaft sein, da hierbei Risiken für Embryo oder Fötus bekannt sind.  Zudem sollten die vorgesehene Patientengruppe, das Körperteil und Nutzerprofil adressiert werden. Des Weiteren sollte die Nutzungs- oder Gebrauchsumgebung beschrieben werden. Hierbei kann zwischen der physikalische, sozialen, technischen und klinischen bzw. laboratorischen Umgebung. Hinzu sollten die Funktionsweise und das zugrundeliegende physikalische Prinzip, falls nötig, adressiert werden. Normalerweise wird in diesem Dokument auch der sonstige bestimmungsmäßige gebrauch vom Hersteller eingefügt. Darunter sind z.B. Aspekte wie die Reinigung, Lagerung und Transport zu verstehen, die Wichtig für die Instandhaltung des Produktes sind, aber nichts mit dem medizinischen Zweck oder der medizinischen Anwendung zu tun haben, siehe Abbildung 12.

Die Zweckbestimmung ist auf der Kennzeichnung, in der Gebrauchsanweisung oder Werbe- oder Verkaufsmaterialien, sowie auf den Angaben bei der klinischen Bewertung bzw., bei IVD, der Leistungsbewertung zu finden. Ein Produkt kann deshalb mehrere Zweckbestimmungen haben, die sich im Detail- und Abstraktionsgrad zwar unterscheiden, sich aber nicht widersprechen dürfen.

Medizinische Software und Software als Medizinprodukt

Software, die im Gesundheitswesen eingesetzt wird, wird als medizinische Software bezeichnet. Diese kann in mehrere Bereiche unterteilt werden. Zum einen kann die Software ein Teil eines Medizinproduktes, z.B. embedded Software eines medizinischen Gerätes sein. Zum anderen gibt es sogenannte Standalone-Software als Medizinprodukt, also Software, die ein eigenes Medizinprodukt und nicht Teil eines anderen ist. Des Weiteren gibt es noch Software als Zubehör eines Medizinproduktes und Eigenständige Software, welche kein Medizinprodukt ist. Standalone-Software, welche kein Medizinprodukt ist, aber im medizinischen Umfeld eingesetzt wird, kann beispielsweise eine Software zur reinen Dokumentation sein. Abhängig der Einteilung der Software in die vier Bereiche müssen durch den Hersteller unterschiedliche Regularien beachtet werden. Ob sich einer Software als Medizinprodukt qualifiziert ist eigentlich nur bei Standalone-Software zu Prüfen. Hierbei hängt es wieder von der durch den Hersteller festgelegten Zweckbestimmung fest und nicht von der Funktion. Erfasst z.B. eine Software Vitalparameter, so kann sie Anhand der Zweckbestimmung, trotz gleicher Funktion, als Medizinprodukt eingestuft werden. Zum einen kann die Zweckbestimmung, wie oben geschrieben, die reine Dokumentation sein, zum anderen könnte die Zweckbestimmung enthalten, dass ein Arzt anhand der Datenerfassung Trends frühzeitig erkennen könnte und darüber die richtige Medikation auswählen kann. Im ersten Fall würde es sich nicht zu einem Medizinprodukt qualifizieren, im zweiten wäre es ein Medizinprodukt. Als besonders relevant zum Thema Fallunterscheidung bzw. zur Einteilung in die Gruppen, gilt das Dokument MDCG 2019-11.  Hierbei handelt es sich um eine Leitlinie zur Qualifizierung und Klassifizierung medizinischer Software unter Bezugnahme der MDR. Das Dokument wurde von der Medical Device Coordination Group (MDCG) herausgebracht. Bei der MDCG handelt es sich um ein nach MDR Artikel 103 und IVDR Artikel 98 gefordertes Expertengremium. Hierbei ist anzumerken, dass die MDCG vor allem eine beratende und koordinierende Funktion besitzt und nicht entscheidungsbefugt ist. Sie wird vor diversen Entscheidungen von der EU-Kommission angehört. Somit sind die Dokumente rechtlich nicht bindend, werden aber dennoch gern zur Interpretation hinzugezogen. Für die Klassifizierung muss für Software, wie für andere Medizinprodukte, der Anhang VIII der MDR beachtet werden. Für die Durchführungsbestimmungen sind hierbei MDR Anhang VIII, 3.3. und 3.5. besonders wichtig. In der Vorschrift 3.3. geht es darum, wann eine Software mit einem anderen Produkt klassifiziert wird und wann sie für sich allein klassifiziert werden muss. In der Vorschrift 3.5. wird darauf hingewiesen, dass mehrere Regeln oder Unterregeln, der Klassifizierungsregeln, auf eine Zweckbestimmung zutreffen können und hierbei die strengste Regel, welche zur höchsten Klassifizierung führt, anzuwenden ist. Dies ist im Hinblick auf Software interessant, da in Anhang VIII unter den Klassifizierungsregeln die Regel 11 zu finden ist, welche sich speziell auf Software bezieht, aber in der MDR Artikel 2, (4) festgelegt ist, das Software zu den aktiven Produkten gehört. Somit sind auch die anderen Klassifizierungsregeln für aktive Produkte zu Prüfen. Wichtig ist, dass Regel 11 keine Anwendung für Software findet, welche z.B. nur zur Steuerung der Hardware eines Medizinproduktes verwendet wird, und keinen eigenen medizinischen Nutzen hat, da diese als Zubehör eines Medizinproduktes gilt.

IVD-Software und Software als IVD

So wie bei anderen Medizinprodukten, muss auch bei Software abgeklärt werden, ob es sich nicht um ein IVD handelt und somit unter die IVDR fällt. Im Gegensatz zu medizinischer Software, gibt es für IVD-Software keine klare Definition, obwohl Software als IVD oder als Zubehör eines IVDs immer mehr zum Einsatz kommt. Trotzdem kann und muss zwischen Software, die im Bereich IVD eingesetzt wird zwischen verschiedenen Varianten unterschieden werden. Abhängig dieser Unterscheidung kann festgestellt werden, ob die Software nach MDR, IVDR klassifiziert werden muss oder überhaupt nicht über die zwei EU-Verordnungen reguliert wird. Ähnlich die medizinische Software, muss bei IVD-Software geprüft werden, ob es sich bei der Software um Software als IVD, als Zubehör eines IVDs, als Teil eines IVDs oder ob es sich überhaupt um ein Medizinprodukt handelt. Hinzukommend muss auch unterschieden werden, ob es sich um eine Software handelt, welche ein IVD steuert oder die Anwendung beeinflusst und ob es sich um eine Software handelt, welche im IVD-Kontext Anwendung findet, dennoch unter die MDR fällt. Wie bei Software als Medizinprodukt, ist auch bei Software als IVD die Zweckbestimmung relevant, ob es sich also solches qualifiziert. Zur Hilfe, ob eine Software nach MDR oder nach IVDR klassifiziert werden soll, kann wieder das MDCG 2019-11-Dokument hinzugezogen werden. Da sich die Zweckbestimmung von Medizinprodukten und IVDs überlappen können, wird in diesem Dokument zusätzlich zu der Frage, ob die Software Informationen für den IVD-Bereich liefert, unterschieden, ob die Daten, auf denen die Informationen beruhen, ausschließlich durch IVDs gewonnen wurden. Ist dies der Fall, so gilt für diese Produkte die IVDR ist dies nicht der Fall, wird zusätzlich überprüft, ob die Zweckbestimmung hauptsächlich durch IVDs als Datenquelle erfüllt wird oder nicht. Wird die Zweckbestimmung hauptsächlich auf Grundlage durch IVDs gewonnenen Daten erfüllt, so fällt die Software wieder unter die IVDR. Wird die Software zwar im IVD-Kontext eingesetzt, aber bei den Datenquellen, durch die die Zweckbestimmung erfüllt wird, handelt es sich um Medizinprodukte, so soll die Software nach MDR-Konformität zugelassen werden. Wie bei der MDR sind die Klassifizierungsregeln in der IVDR in Anhang VIII zu finden. Auch dort ist bei den Durchführungsvorschriften unter Anhang VIII 1.4. geregelt, wann Software mit einem anderen Produkt klassifiziert wird und wann sie für sich allein klassifiziert werden muss und unter Anhang VIII 1.9. geregelt, dass bei mehrfach möglicher geltender Klassifizierungsregeln, die Regel angewandt werden muss, welche zur höchsten Einstufung führt. Bei den Klassifizierungsregeln gibt es, im Gegensatz zur MDR, keine Regel die spezifisch auf Software bezieht.

KI -Anwendungen als Medizinprodukt oder IVD

Sowohl die MDR als auch die IVDR stellt Anforderungen direkt an Software bzw. erwähnt Software zusätzlich, wie z.B. in der MDR, in Anhang I, 17.2, und IVDR, in Anhang I, 16.2,  zum Thema Grundlegende Sicherheits- und Leistungsanforderungen,  für die Anforderungen an die Auslegung und den Hersteller gefordert wird, das die Software entsprechend dem Stand der Technik entwickelt und hergestellt wird und das dabei, Informationssicherheit, Verifizierung und Validierung, das Riskmanagement und der Software-Lebenszyklus berücksichtigt werden müssen. Da es sich bei KI um Software handelt, müssen alle bestehenden regulatorischen Anforderungen der MDR oder IVDR berücksichtigt werden. Wie im Kapitel 2.2 beschrieben, handelt es sich z.B. im Bereich des maschinellen Lernens oder dem Deep Learning aber nicht um eine Software, bei der im Programmcode Schritt für Schritt kontrolliert werden kann, welche Eingabe welche Ausgabe erzeugt, sondern es handelt sich um ein selbstlernendes System. In der MDR oder IVDR wird aber nur auf Software im allgemeinen Eingegangen, eine Regulierung speziell für KI ist noch nicht gegeben von Seiten der EU und soll durch die geplante KI-Verordnung erfolgen. Die KI-Verordnung ist eine Verordnung, welche den allgemeinen Einsatz von KI in der EU regulieren soll, und bezieht sich nicht spezielle auf Medizinprodukte oder IVDs, geht aber auch auf die Regulierung solcher Produkte ein. Somit muss bei in Kraft treten der Verordnung zukünftig für solche Produkte nicht nur die MDR oder IVDR beachtet werden, sondern auch die KI-Verordnung. Da es aber schon zum jetzigen Zeitpunkt die Einbindung von KI-Anwendungen in Medizinprodukte große Fortschritte z.B. bei der Diagnose erzielt, stellt sich die Frage, wie der Hersteller die Konformität bei solchen Produkten nachweisen soll. Meist werden in solchen Fällen harmonisierte Normen angewandt, mit deren Hilfe nachgewiesen werden kann, dass die Anforderungen der jeweiligen Rechtsvorschrift eingehalten werden. Diese existieren auch noch nicht speziell für KI-Anwendungen, können aber trotzdem spezielle Anforderungen enthalten, welche für KI-Anwendungen relevant sind. Zusätzlich dazu gibt es einige Normen sowie Best Pratices bzw. Leitfäden, die Hilfestellung bieten, auf was im Bereich maschinelles Lernen und Deep Learning oder KI im Allgemeinen zu achten ist. Hierbei ist wichtig anzumerken, dass meistes nicht zwischen den verschiedenen Bereichen von KI unterschieden wird.

Einer dieser Leitfäden ist der Questionnaire Artificial Intelligence in medical devices, welcher von der Interessensgemeinschaft der Benannten Stellen für Medizinprodukte in Deutschland (IG-NB) herausgebracht wurde. Dieser beruht teilweise auf dem Dokument „Guideline for AI for medical devices“ welches von Christian Johner und Christoph Molnar verfasst wurde. Am Anfang des Dokuments wird darauf hingewiesen, dass das Dokument werden den Anspruch hat vollständig zu sein, noch das es als gesetzlich bindend gilt. Des Weiteren wird im ersten Abschnitt des ersten Kapitels geklärt, welche Art von KI als zertifizierbar gilt und welche nicht. Hierbei wird einmal unterschieden zwischen statischer KI, also KI, welche etwas gelernt hat und in diesem erlernten Zustand agiert, und dynamischer KI, also KI, die kontinuierliche weiterlernt und sich anpasst. Laut dem Dokument gilt dynamische KI als nicht zertifizierbar, da dauerhaft eine neue Verifizierung und Validierung nötig wäre. Handelt es sich um statische KI, gilt diese prinzipiell als zertifizierbar. Falls es sich dabei um eine sogenannte Black Box KI handelt, also KI bei, der keine Erklärung vorhanden ist, wie die Ergebnisse erlernt werden, so wird angemerkt, dass es immer eine Fallentscheidung durch die Benannte Stelle ist, welche die regulatorischen Anforderungen prüft. Danach folgen viele Fragen, welche die IG-NB als wichtig erachtet. Das Dokument nimmt Bezug auf die MDR und IVDR sowie harmonisierte Normen und Leitlinien. Gibt es zu dem gestellten Fragen schon ein entsprechendes Dokument, so wird am rechten Rande neben der Frage, das Dokument genannt, sowie an welcher Position es dort zu finden ist. Besondern auffällig ist, das im Bereich der Fragen, bei denen es um das Datenmanagement geht, also um wie werden die Daten gesammelt, eingeteilt, gelabelt und bearbeitet bzw. vorverarbeitet, sowie im Bereich der Fragen zur Modellentwicklung so gut wie kein Bezug auf andere Dokumente genommen wird. Dies liegt daran, dass dieser Bereich viele Fragen enthält, die speziell für KI-Anwendungen relevant sind, nicht aber für andere Software und somit wie oben beschrieben weder die MDR noch die IVDR, Bezug darauf, nimmt und es auch noch keine andere relevante Verordnung oder harmonisierte Normen gibt, obwohl dies ein sehr wichtiger Bereich bei der Entwicklung von KI-Anwendungen ist. Das Dokument ist auch in der Hinsicht interessant, dass dies KI-Anwendungen eine Begutachtung durch eine Benannte Stelle benötigt und während den Audits bzw. bei der Prüfung der Technischen Dokumentation, zumindest die Benannten Stellen in Deutschland, ähnliche Fragen gestellt werden.

Des Weiteren ist für Hersteller solcher KI-Anwendungen die Beobachtung bzw. Einbeziehung der Entwürfe oben genannten KI-Verordnung interessant. Diese sind zwar noch nicht rechtlich bindend, die KI-Verordnung wird aber kommen und somit können schon für die Zukunft relevante Verfahren vorbereitet werden. Bei der Einstufung von KI innerhalb der KI-Verordnung soll ein Risikobasierten Ansatz verfolgt. Hierbei gibt es vier Risikostufen, die von minimalem Risiko, über geringes Risiko und hohes Risiko, bis hin zu unannehmbarem Risiko gehen. Abhängig dieser Stufen unterscheiden sich die Anforderungen, die an die Anwendung gestellt werden. Hierbei soll an KI-Anwendungen mit minimalem Risiko, zusätzlich zum Einhalten bestehenden Rechts, keine weitere Anforderung gestellt werden. Bei geringem Risiko sollen Transparentverpflichtungen auferlegt werden. Bei hohem Risiko soll es verbindliche Anforderungen, in Bereichen wie z.B. der Qualität der Datensätze oder der technischen Dokumentation, geben. Besonders die Änderungen, welche Hochrisiko-KI-Systeme betreffen, sind für Medizinprodukte- oder In-vitro-Diagnostika-Hersteller interessant, da nach Artikel 6, (1), b), des Entwurfs der KI-Vorschrift, KI-Systeme in diese Klassifizierungsvorschrift fallen, bei denen eine Konformitätsbewertung durch Dritte, durch eine in Anhang II genannten Harmonisierungsrechtsvorschrift, vor Inverkehrbringung oder Inbetriebnahme, erfolgen muss. In Anhang II sind sowohl MDT als auch IVDR zu finden. Somit zählt jede KI-Anwendung, welche nach MDR mindestens der Klasse IIa zugeordnet wird und nach IVDR der Klasse B, als Hochrisiko-KI-System.

Ein weiteres Dokument, welches interessant für die Hersteller solcher Produkte ist, ist das Good Machine Learning Practice for Medical Device Development: Guiding Principles, welches in Zusammenarbeit der U.S. Food and Drug Administration, Health Canada und United Kingdom’s Medicines and Healthcare products Regulatory Agency. Hierbei handelt es sich um ein sehr kurzes Dokument, welches zehn Leitprinzipien enthält, die bei maschinellem Lernen in Medizinprodukten berücksichtigt werden sollten. Hierbei handelt es sich zwar um ein sehr kurzes Dokument, kann aber sehr gut genutzt werden, um eine Übersicht über die wichtigsten Prinzipien zu bekommen.

Metriken

Soll eine KI-Anwendung, basierend auf einem DL-Modell, zugelassen werden, so muss das DL-Modell evaluiert werden. Während dem Training eines DL-Modells wird meist das Ergebnis der Verlustfunktion ausgegeben. Hierbei geht es um die Funktion, welche den in Kapitel 2.2.1 erwähnten Fehler berechnet und den das DL-Modell durch Anpassung der Parameter versucht zu minimieren. Anhand dieser Ausgabe kann verfolgt werden, ob es zu der gewünschten Optimierung des DL-Modells kommt. Die Verlustfunktion gibt aber nur Informationen zum Optimierungsfortschrittes des Modells während des Trainings an, weshalb zu Evaluierung der Ergebnisse Metriken herangezogen werden müssen. In dieser Arbeit werden hierfür die bekannten und standardmäßigen Metriken verwendet, welche im Bereich Klassifizierung und Segmentierung eingesetzt werden. Der Einsatz dieser bietet den Vorteil, dass sie das DL-Modell vergleichbar mit existierenden DL-Modellen und mit einfacheren Verfahren macht.

Als allererstes soll hierfür die Konfusionsmatrix erklärt werden, anhand welcher die Zusammensetzung der Metriken erfolgt.

In Abbildung 13, ist eine Binäre Konfusionsmatrix zu sehen. Innerhalb der Matrix werden in die rot und grün gefärbten Felder die korrekten und inkorrekten Ergebnisse des DL-Modells eingetragen. Zur Erklärung, was die einzelnen Felder bedeuten, erfolgt am Beispiel eines Bildes, in welches als Abbildung eines Autos oder keines Autos klassifiziert werden soll. Bei dem ersten Feld, welches als „True Positiv“ (TP) beschriftet ist, wird die Anzahl eingetragen, bei der die Vorhersage ein Auto ist und es auch in Wirklichkeit ein Auto ist. Im zweiten Feld, dem „False Negativ“ (FN) beschrifteten Feld, steht die Anzahl bei denen das Bild als kein Auto klassifiziert wurde, obwohl es in Wirklichkeit ein Auto abbildet. Im nächsten Feld, dem „False Positiv“ (FP) Feld, wird die Anzahl eingetragen, in denen die Vorhersage ein Auto klassifiziert, es sich aber um eine Abbildung mit keinem Auto handelt. Das letzte Feld, welches als „True Negativ“ (TN) beschriftet ist, enthält die Anzahl der vorhersagen, in denen es kein Auto ist und dies auch der Wirklichkeit entspricht. Anhand der vier verschiedenen Möglichkeiten, TP, FN, FP und TN, können die Formeln für die Metriken erstellt werden.

Als eine der bekanntesten Metriken zählt die Accuracy. Diese ist wie folgt definiert:

Durch die Accuracy kann angegeben werden, welcher Prozentsatz der Vorhersagen korrekt bzw. der Wirklichkeit entsprechend getroffen wurden. Die Accuracy kann aber irreführend sein, wenn ein unausgeglichenes Klassenverhältnis herrscht. Angenommen es soll die Accuracy für die Klassifizierung einzelner Pixel bei einem Datensatz, welcher zu 95% aus Hintergrundpixel und zu 5% aus Vordergrundpixel besteht, erfolgen, so bekommen wir bei einer Vorhersage, welche alle Pixel als Hintergrund klassifiziert eine Accuracy von 95% heraus.

Um der Problematik des Klassenungleichgewichts entgegenzuwirken, können die Metriken Precision und Recall, sowie der aus den beiden errechenbare F1-Score, berechnet werden.

Die Definition der Precision lautet:

Die Definition des Recalls lautet:

Die Precision gibt hierbei an, wie viele Prozent der positiv vorhergesagten Fälle, korrekt vorhergesagt wurden. Mit dem Recall wird errechnet, wie viel der in Wirklichkeit positiven Fälle, korrekt vorhergesagt wurden. Sowohl die Precision als auch den Recall gilt es so weit wie möglich zu maximieren. Beim F1-Score handelt es sich um ein harmonisches Mittel der Precision und des Recalls. Dieser ist definiert als:

Umso höher der F1-Score ist, umso weniger wurden falsche Vorhersagen getroffen. Eine weitere Metrik, welche oft verwendet wird, ist der Jaccard-Index, welcher auch unter dem Namen Intersection over Union (IoU) bekannt ist. Dieser ist wie folgt definiert:

Der IoU gibt an, wie sehr sich zwei Mengen überschneiden. Dieser ist hiermit besonders hilfreich für die Evaluierung der Perfomance einer Segmentierung. Der Wert bewegt sich in einem Bereich von Null bis Eins und höher der IoU liegt, desto höher ist die Schnittmenge. Liegt der IoU bei Eins, so liegen beide Mengen perfekt übereinander.

Die oben genannten Metriken sind in den definierten Formen abhängig von der Konfusionsmatrix. Diese wurde beispielhaft für zwei Klassen angeführt, kann aber wenn nötig, mit einer beliebigen Anzahl an Klassen erweitert werden. Dies führt dann dazu, dass die Angaben, wie True Positiv, False Negativ etc. klassenspezifisch werden. Somit können die Matriken für die einzelnen Klassen berechnet werden. Ein Gesamtergebnis aller Klassen, kann durch das Bilden des Mittelwertes der Summe der einzelnen Klassen ermittelt werden.

Stand der Technik

Im Verlauf dieses Kapitels werden andere Arbeiten vorgestellt, welche sich mit verwandten Herausforderungen beschäftigen, sowie ein paar Beispiele von KI-Anwendungen genannt werden, welche schon zugelassen wurden.

Ben Hamida et. al testen und vergleichen mehrere bekannte DL-Architekturen. Innerhalb der Arbeit werden die Architekturen AlexNet, VGG-16, ResNet, DenseNet und Inceptionv3 für eine Patch-level Klassifikation verwendet. Für diese DL-Modelle gibt es innerhalb der Arbeit 8 verschiedene Klassen. Es wird in Tumor, Stroma, Gewebe, Nekrose, Immun, Fett, Hintergrund und Müll klassifiziert. Für das Training wurde die letzte Schicht bei allen Architekturen auf die Anzahl der Klassen der Datensets angepasst. Die Modelle wurden auf dem AiCOLO-8 trainiert, welcher 396 HE WSIs enthält, von denen nur 15% spärlich annotiert wurde. Für das Training wurde weakly supervised learning angewendet und aus den gelabelten WSIs wurden 256×256 Patches erstellt und für das Training auf 224×224 umgeändert. Der resultierende Datensatz wurde in Training- und Testdatensatz unterteilt. WSIs ohne Annotationen wurden für die Validierung verwendet. Alle DL-Modelle wurden einmal von Grund auf neu trainiert und zweimal mit verschiedenen Transferlernansätzen trainiert, zum einen mit dem Fine-Tuning und einmal als Fixed Feature Extraktor. Die transferlernen DL-Modelle wurden erst auf dem ImageNet Datenset trainiert, einem Datensatz der mehr als 14 Millionen Bilder, welche in 1000 verschiedene Klassen eingeteilt sind, enthält. Die Modelle wurden auf den Datensets CRC-5000, welcher 5000 Bilder enthält, NCT-CRC-HE-100K, welcher 107.180 Bilder enthält, und auf einem aus den anderen beiden gemischten Datensatz, mit 120.180 Bilder, getestet. Die höchste Accuracy wurde bei allen drei Datensätze, mit 96,77%, 99,76% und 99,98%, in der Reihenfolge wie oben genannt, bei dem ResNet ermittelt, welches mit Fine-Tuning trainiert wurde. Des Weiteren wurden in der Arbeit die Architekturen UNet und SegNet für eine Pixel-level Segmentierung verglichen. Beides Architekturen, welche eine Encoder-Dekoder-Struktur ausweisen. Hierfür wurde aus dem AiCOLO-8 der AiCOLO-2 erstellt, welcher nur die Klassen Tumor, hierfür 976 Proben für das Training, oder kein Tumor, hierfür 2488 Proben für das Training, enthält. Die DL-Modelle wurde einmal wieder von Grund auf Trainiert basierend auf den Bildern und Masken des AiCOLO-2 und durch Fine-Tuning, bei dem erst auf dem BreastHis Datenset trainier wurde. Dieser enthält 42 Brustkrebsbilder mit jeweils 1000×1000 Pixel, welche für die Arbeit in 256×256 Bilder zerschnitten wurden. Die verschiedenen Modelle wurden auf dem oben genannten CRC-5000 und NCT-CRC-HE-100K getestet, sowie auf dem Warwick Datensatz, welcher 165 Bilder enthält. Die höchste Accuracy wurde hier mit dem SegNet, welches von Grund auf neu trainiert wurde erzielt. Hierbei wurden für die genannten Testdatensätze eine Accuracy von 98,66%, 99,12% und 78,39%, in der Reihenfolge wie oben genannt, ermittelt.

I am text block. Click edit button to change this text. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.Zhigang Song et. trainieren in ihrer Arbeit ein DL-Modell, welches auf der Architektur von DeepLabv2 basiert und von ihnen mit ResNet-34 modifiziert wurde, zur Erkennung von Kolorektalem Adenom. Das Modelle wurde auf 177 genau annotierten Slides trainiert und auf 194 Slides getestet, sowie mit den Ergebnissen von fünf Pathologen verglichen. Die Robustheit bzw. allgemeine Anwendbarkeit wurde auf 168 Slides aus zwei anderen Krankenhäusern getestet. Das Trainings- und Testdatensets wurden mit einem 40x Objektiv eingescannt. Für das Training wurden zwei Ansätze verfolgt. Zum ersten wurde die modifizierte Architektur mit anderen bekannten Architekturen für ein Training mit dem Sichtfeld 20x und 320×320 Pixel Patches verglichen. Nach dem Sichergestellt wurde, dass das die eigene Architektur die besten Resultate erzeugt, wurde auf dieser sechs verschieden DL-Modelle trainiert. Die DL-Modelle wurden für die Sichtfelder 10x, 20x und 40x trainiert und für jedes Sichtfeld einmal mit 320×320 Pixel Patches und 640×640 Pixel Patches. Die besten Ergebnisse erzielte das Modell, welches mit einem Sichtfeld von 10x und 640×640 Pixel Patches trainiert wurde. Das Modell hatte bei den Validierungsdaten eine Accuracy von 95% und es wurde für den eigenen Testdatensatz ein Area under the Curve Wert von 0.92 bei der Receiver Operating Characteristic (ROC-Kurve) ermittelt. Auf dem Datensatz zum Test der allgemeinen Anwändbarkeit wurde einen Accuracy von über 90% erzielt.

Ein Beispiel für ein Unternehmen, welches zugelassene KI-Anwendungen in der Histologie hat, ist die Mindpeak GmbH. Diese haben laut Website schon mehrere Anwendungen, welche durch die CE-IVD Kennzeichnung als medizinisches Produkt vermarktet werden. Beispiele hierfür sind die Mindpeak Breast Ki-67 HS Software und die Mindpeak Breast HER2 Rol Software.

Zweckbestimmung und Klassifizierung des DL-Modells

Innerhalb dieses Kapitels soll die Zweckbestimmung des DL-Modells beschrieben werden. Zusätzlich soll geklärt werden, ob das Produkt unter die MDR oder die IVDR fällt und welche Klasse es voraussichtlich zugeteilt werden kann.

Der Einsatzzweck des Modells und die Rahmenbedingungen wurden wie folgt festgelegt:

Es handelt sich um eine Software, welche in der Histologie, genauer, zur Untersuchung von kolorektalen Karzinomen eingesetzt wird. Die Software soll auf digitalisierten, HE gefärbten, Schnitten, gesunde Drüsen, Adenome und Karzinome erkennen. Die Software soll keine genaue, exakte Markierung der Drüsen erstellen, viel mehr, durch semantische Segmentierung, den Schnitt in gesunde, Adenom oder Karzinom enthaltende Bereiche einteilen. Bei einer Unsicherheit soll sich die Software immer für den jeweils schlimmeren Zustand entscheiden. Die Software selbst stellt keine Diagnose, soll aber dem Pathologen helfen, schneller bestimmte Bereiche zu finden.

Innerhalb der gewählten Formulierung wurde der Begriff Software verwendet und nicht KI-Anwendung, da das DL-Modell innerhalb der Software HSA KIT angewendet wird und es für die Qualifizierung zu einem Medizinprodukt und die damit verbundene Klassifizierung nach MDR oder IVDR, wie in Kapitel 2.3.9 beschrieben, keinen Unterschied macht, ob es sich um eine klassische Software handelt oder um eine KI-Anwendung. Bei anderen Aspekten, wie z.B. dem Nachweis der Sicherheit oder der Leitung muss bedachte werden, dass die Informationsgewinnung durch ein DL-Modell erfolgt.

Als erstes wird die Zweckbestimmung darauf untersucht, ob es sich bei dem Produkt um ein Medizinprodukt handelt. Für MDR und IVDR gilt die gleiche Begriffsbestimmung für Medizinprodukte bzw. innerhalb der IVDR wir in Artikel 2, 1 auf die Begriffsbestimmung der MDR, Artikel 2, 1, verwiesen. In der Zweckbestimmung wird festgelegt, dass die Software zur Untersuchung von digitalisierten HE-Gewebeschnitten eingesetzt wird und zu diesen Informationen zum physiologischen, also den gesunden Drüsen, und pathologischen Zustand, also das Enthalten von Adenom oder Karzinom liefert, aber keine eigene Diagnose stellt. Somit treffen sogar zwei der Unterpunkte innerhalb der MDR, Artikel 2, 1, zu. Der Unterpunkt Spiegelstrich 3 besagt, dass Produkte welche einen physiologischen oder pathologischen Zustand Untersuchen, als Medizinprodukt bezeichnet werden. In Unterpunkt Spiegelstrich 4 wird festgelegt, dass ein Produkt als Medizinprodukt bezeichnet wird, welches zur Informationsgewinnung durch die In-vitro-Untersuchung, in diesem Fall die digitalisierten HE-Gewebeschnitte, von Proben aus dem menschlichen Körper verwendet wird. Somit qualifiziert sich die Software eindeutig als Medizinprodukt. Als nächstes wird geprüft, welche der beiden Verordnungen zur Klassifizierung der Software angewendet werden muss. Hierbei ist die Frage, ob es sich um ein Medizinprodukt oder speziell um ein IVD nach IVDR handelt, welches nach MDR, Artikel 1, (6), a, die MDR nicht gilt. Hierfür wird die Begriffsbestimmung für ein Medizinprodukt welches als IVD bezeichnet wird, der IVDR, Artikel 2, 2, angewendet. Dort ist, in Zusammenhang mit Unterpunkt a), festgelegt, dass Software, welche zur In-vitro-Untersuchung von Proben, welche aus dem menschlichen Körper Stammen, Informationen über die physiologischen und pathologischen Zustände liefern, als ein solches gilt. Festgestellt wird hierbei, dass beide Begriffsbestimmungen mit ähnlicher Begründung das Produkt als Medizinprodukt und als IVD qualifizieren. Um sicher zu gehen, ob es sich bei dem Produkt um ein IVD-Produkt handelt, wird zusätzlich das in Kapitel 2.3.8 erwähnte Dokument MDCG 2019-11, hinzugezogen. Somit wird zusätzlich die Frage gestellt, woher die Informationen gewonnen werden. In diesem Fall werden die Informationen allein durch die Untersuchung von digitalisierten HE-Gewebeschnitten gewonnen. Somit wird bestätigt, dass das Produkt unter die IVDR fällt. In Anhang VIII, Regel 3, h), werden Produkte direkt aufgegriffen, deren Zweckbestimmung besagt, dass ihr Einsatz die Krebsvorsorge,-diagnose oder -stadieneinteilung ist und teilt sie der Klasse C zu, also der zweit höchsten Klasse. Die Software selbst stellt zwar keine Diagnose, kommt dort aber zum Einsatz. Es wurde keine Unterscheidung gefunden, welche zwischen, stellt eine eigene Diagnose und liefert Informationen zu einer Diagnose, unterscheidet.

In der weiteren Arbeit wird nicht mehr auf die mit der Klassifizierung zusammenhängenden Konformitätsbewertung von Software und der damit allgemeinverbundenen benötigten Dokumentation eingegangen, sondern es wird sich viel mehr mit dem Training des Dl-Modells und der damit verbundenen Dokumentation beschäftigt, sowie die Bewertung des DL-Modells in Bezugnahme der Zweckbestimmung.

Ground Truth Daten

Im folgenden Kapitel wird auf die verwendeten Daten eingegangen, sowie auf die damit verbundenen Schwierigkeiten. Des Weiteren soll auf die Erstellung der Daten eingegangen werden und am Ende des Kapitels geklärt werden, wie die Dokumentation der Datenerhebung und die Kontrolle aussehen könnte.

Datenerhebung

In dieser Arbeit wurden als GTD eine Fläche von … auf 12 verschiedenen WSIs annotiert. In diesen wurden das Drüsengewebe annotiert und in die drei verschiedenen Zustände gesunde Drüsen, Adenom und Karzinom unterteilt. Innerhalb der Software HSA KIT, werden die Daten als Kombination aus RGB-Bildmaterial und schwarz-weiß Annotationsmasken exportiert. Innerhalb der Software können durch die eingefügte Struktur Base ROI, ROI steht hierbei für Region of Interest, gezielt Bereiche ausgewählt werden, welche für den Datensatz verwendet werden sollen. Die Pixel innerhalb des erstellten RGB-Bildmaterials liegen, aber nicht innerhalb der Base ROI werden zu schwarzen Pixeln umgeändert. Für das Datenset selbst werden aber nur Bilder verwendet, die Annotationen der gewünschten Strukturen enthalten, es sein den die Option Include Background ist aktiviert, so wird der gesamte Bereich innerhalb der Base ROI zur Erstellung des Datensatzes genutzt. Dies ist wichtig da innerhalb dieser Arbeit ein Datensatz genutzt wurde, dem auch gezielt Informationen zum Hintergrund hinzugefügt wurden. Bereiche, welche für das Training verwendet werden, werden in mehrere Kacheln der Auflösung , unter Bezugnahme des gewählten Pyramidenlevels und einer gewählten Überlappung unterteilt. Die dazugehörige Annotationsmaske bekommt für die jeweiligen Strukturen, gesunde Drüsen, Adenom und Karzinom, jeweils einen bestimmten Pixelwert. Hintergrund bzw. nicht annotierte Bereiche bekommen den Pixelwert 0 zugewiesen und für jede andere Klasse steigt der Pixelwert um 1. Wichtig ist, dass innerhalb der ausgewählten Daten für den Datensatz alle Pixel der korrekten Klasse zugeordnet wurden, da sonst, aufgrund der falschen GTDs, widersprüchliche Informationen, während dem Training dem Modell übermittelt werden würden, was zu einer negativen Beeinflussung der Netzwerkperformance führen würde. Des Weiteren würden falsch erstellte GTDs die Beweiskraft der berechneten Metriken auswirken.

Für diese Arbeit wurden drei Datensätze auf die oben beschriebene Durchführung erstellt. Hierfür wurde der erste Datensatz auf dem 2 Pyramidenlevel, was ein Downsampling von 1:4 bedeutet im Vergleich zu Pyramidenlevel 0, dem Originalbild, mit einer Auflösung von 1024×1024 Pixeln und einer Überlappung von 100 Pixeln erstellt. Des Weiteren wurden zwei Datensätze auf dem 3 Pyramidenlevel, was zu einem Downsampling von 1:8 führt, erzeugt. Der erste wurde hierbei mit einer Auflösung von 512×512 Pixeln und einer Überlappung von 50 Pixeln erstellt, der zweite mit einer Auflösung von 1024×1024 Pixel und einer Überlappung von 100 Pixeln. Die Anzahl der erstellten Kacheln je Datensatz ist in Tabelle 1 zu sehen.

Tabelle 1: Kachelanzahl der Datensätze

Pyramidenlevel Auflösung Anzahl Kacheln
2 (1:4) 1024 134
3 (1:8) 512 134
1024 54

Die Distribution zwischen Hintergrund und Annotationen ist in Tabelle 2 zu sehen.

Tabelle 2: Distribution von Hintergrund und Annotationen innerhalb der GTDs

Hintergrund Annotationen
   

Die Klassendistribution der Annotationen ist in Tabelle 3 zu sehen.

Tabelle 3: Klassendistribution der GTDs

Gesunde Drüsen Adenom Karzinom
     

Der Datensatz wird zu ca. … in einen Datensatz fürs Training und zu ca. … in einen Datensatz zum Testen des Modells unterteilt. Der Datensatz für das Training wird weiterhin zu 90% Trainingsdaten und zu 10% Validierungsdaten unterteilt.

Problematiken innerhalb der Daten

Die Erstellung der GTDs erfolgt auf Basis von WSIs, bei denen es sich um eingescannte Objektträger handelt. Beim Annotieren des Drüsengewebes von HE-Gewebeschnitten kommt es zu mehreren Schwierigkeiten. Wie in Kapitel 2.1.3 beschrieben, ist eine Schwierigkeit, dass die Färbung der Gewebeschnitte unterschiedlich aussehen kann. Um dagegen vorzugehen, wurden deshalb, wie in Kapitel 5.1 beschrieben, mehrere WSIs annotiert und nicht erst einer vollständig bearbeitet. Des Weiteren wird das Annotieren des Drüsengewebes durch Artefakte negativ beeinflusst. Diese können sowohl in der Präparation der Gewebeproben entstanden sein als auch bei der Digitalisierung, als einen technischen Ursprung haben. Ein häufiger Artefakt, welche einen technischen Ursprung hat ist der Stitching-Fehler durch den Slide-Scanner.

Bei der Präparation der Gewebeproben kommen Schärkräfte zum Einsatz. Dies kann dazu führen, dass das Gewebe beschädigt wird. Weiterer häufige Artefakte innerhalb der Daten sind Fehler bei der Färbung oder Faltungen der Gewebeschnitte, sowie Kontamination. In Tabelle 4 sind Beispiele aus dem eigenen Datensatz für die oben genannten Artefakte.

Tabelle 4: Beispiele für Artefakte des Datensatzes

Artefakt Beispiel
Stitching-Fehler  
Beschädigtes Gewebe  
Färbefehler  
Faltung innerhalb des Gewebeschnitts  
Kontamination  

Erstellung der GTDs

In diesem Kapitel wird beschrieben, wie die GTDs erstellt wurden und was verbessert werden muss bzw. worauf geachtet werden muss, im Hinblick auf die Zulassung.

Die verwendeten Gewebeschnitte wurden alle mit den Objektträgerscanner HSA Scan, in Kombination mit einem Mikroskop von Olympus, die Objektträger mit einem 10x Objektiv digitalisierte. Die Erstellung der Annotationen wurde zusammen mit den Experten für Annotationen der HS Analysis GmbH und Pathologen geplant. Die Erstellung selbst erfolgte durch Laien. Die Kontrolle der Annotationen erfolgte durch den Autor der Arbeit und einem Mitarbeiter der HS Analysis GmbH, nach Absprache mit Patholgen und zusätzlicher gezielter Rückfrage, bei Bereichen, welches nicht deutlich abgrenzbar waren oder einer Struktur zugeordnet werden konnten. Obwohl es für das Modell ausreichen wäre, das Drüsengewebe großflächig zu markieren, wurde sich dazu entschieden, die gesunden Drüsen einzeln zu annotieren und dies so weit wie möglich auch bei den Adenom- und Karzinomanteilen durchzuführen. Dies hat einerseits den Vorteil, dass hierdurch keine Stomaanteile in den GTDs sind bzw. geringgehalten werden, durch die das Modell lernen könnte, das es zu den Drüsen gehört, andererseits kann, wenn benötigt ein genaueres Modell auf niedrigerem Pyramidenlevel mit den gleichen Daten trainiert werden. Des Weiteren müssen keine neuen Annotationen erstellt werden, wenn festgestellt wird, dass der Ansatz der semantischen Segmentierung nicht zu den erwünschten Ergebnissen führt und ein Modell mit Instanz-Segmentierung trainiert werden soll. Bei der Erstellung der Masken für die semantische Segmentierung werden die Annotationen, wenn sie aneinandergrenzen, nicht getrennt und macht somit keinen Unterschied.

Für die Zulassung ist es wichtig den Vorgang der Datenerstellung genau zu dokumentieren. Hierbei ist wichtig zu beschreiben, nach welchen Kriterien die Daten ausgesucht wurden und wie annotiert werden soll, sowie warum so vorgegangen wird. Um dies festzulegen und zu begründen, ist es aus Sicht des Autors sinnvoll, wie oben beschrieben, dies sowohl mit Experten innerhalb des gewünschten medizinischen Bereichs, in diesem Fall Pathologen, und mit Experten im Bereich des Annotierens, in diesem Fall die Mitarbeiter der HS Analysis GmbH, zu ermitteln. Die Pathologen geben hierbei vor, welche Strukturen als relevant angesehen werden, während die Annotations-Experten festlegen können, wie diese Strukturen am sinnvollsten annotiert werden können, wie z.B. oben beschrieben, durch den geringeren Anteil an Stroma oder wie mit Artefakten umgegangen werden soll. Ein weiterer wichtiger Aspekt ist, wer die Annotationen erstellt. Im besten Fall werden die Annotationen durch Patholgen erstellt, da diese das nötige Wissen zu Erkennung der Strukturen, sowie der Klassifizierung besitzen. Dies ist entspricht aber selten der Realität, da die Annotationen Zeitaufwendig sind und diese Genug andere Aufgaben haben. Wenn die Annotationen von Laien erstellt werden, so muss sich die Zeitgenommen werden, diese richtig einzuarbeiten. Des Weiteren ist eine Kontrolle durch Annotations-Experten sowie durch einen oder, wenn möglich, mehreren Pathologen unerlässlich. Wichtig ist hierbei, dass die Kontrolle genau dokumentiert wird, wie beispielhaft in Tabelle 5 aufgeführt und sowie die Sicherstellung, dass die Daten erst nach der Kontrolle und Genehmigung der Expert in beiden Bereichen eingesetzt werden.

Tabelle 5: Beispiel zur Dokumentation der Annotationserstellung

Dateiname Annotiert durch: Kontrolliert von: Erste Kontrolle durch Pathologen: Zweite Kontrolle durch Pathologen: Für die Anwendung genehmigt

 

           

Netzwerkarchitektur

Framework

U-Net

U-Net++

DeepLabV3++

ResNet und ResNeSt als Encoder

Weiterlesen

weiterlesen