KI in der personalisierten Pathologie: Lernen mit kleinen Datenmengen

Bessere Indikatoren für die Tumordiagnose

Cellular building blocks as the basis of histopathological diagnostics.
© Fraunhofer MEVIS
Unsere Vision ist die Entwicklung datengetriebener Methoden zur Beschreibung der grundlegenden zellulären Merkmale, die in der modernen histomorphologischen Diagnostik benutzt werden. Auf diese Weise beschleunigen wir die Entwicklung besserer Algorithmen für Forschung und klinische Anwendung.

Biomarker sind für treffsichere Diagnosen oft unverzichtbar. Das Fraunhofer-Institut für Digitale Medizin MEVIS arbeitet an lernfähigen Algorithmen, die die Suche nach neuen Biomarkern deutlich erleichtern. Mediziner können dadurch wertvolle Unterstützung bei der Wahl der bestmöglichen Therapie erhalten.

 

Biomarker sind ein wichtiger Baustein der Diagnostik. Ein gängiges Beispiel ist der Cholesterinspiegel im Blut. Er kann auf ein erhöhtes Risiko für Herz-Kreislauf-Erkrankungen hindeuten. Auch in der Pathologie – der mikroskopischen Untersuchung etwa von tumorverdächtigen Gewebeproben – spielen Biomarker eine maßgebliche Rolle: Liegen bestimmte Zelltypen mit gewissen Eigenschaftskombinationen vor, lässt sich das als aussagekräftiger Indikator auffassen, der im Idealfall verrät, welcher Untertyp eines Tumors vorliegt. Dadurch können die Mediziner dann eine zielgerichtete, patientenindividuell wirksame Therapie wählen.

Nur: In der klinischen Praxis funktioniert dieses präzise Vorgehen längst nicht immer. So ergab eine Studie aus dem Jahr 2018, dass 44 Prozent der Krebspatienten in den USA für eine spezielle Art der Tumorbehandlung in Frage kommen sollten, die Immuntherapie. In der Realität schlug diese Behandlung dann aber nur bei 12 Prozent der Patienten an – viele wurden also vergebens behandelt. „Um künftig zielgerichteter therapieren zu können, müssten die Tumorarten noch viel genauer untergliedert werden können als bislang“, sagt MEVIS-Forscher Johannes Lotz. „Dafür müsste man jene Biomarker finden, die diese Unterscheidung erlauben.“

Um solche Biomarker aufzuspüren, braucht es aufwändige klinische Studien. In Zukunft sollen lernfähige KI-Systeme diese Suche unterstützen. „Der Computer analysiert digitalisierte Gewebeschnitte und fahndet darin nach Mustern“, beschreibt Lotz‘ Kollege Henning Höfener die Strategie. „Dadurch kann er neue Biomarker finden.“ Dafür muss die Software mit möglichst vielen hochwertigen Datensätzen trainiert werden, sonst kann die Mustersuche nicht gelingen. Hier taucht ein Problem auf: Je genauer man zwischen verschiedenen Untertypen eines Tumors unterscheiden möchte, umso weniger Patienten zeigen einen bestimmten Untertyp, und umso weniger Datensätze stehen für Training und Analyse zu Verfügung.

 

Das Beste aus zwei Welten

Eine weitere Schwierigkeit: „Die Arten der digitalen Gewebeschnitte können sich von Labor zu Labor deutlich unterscheiden“, erläutert Lotz. „Das erschwert es dem Computer, vorhandene Muster in den Bildern verlässlich aufzuspüren.“ Mit den bisherigen KI-Methoden, bei denen die Algorithmen Unmengen von Bildpunkten durchforsten, ist diesen Problemen kaum beizukommen. Deshalb versucht sich das MEVIS-Team an einer neuen Strategie ­ und schaut sich Einiges von der bewährten Arbeitsweise des Menschen ab: „Erfahrene Pathologen haben Abertausende von Gewebebildern gesehen und daraus die wesentlichen Gesetzmäßigkeiten abgeleitet“, erklärt Höfener. „Anders als der KI genügt ihnen für eine treffsichere Diagnose dann meist eine Handvoll von Bildern.“

Das MEVIS-Team will das Beste aus beiden Welten miteinander verknüpfen. Der Plan: Die künstliche Intelligenz wird zunächst ähnlich trainiert wie ein Pathologe, und zwar mit vielen Gewebeschnitt-Bildern, die nichts mit einer speziellen Fragestellung zu tun haben. Durch diese „Grundausbildung“ eignet sich die KI allgemeine Merkmale und Gesetzmäßigkeiten an, sogenannte Gewebedeskriptoren. Mit deren Hilfe kann die Maschine die Bilder beschreiben und klassifizieren. „Setzt man dem Algorithmus dann eine konkrete Fragestellung vor, kann er anhand dieser Gewebedeskriptoren auch mit relativ wenigen Daten Korrelationen aufspüren, die zum Beispiel den Erfolg einer bestimmten Therapie vorhersagen“, sagt Höfener.

Noch steht das Projekt am Anfang. Doch Fraunhofer MEVIS besitzt gute Voraussetzungen, es erfolgreich zu meistern. „Wir haben große Erfahrung beim Trainieren lernfähiger Algorithmen und beim Programmieren von computergestützten Diagnosewerkzeugen“, betont Henning Höfener. „In Zusammenarbeit mit Projektpartnern aus der Klinik können wir die Daten auswählen, die wir für das Ersttraining unserer Algorithmen benötigen.“

 

KI beschleunigt automatische Erkennung

Von diesen Biomarker-Algorithmen sollen vor allem die Forschungsabteilungen von Pharmaunternehmen profitieren, aber auch Arbeitsgruppen an Universitäten. Doch der Ansatz verspricht weitere Anwendungen: So könnten sich die Gewebedeskriptoren für die Segmentierung nutzen lassen, also die automatische Erkennung und Vermessung von Gewebestrukturen in einem Bild. „Mit den Deskriptoren würden wir hier ebenfalls weniger Trainingsdaten brauchen“, erklärt Höfener. „Das könnte die Anpassung des Segmentierungsalgorithmus deutlich beschleunigen.“

Auch für die inhaltsbasierte Bildersuche (Content Based Image Retrieval) könnte die Methode hilfreich sein. „Das kennt man vielleicht von Google – man wirft ein Bild rein und bekommt dann ähnliche angezeigt“, erklärt Johannes Lotz. „Doch für medizinische Bilder funktioniert das noch nicht so gut.“ Das Deskriptoren-Konzept könnte deutliche Fortschritte bringen, hoffen die MEVIS-Fachleute. Die Vision: Bei einem ungewöhnlichen Befund könnten Mediziner in Datenbanken nach ähnlichen Bildern suchen, um ihre Diagnosen zu überprüfen und herauszufinden, welche Therapien in der Vergangenheit angeschlagen haben und welche nicht.

Erlernen universeller Gewebekonzepte (Tissue Concepts) zur Unterscheidung von klinischen Subtypen

Zweistufiges Schema zum Erlernen universeller Gewebekonzepte (Tissue Concepts) zur Unterscheidung von klinischen Subtypen
Erlernen von Tissue Concepts in zwei Schritten: 1. Grundausbildung auf Basis vieler verschiedener Datensätze zum Erlernen allgemeiner Merkmale, 2. Anpassung an eine spezifische Fragestellung. (Bild Neural Networks ist modifiziert von "The neural network zoo", von S. Leijnen und F. van Veen, CC BY 4.0)

Pathologen sehen während Ausbildung und Praxis viele Bilder und lernen dabei Konzepte und Muster wie z.B. Heterogenität oder Gefäßdichte, die unabhängig von einer bestimmten Erkrankung oder sogar unabhängig von einzelnen Organen oder Geweben sind. Analog wird der Computer diese oder ähnliche Konzepte aus einer breiten Sammlung an Daten von verschiedenen Fragestellungen lernen. Durch die Kombination von Bildern von verschiedenen Organen und Fragestellungen entstehen die großen Datenmengen, die für das Training eines robusten KI-Systems benötigt werden. Dieser Schritt kann als eine Art Grundausbildung auf Basis vieler verschiedener Datensätze beschrieben werden, in der sich der Computer allgemeine Merkmale und Gesetzmäßigkeiten aneignet, sogenannte Tissue Concepts.

In einem zweiten Schritt werden diese Merkmale für eine spezifische Fragestellung (wie z.B. die Trennung eines Patientenkollektivs in Responder und Non-Responder) genutzt und damit die Diagnose unterstützt. Die Tissue Concepts sind deutlich weniger komplex als das Ursprungsbild. Außerdem enthalten sie bereits Kontextwissen aus dem Trainingsschritt. Auf diese Weise werden deutlich weniger Daten benötigt, um z.B. einen Biomarker zu entwickeln, der verschiedene Tumorarten unterscheiden kann.

Bildregistrierung für die schnellere Entwicklung von KI-Algorithmen

Übertragung molekularer Marker zwischen verschiedenen histologischen Färbungen durch Bildregistrierung

Die Bildregistrierung bietet eine Möglichkeit automatisch annotierte Trainingsdaten aus unterschiedlichen Gewebefärbungen zu generieren. Zum Beispiel werden in der Färbung rechts Epithelzellkerne chemisch angefärbt (hier in braun sichtbar) und durch Bildregistrierung auf die Standard-H&E-Färbung übertragen. Auf diese Weise werden alle positiven Zellkerne im linken Bild automatisch annotiert und es stehen zusätzliche Daten zum Training zur Verfügung. Diese Technik ist vielfach erprobt und wurde bereits in wissenschaftlichen Publikationen angewendet.




Kleine Datenmengen und große Variabilität

Kleine Datenmengen in klinischen Studien stellen eine Herausforderung für KI-Algorithmen dar, wenn es darum geht, die große Variabilität histologischer Daten zu bewältigen.

Ein histologischer Schnitt enthält Tausende Zellen, die durch Methoden der KI ausgewertet werden können.

Die zentrale Herausforderung für den Einsatz von KI in der Pathologie ist die Sammlung ausreichend großer Datenmengen. Histologische Bilder sind hochvariabel. Ein einzelnes Bild ist typischerweise mehrere GB groß und enthält viele Tausend unterschiedlicher Zellen. Deren Erscheinung hängt von vielen Faktoren ab, wie der spezifischen Krankheitsausprägung und der Anfertigung des Objektträgers.

Small populations in clinical trials face the large variability in histological data.
© Fraunhofer MEVIS
Kleine Populationen in klinischen Studien sind mit der großen Variabilität der histologischen Daten konfrontiert.

KI-Methoden müssen aus dieser Variabilität diagnostisch relevante Merkmale extrahieren. Ein einzelner Gewebeschnitt spiegelt nur einen winzigen Bruchteil dieser Variabilität wider. Daher braucht es in der Regel große Mengen an Beispielbildern von unterschiedlichen Patienten und aus verschiedenen Laboren um KI-Methoden robust zu trainieren. Die Sammlung ausreichend großer Datenmengen ist sehr aufwendig, da umfangreiche Patientenpopulationen zusammengestellt und die Daten häufig manuell von Experten annotiert werden müssen.