Fragestellung: In den letzten Jahren nimmt die künstliche Intelligenz (KI) als neues Segment der Informatik auch in der Medizin eine immer größere Bedeutung ein. Ziel dieses Projekts war es zu untersuchen, ob die aktuelle Version von ChatGPT (ChatGPT 4.0) in der Lage ist, offene Fragen zu beantworten, die im Rahmen einer deutschen Facharztprüfung in der Augenheilkunde gestellt werden könnten. Methoden: Aus dem Lehrbuch «1000 Fragen Augenheilkunde» (2. Auflage, 2014) wurden nach Ausschluss bildbasierter Fragen jeweils 10 Fragen aus 15 verschiedenen Kapiteln/Themenschwerpunkten ausgewählt. ChatGPT wurde mittels eines sog. Prompt instruiert, die Rolle eines Facharztes für Augenheilkunde einzunehmen und sich im Umfang der Antworten auf das Wesentliche zu konzentrieren. Die Bewertung eines Themengebietes erfolgte durch einen in der Subspezialität langjährig erfahrenen Ophthalmologen, welcher die Antworten hinsichtlich Richtigkeit, Themenrelevanz und innerer Kohärenz beurteilte und die Gesamtleistung mit einer Schulnote bewertete. Ergebnisse: ChatGPT hätte die Facharztprüfung in 12 von 15 Themengebieten bestanden. Allerdings war die Gesamtleistung auf nur 53,3% vollständig korrekte Antworten beschränkt. Während die Korrektheit der Ergebnisse in den unterschiedlichen Themengebieten sehr variabel war («Uveitis» und «Linse/Katarakt» 100%; «Optik und Refraktion» 20%), hatten die Antworten stets eine hohe thematische Passgenauigkeit (70%) und innere Kohärenz (71%). Schlussfolgerung: Die Tatsache, dass ChatGPT 4.0 in 12 von 15 Themengebieten die Facharztprüfung bestanden hätte, ist vor dem Hintergrund bemerkenswert, dass diese KI nicht spezifisch für medizinische Fragestellungen trainiert wurde. Allerdings offenbart sich eine erhebliche Leistungsvarianz zwischen den Themengebieten mit zum Teil gravierenden Mängeln, die einen sicheren Einsatz in der klinischen Praxis derzeit ausschließt.

graphic

Zusammenfassung aus Yaïci R, Cieplucha M, Bock R et al.: ChatGPT und die deutsche Facharztprüfung für Augenheilkunde: eine Evaluierung. Ophthalmologie 2024;121:554–564. DOI: 10.1007/s00347-024-02046-0,

Hintergrund

ChatGPT kommt aus dem Englischen und bedeutet übersetzt: to chat («plaudern» bzw. «sich unterhalten») sowie generative pre-train­ed transformer («generativer vortrainierter Transformer») und ist ein Chatbot des Softwareunternehmens OpenAI (gegründet 2015), der erstmals im November 2022 vorgestellt wurde. Unter einem Chatbot versteht man ein textbasiertes Dialogsystem, das es dem Benutzer erlaubt, mit einem technischen System «zu chatten». Die Grundlage bildet ein sogenanntes «Large Language Model» (LLM), ein Sprachmodell, das mit einer Vielzahl von Textdokumenten trainiert wurde und in der Lage ist, durch ein Wahrscheinlichkeitsmodell menschliche Sprache zu analysieren und Texte zu erzeugen.

Das in diesem Artikel verwendete Modell ChatGPT 4.0 wurde im März 2023 veröffentlicht und für die Allgemeinheit zugänglich gemacht. Die Autoren überprüften, ob dieses Modell Fragen der deutschen Facharztprüfung korrekt beantworten kann.

Durchführung und Ergebnisse

Die Grundlage für die Fragen bildete das Buch «1000 Fragen Augenheilkunde» [1]. Hierzu wurden aus 15 Themengebieten jeweils 10 Fragen aus dem Buch ausgewählt. Zu den Themengebieten zählten: Lider / Orbita / Tränenwege / Konjunktiva / Hornhaut / Uveitis / Tumoren / Glaukom / Erkrankungen der Linse / Netzhaut, -ablösung / Retinale Gefäßerkrankungen / Netzhautdystrophien / Strabologie / Neuroophthalmologie / Optik und Refraktion.

Die Erstellung der Arbeitsanweisungen (= Prompts) für ChatGPT erfolgte nach den Empfehlungen von OpenAI «R» (San Francisco, USA) [2] und beinhaltete die Kernkriterien: «Rolle eines Facharztes für Augenheilkunde», «Antwort an ein Fachpublikum», «medizinische Fachbegriffe», «knappe, zielgerichtete und nach heutigen Standards korrekte Antwort» und «Länge der Antwort ca. 50–200 Wörter».

Die Antworten wurden einem in der jeweiligen Subspezialität erfahrenen Ophthalmologen vorgelegt, der die Antworten auf Richtigkeit, thematische Passgenauigkeit und Kohärenz überprüfte. Augenmerk wurde dabei neben inhaltlichen auch auf formale Fehler (grammatikalisch und sprachlich) gelegt und diese wurden separat unter «freie Angaben» als Kommentar eingefügt. Die Gesamtheit der Leistungen wurde mit einer Schulnote bewertet. Zusätzlich wurde bewertet, ob ChatGPT mit der Gesamtleistung in einer Facharztprüfung bestanden hätte.

Nach Überprüfung der gegebenen Antworten nach den vorher festgelegten Kriterien hätte ChatGPT die Facharztprüfung in 12 von 15 Themengebieten bestanden. Nicht bestanden waren die Themengebiete Optik und Refraktion, Glaukom und Strabologie. Bei den Themengebieten Uveitis und Erkrankungen der Linse wurden 100% der Fragen in allen Kriterien korrekt beantwortet, bei Optik und Refraktion zum Beispiel nur 20%. Die durchschnittliche Gesamtleistung wurde mit einer Schulnote von 2,8 (± 1,5) bewertet. In den freien Angaben wurden am häufigsten laienhafte Erklärungen und der Gebrauch ungewöhnlicher/falscher Termini bemängelt. Als Beispiele dafür wurden genannt: der Astigmatismus wurde als «unregelmäßige Krümmung», eine Iridotomie als «iridotomische Öffnung» oder eine Hornhaut-OP als «endothelektomische Keratoplastik» bezeichnet.

Diskussion

Die Künstliche Intelligenz (KI) ist auch in der Augenheilkunde angekommen. Es handelt sich dabei um ein Teilgebiet der Informatik, das sich mit der Automatisierung von intelligentem Verhalten und maschinellem Lernen befasst. In der Augenheilkunde bieten sich viele Anwendungsmöglichkeiten an. Die bildgebenden Analysen, wie zum Beispiel Bilder aus der optischen Kohärenztomografie (OCT), können durch «Deep Learning» (der Algorithmus verbessert sich selbständig ohne menschliches Zutun) analysiert und Empfehlungen für die Therapie gegeben werden. Diagnosen, wie die diabetische Retinopathie, könnten anhand von Fotos durch die KI gestellt werden. Aktuell verfügbare Modelle sind allerdings noch nicht vollständig im klinischen Alltag einsetzbar, werden in der Zukunft aber ein nicht unwesentlicher Bestandteil unserer Arbeit sein. In der zu diskutierenden Arbeit zeigten die Autoren deutliche Unterschiede in der Beantwortung der gestellten Fragen in den einzelnen Fachgebieten auf. Eine sichere Anwendung ist daher derzeit noch nicht möglich.

Fazit für die Praxis

Die KI ist ein weites und spannendes Feld mit vielfältigen Einsatzmöglichkeiten auch in der Augenheilkunde. Wir können hier auf diesem Gebiet in der Zukunft sicher spannende Neu- und Weiterentwicklungen erwarten. Das ärztliche Handeln und bislang bewährte Handlungsabläufe werden sich mit dem Einsatz von KI verändern, allerdings sind Kompetenzen wie die zwischenmenschliche Interaktion und Empathie sicher (noch?) nicht durch einen Computer zu ersetzen.

Disclosure Statement

Hiermit erkläre ich, dass keine Interessenkonflikte in Bezug auf den vorliegenden Kommentar bestehen.

1.
Kampik
A
,
Grehn
F
,
Messmer
EM
(Hrsg): Facharztprüfung Augenheilkunde: 1000 kommentierte Prüfungsfragen
, ed 2.
Stuttgart
,
Thieme
,
2014
.