Artificial intelligence (AI), particularly large language models like GPT-4o, holds promise for enhancing diagnostic accuracy in healthcare. This study evaluates the diagnostic performance of GPT-4o compared to human ophthalmologists in glaucoma cases. A prospective, observational study was conducted at a tertiary care ophthalmology center. Twenty-six glaucoma cases, including both primary and secondary types, were selected from publicly available databases and institutional records. The cases were analyzed by GPT-4o and three ophthalmologists with varying levels of experience. The accuracy and completeness of primary and differential diagnoses were assessed using 10-point and 6-point Likert scales, respectively. Statistical analyses were performed using nonparametric methods, including the Kruskal-Wallis and Mann-Whitney U tests. GPT-4o was significantly less accurate in primary diagnosis compared to human ophthalmologists. Specifically, GPT-4o achieved a mean score of 5.500 (p < 0.001) compared to Doctor C, who had the highest score of 8.038 (p < 0.001). Completeness scores for GPT-4o 3.077 (p < 0.001) were also lower than Doctor B, who had the lowest score of 3.615 (p < 0.001) among human ophthalmologists. However, for differential diagnosis, GPT-4o (7.577) showed comparable accuracy to Doctor A (7.615) and Doctor C (7.673) (p < 0.0001) while achieving the highest completeness score (4.096), outperforming Doctor C (3.846), Doctor A (2.923), and Doctor B (2.808) (p < 0.0001). AI, including GPT-4o, is currently not an acceptable standalone method for diagnosing glaucoma due to its lower accuracy compared to human clinicians. These findings suggest that GPT-4o could serve as a valuable adjunct in clinical practice, particularly in complex cases, but should not replace human expertise, especially for initial diagnoses. Future improvements in AI models could enhance their utility in ophthalmology.

graphic

Abstract ausZhang J, Ma Y, Zhang R, et al.: A comparative study of GPT-4o and human ophthalmologists in glaucoma diagnosis. Sci Rep 2024;14:30385. DOI: 10.1038/s41598-024-80917-x

Hintergrund

Künstliche Intelligenz (KI) ist ein vielgenannter Begriff und wird zunehmend als Unterstützung auch in der Augenheilkunde eingesetzt [1], doch für viele Augenärzte ist häufig unklar, was dieser Begriff genau bedeutet.

Dabei steht KI nicht für eine konkrete Technologie, sondern ist ein Oberbegriff für verschiedene Modelle, die für unterschiedliche Zwecke genutzt werden.

Large Language Models (LLMs) sind KIs, die Text und Bilder als Eingabe annehmen und Text ausgeben, sodass man mit ihnen kommunizieren oder ihnen Fragen stellen kann. LLMs sind dabei nicht für spezielle Anwendungen, sondern allgemein trainiert, sodass sie für alle möglichen Zwecke benutzt werden können.

Spezialisierte KIs zur Bildanalyse sind hingegen KIs, die speziell trainiert werden, Informationen aus bestimmten Bildern (z.B. Fundusfotos oder optische Kohärenztomografie (OCT)-Scans) zu extrahieren. Diese KIs können dann genau daraus spezielle Merkmale analysieren und Diagnosen stellen. So berichteten Li et al. [2] über ein KI-Modell, mit dem anhand von Fundusfotografien ein Glaukomschaden mit einer Sensitivität von 95,6% und einer Spezifität von 92% erkannt wird. Dabei traten allerdings Fehler auf, sobald weitere Augenerkrankungen wie z.B. Makuladegeneration oder eine diabetische Retinopathie vorlagen, aber auch ein schräger Sehnerveneintritt konnte zu falschen Ergebnissen führen.

Studienergebnisse

In dieser Studie wurden von einem LLM (GTP-4o) sowie 3 unterschiedlich erfahrenen Ophthalmologen die Befunde und Informationen sowie OCT-Scans (wenn verfügbar) in 26 Fällen mit unterschiedlichen Formen eines Glaukoms bewertet, um die diagnostische Genauigkeit zu untersuchen.

Dabei wurde die exakte Diagnose mittels GPT-4o signifikant schlechter gestellt als durch die Augenärzte. Allerdings konnte das Modell bei der Auflistung möglicher Differenzialdiagnosen erheblich umfangreichere Antworten geben. Insgesamt schlussfolgern die Autoren, dass GPT-4o bisher nicht als alleinige eigenständige Methode zur Diagnose eines Glaukoms eingesetzt werden kann. Gerade in komplexen Fällen kann es allerdings eine wertvolle Ergänzung darstellen.

Fazit für die Praxis

Die klinische Bewertung eines glaukomverdächtigen Befundes stellt für den Augenarzt eine tägliche Herausforderung dar. Gerade bei komplexer Situation mit weiteren Auffälligkeiten und speziell nicht normaler Konfiguration der Papille wie bei Sekundärglaukomen, Anomalien wie Axenfeld-Rieger-Syndrom oder Pseudoexfoliation sind LLM-Modelle wie GPT-4o aktuell dem erfahrenen Augenarzt eindeutig unterlegen. Insbesondere zur Unterstützung bei unklarer Differenzialdiagnose und während der Ausbildung können bereits heute wesentliche zusätzliche Informationen der KI die klinische Einordnung erleichtern. Dies passt zu den Ergebnissen einer Arbeit von Christopher et al. [3], die zeigten, dass Machine Learning neben der Erkennung eines Glaukomschadens anhand von Strukturparametern auch eine drohende Progression erkennen kann. Gerade in Bezug auf solch spezielle Bildinformationen scheinen KI-Modelle dem Menschen deutlich überlegen, dennoch erfordert die klinische Einordnung des Gesamtbefundes und die exakte Diagnosestellung unverändert menschliche Kompetenz. Bei der aktuellen Untersuchung zeigt sich, dass auch die klinische Erfahrung wichtig ist, so waren die Diagnosen des Augenarztes mit 15 Jahren klinischer Tätigkeit deutlich besser als die der beiden Kollegen mit 2 und 10 Jahren Erfahrung.

Gerade in unserem Fachgebiet, in dem Bilder eine so große Rolle spielen, erscheint längerfristig der Stellenwert solcher Diagnosetools einen immer größeren Raum einzunehmen, was durch LLMs kaum erreichbar ist. Hier könnte in Zusammenarbeit mit dem Einsatz von Telemedizin auch eine ressourcenschonende Diagnostik ermöglicht werden, in der der Augenarzt nach «Vorarbeit» einer KI nur noch deren Ergebnisse bewertet [4].

Disclosure Statement

Hiermit erkläre ich, dass keine Interessenskonflikte in Bezug auf den vorliegenden Kommentar bestehen.

1.
Hashemian
H
,
Peto
T
,
Ambrósio
R
, et al
:
Application of artificial intelligence in ophthalmology: an updated comprehensive review
.
J Ophthalmic Vis Res
.
2024
;
19
:
354
367
.
2.
Li
Z
,
He
Y
,
Keel
S
, et al
:
Efficacy of a deep learning system for detecting glaucomatous optic neuropathy based on color fundus photographs
.
Ophthalmology
.
2018
;
125
:
1199
1206
.
3.
Christopher
M
,
Belghith
A
,
Weinreb
RN
, et al
:
Retinal nerve fiber layer features identified by unsupervised machine learning on optical coherence tomography scans predict glaucoma progression
.
Invest Ophthalmol Vis Sci
.
2018
;
59
:
2748
2756
.
4.
Kern
C
,
Kortüm
K
:
Netzhautsprechstunde im Jahr 2030. Ein Ausblick in die Zukunft
.
Ophthalmologe
.
2020
;
117
:
993
998
.