Zusammenfassung
Einleitung: Angesichts des Potenzials von Chatbots mit künstlicher Intelligenz (KI) als Hauptinformationsquelle für Glaukompatienten ist es unerlässlich, die von Chatbots bereitgestellten Informationen zu charakterisieren, damit die Anbieter die Gespräche anpassen, die Anliegen der Patienten antizipieren und irreführende Informationen identifizieren können. Zweck dieser Studie war es daher, die Informationen zum Glaukom von KI-Chatbots wie ChatGPT-4, Bard und Bing zu evaluieren. Dazu wurden die Antwortgenauigkeit, die Vollständigkeit, die Lesbarkeit, die Anzahl der Wörter und die Anzahl der Zeichen im Vergleich zueinander und im Vergleich zu den Patienteninformationen zum Glaukom der American Academy of Ophthalmology (AAO) analysiert. Methoden: Die Abschnittsüberschriften der AAO-Broschüren zur Glaukom-Patientenaufklärung wurden in Frageform adaptiert und jedem KI-Chatbot (ChatGPT-4, Bard und Bing) 5-mal vorgelegt. 2 Reihen von Antworten jedes Chatbots wurden verwendet, um die Genauigkeit der Antworten der KI-Chatbots und der Informationen der AAO-Broschüren sowie die Vollständigkeit der Antworten des KI-Chatbots im Vergleich zu den AAO-Broschüren zu beurteilen. Die Antworten wurden von 3 unabhängigen, in Fragen zum Glaukom geschulten Augenärzten auf einer Skala von 1–5 bewertet. Für alle Chatbot-Antworten und die Abschnitte der AAO-Broschüren wurden die Lesbarkeit (bewertet mit dem Flesch-Kincaid Grade Level (FKGL), der dem US-amerikanischen Schulnotensystem entspricht), die Anzahl der Wörter und die Anzahl der Zeichen ermittelt. Ergebnisse: Die Genauigkeitswerte für AAO, ChatGPT, Bing und Bard lagen bei 4,84, 4,26, 4,53 bzw. 3,53. Im direkten Vergleich war AAO genauer als ChatGPT (p = 0,002) und Bard am wenigsten genau (Bard vs. AAO, p < 0,001; Bard vs. ChatGPT, p < 0,002; Bard vs. Bing, p = 0,001). ChatGPT hatte die vollständigsten Antworten (ChatGPT vs. Bing, p < 0,001; ChatGPT vs. Bard, p = 0,008), wobei die Werte für die Vollständigkeit von ChatGPT, Bing und Bard bei 3,32, 2,16 bzw. 2,79 lagen. Die Informationen von AAO und die Antworten von Bard waren am besten lesbar (AAO vs. ChatGPT, AAO vs. Bing, Bard vs. ChatGPT, Bard vs. Bing, alle p < 0,0001), mit Lesbarkeitswerten für AAO, ChatGPT, Bing und Bard von 8,11, 13,01, 11,73 bzw. 7,90. Die Antworten von Bing hatten die geringste Anzahl an Wörtern und Zeichen.
Einführung
Das Glaukom ist weltweit die häufigste Ursache irreversibler Erblindung. Es wird geschätzt, dass 76 Millionen Menschen davon betroffen sind und dass diese Zahl bis 2040 auf über 110 Millionen ansteigen wird [1]. Da es sich um eine chronische Erkrankung handelt, hängt die Prognose von der langfristigen Therapietreue der Patienten ab, die wiederum von der Aufklärung der Patienten abhängig ist [2]. Während Augenärzte traditionell für die Patientenaufklärung verantwortlich sind, werden interessierte Patienten mit medizinischen Online-Informationen von Tausenden von Websites und Social-Media-Plattformen überhäuft. Es wird geschätzt, dass 43% der Glaukompatienten das Internet nutzen, um medizinische Informationen zu erhalten, wobei die Qualität, der Nutzen und der Schaden von Informationen aus Online-Ressourcen unterschiedlich bewertet werden [3–7].
In jüngster Zeit hat das Aufkommen von Chatbots mit künstlicher Intelligenz (KI) wie ChatGPT eine neue Möglichkeit für Patienten geschaffen, schnell auf medizinische Informationen zuzugreifen. Im Gegensatz zu Websites oder sozialen Medien stellen KI-Chatbots den Patienten Informationen zur Verfügung, indem sie Fragen in direkter und interaktiver Form beantworten. Das Wissen, das die Patienten durch die Beantwortung ihrer Fragen erlangen, könnte ihr Verständnis und ihre Bedenken in Bezug auf das Glaukom beeinflussen und so die Therapietreue der Patienten und die Arzt-Patienten-Beziehung prägen.
Angesichts des Potenzials von KI-Chatbots als primäre Quelle medizinischer Informationen für Patienten ist es unerlässlich, die von KI-Chatbots bereitgestellten Informationen zu charakterisieren, damit die Anbieter die Gespräche anpassen, die Anliegen der Patienten antizipieren und irreführende Informationen identifizieren können. Der Nutzen von ChatGPT bezüglich der Bereitstellung von ophthalmologischen Informationen wurde bereits für Untersuchungsfragen, Netzhauterkrankungen und Keratokonjunktivitis untersucht, muss aber noch für Fragen zum Glaukom evaluiert werden [8–11]. Zudem beschränken sich Studien zu KI-Chatbots auf ChatGPT und berücksichtigen nicht andere verfügbare KI-Chatbots, die das Potenzial haben, Millionen von Patienten zu erreichen. Unsere Studie zielt darauf ab, die Glaukom-Informationen von verfügbaren KI-Chatbots wie ChatGPT-4 von OpenAI, Bard von Google und Bing von Microsoft zu beurteilen. Dazu wurden die Antwortgenauigkeit, die Vollständigkeit, die Lesbarkeit, die Anzahl der Wörter und die Anzahl der Zeichen im Vergleich zueinander und im Vergleich zu den Patienteninformationen zum Glaukom der American Academy of Ophthalmology (AAO) analysiert.
Material und Methoden
Die neuesten AAO-Broschüren zur Glaukom-Patientenaufklärung (2022) wurden eingeholt, darunter «Glaucoma» (Glaukom), «Laser Iridotomy» (Laser-Iridotomie), «Laser Trabeculoplasty» (Laser-Trabekuloplastik), «Trabeculectomy» (Trabekulektomie) und «Glaucoma Drainage Implant» (Glaukom-Drainage-Implantat). Die Überschriften der einzelnen Abschnitte wurden in eine Frageform gebracht, die für die Eingabe in den KI-Chatbot geeignet war (Tab 1). Am 18. April 2023 wurden alle 19 Fragen den folgenden 3 KI-Chatbots vorgelegt: ChatGPT-4 von OpenAI (Version vom 23. März), Bing von Microsoft und Bard von Google (Bard-Experiment). Jede Frage wurde jedem KI-Chatbot 5-mal gestellt, um 5 Antwortsätze von jedem Chatbot zu erhalten. Jede Frage wurde in eine neue «Konversation» eingegeben, sodass es keine vorherigen Antworten im Chatverlauf gab. Es wurden die Standardeinstellungen von ChatGPT verwendet. Der Konversationsstil für den KI-Chatbot von Bing wurde auf die Standardeinstellung «ausgewogen» gesetzt. Bard bot die Möglichkeit, für jede Frage alternative Antwortvorlagen zu sehen, es wurde jedoch die Standardantwort auf jede Frage verwendet.
Genauigkeitsanalyse und Vollständigkeit der Antworten der KI-Chatbots
Drei in der Glaukom-Forschung ausgebildete Augenärzte (NNK, AGS und LEH) beurteilten die Genauigkeit der Informationen in den AAO-Broschüren und der Antworten der KI-Chatbots sowie die Vollständigkeit der Antworten der KI-Chatbots im Vergleich zu den Informationen der AAO-Broschüren. Jeder Augenarzt beurteilte von jedem KI-Chatbot 2 Sätze an Antworten. Die 6 Chatbot-Antwortsätze wurden verblindet und randomisiert; ein Versuchsleiter (GRY) verwendete einen Zufallsgenerator, um jedem Antwortsatz eine Nummer zuzuweisen, spezifisch für jeden Augenarzt (NNK, AGS und LEH). Die Genauigkeit wurde anhand der folgenden Skala beurteilt: 1 = Übereinstimmung mit < 25% der Informationen, 2 = Übereinstimmung mit 25–50% der Informationen, 3 = Übereinstimmung mit 51–75% der Informationen, 4 = Übereinstimmung mit 76–99% der Informationen und 5 = Übereinstimmung mit 100% der Informationen. Die Vollständigkeit wurde anhand der folgenden Skala beurteilt: 1 = viel weniger als der Abschnitt in der AAO-Broschüre, 2 = etwas weniger als der Abschnitt in der AAO-Broschüre, 3 = ähnlich wie der Abschnitt in der AAO-Broschüre, 4 = etwas mehr als der Abschnitt in der AAO-Broschüre und 5 = viel mehr als der Abschnitt in der AAO-Broschüre.
Analyse der Lesbarkeit, der Anzahl der Wörter und der Anzahl der Zeichen
Die Lesbarkeit, die Anzahl der Wörter und die Anzahl der Zeichen jedes Abschnitts der AAO-Broschüren und jeder KI-Chatbot-Antwort von allen erfassten Antworten (5 Antwortsätze von jedem Chatbot) wurden mit einem Microsoft Word-Dokument (Version 2306) (Microsoft Corp., Redmond, WA, USA) ermittelt. Die Lesbarkeit wurde anhand des Flesch-Kincaid Grade Level (FKGL) beurteilt, einer Lesestufe, die den US-amerikanischen Schulnoten entspricht, berechnet aus der Anzahl der Silben, Wörter und Sätze in jeder Antwort.
Quellenanalyse der Antworten des KI-Chatbots von Bing
Der Bing-Chatbot stellt für jede seiner Antworten Quellenangaben bereit. Die Quellen der Antworten des Bing-Chatbots wurden gesammelt und wie folgt kategorisiert: Forschungsorganisationen/Stiftungen, akademische Einrichtungen, Privatpraxen, unabhängige Websites, kommerzielle Unternehmen und Peer-Review-Publikationen. Die Quellen wurden aus allen 5 Antwortsätzen zu jeder Frage gesammelt, da diese sehr unterschiedlich sind.
Kommentare der Prüfer
Die Glaukom-Fachbewerter (NNK, AGS und LEH) kommentierten die Antworten des KI-Chatbots und gaben spezifische Kritiken zu den Antworten ab, die ansonsten nicht durch die anderen Analysen abgedeckt waren. Die Kommentare wurden in 3 Kategorien eingeteilt: falsch, Bedenken bezüglich der Formulierung und Mangel an umfassenden Informationen.
Statistische Auswertung
Der Mittelwert und die Standardabweichung (SD) wurden für die Genauigkeit, die Vollständigkeit, die Lesbarkeit, die Anzahl der Wörter und die Anzahl der Zeichen berechnet, wobei die Werte nach Ressourcen (AAO, ChatGPT, Bing und Bard) gruppiert wurden. Die Werte für die Genauigkeit und Vollständigkeit wurden mit Friedman-Tests zwischen den Ressourcen verglichen, während der Wilcoxon-Vorzeichen-Rang-Test für den Vergleich zwischen den Gruppen verwendet wurde. Die Lesbarkeit, Anzahl der Wörter und Anzahl der Zeichen wurden zwischen den Ressourcen mittels Varianzanalyse (ANOVA) mit wiederholten Messungen verglichen, während die Bonferroni-Post-hoc-Analyse für Vergleiche zwischen den Gruppen verwendet wurde. Ein 2-seitiger p-Wert von < 0,05 wurde bei allen Tests als statistisch signifikant angesehen, außer bei multiplen Vergleichen (Wilcoxon-Vorzeichen-Rang-Test, p < 0,05/n: Genauigkeit – p < 0,0083, Vollständigkeit – p < 0,0166). Zur Auswertung der Quellen der Bing-Antworten wurden die Anzahl der Quellen für jede Bing-Antwort, die Anzahl der Quellenvarianten unter den 5 Bing-Antworten für jede Frage (Variante definiert als ein einzigartiger Satz von Quellen) und die prozentuale Verteilung der Quellen pro Kategorie ermittelt. Alle Analysen wurden mit SAS (Version 9.4) durchgeführt.
Ergebnisse
KI-Chatbot-Analyse
Für AAO, ChatGPT, Bing und Bard wurden die Mittelwerte (SD) für Genauigkeit, Vollständigkeit, Lesbarkeit, Anzahl der Wörter und Anzahl der Zeichen im direkten Vergleich zwischen den Gruppen ermittelt (Tab 2). Im direkten Vergleich war AAO genauer als ChatGPT (p = 0,002) und Bard (p < 0,001), ChatGPT genauer als Bard (p = 0,002) und Bing genauer als Bard (p = 0,001). Wenngleich der Genauigkeitswert von Bing zwischen AAO und ChatGPT lag, waren die Unterschiede zwischen Bing und diesen beiden Gruppen statistisch nicht signifikant (Tab 2). Im direkten Vergleich waren die Antworten von ChatGPT die umfangreichsten der KI-Chatbots und die Informationen von AAO und die Antworten von Bard am besten lesbar, während die Antworten von Bing die geringste Anzahl an Wörtern und Zeichen aufwiesen (Tab 2). Die Verteilung der durchschnittlichen Genauigkeitswerte der AAO-Informationen und der Antworten der KI-Chatbots wurde ermittelt, wobei AAO den höchsten Prozentsatz an Werten zwischen 4 und 5 aufwies, gefolgt von Bing, ChatGPT und schließlich Bard (Tab 3).
Quellenanalyse der Antworten des KI-Chatbots von Bing
Der Mittelwert (SD) der Quellen pro Antwort lag bei 4,7 (0,7) mit einer Spanne von 4 bis 6. Für jede Frage an Bing lag die durchschnittliche Anzahl (SD) der Quellenvarianten zwischen den 5 Antworten bei 2,6 (0,7) mit einer Spanne von 2 bis 4. Die Quellen wurden kategorisiert, wobei der größte Prozentsatz der Quellen von unabhängigen Websites stammte (40%), gefolgt von Forschungsorganisationen (36,2%), akademischen Einrichtungen (12,9%), Privatpraxen (4,7%), kommerziellen Organisationen (3,7%) und Peer-Review-Artikeln (2,6%).
Kommentare der Prüfer
Repräsentative Kommentare von Glaukom-Fachbewertern zu allen KI-Chatbots wurden nach Themen berücksichtigt: falsch, Bedenken bezüglich der Formulierung und Mangel an umfassenden Informationen (Tab 4).
Diskussion
Das interaktive Format von KI-Chatbots wie ChatGPT bietet Millionen von interessierten Patienten weltweit eine zugängliche Quelle für medizinische Informationen. Da schätzungsweise 43% der Glaukompatienten im Internet nach medizinischen Informationen suchen, ist es für Ärzte unerlässlich, sowohl die von KI-Chatbots bereitgestellten Informationen als auch die Art und Weise, in der diese Informationen bereitgestellt werden, zu verstehen, damit sie bestmöglich in der Lage sind, die Patientenaufklärung zu führen und die Patientenadhärenz zu verbessern [2, 3]. In dieser Studie wurden verfügbare KI-Chatbots, darunter ChatGPT-4 von OpenAI, Bard von Google und Bing von Microsoft, hinsichtlich ihrer Genauigkeit, Vollständigkeit, Lesbarkeit und der Anzahl der Wörter und Zeichen bewertet.
Die Glaukom-Informationen der AAO-Broschüren waren am genauesten, wenngleich die Genauigkeitswerte von Bing und ChatGPT dicht dahinter lagen, was auf deren Nützlichkeit für Patienten hinweist. Bard war deutlich ungenauer als die anderen KI-Chatbots, was seine Eignung zur Bereitstellung von Informationen zum Glaukom einschränkt. Während jede Ungenauigkeit das Risiko eines Patientenschadens mit sich bringt, ist es zweckmäßiger, die Leistung von KI-Chatbots im Zusammenhang mit anderen Informationsquellen, die Patienten zur Verfügung stehen, zu beurteilen, d.h. Websites statt Goldstandard-Materialien wie AAO-Broschüren. In einer früheren Studie, in der die 15 wichtigsten Websites analysiert wurden, die bei einer Google-Suche nach «Glaukom» angezeigt wurden, wurden nur 26% der Websites in die Kategorie «75–100% genau» eingestuft [4]. In der vorliegenden Studie wurden 63% der Antworten von ChatGPT, 90% der Antworten von Bing und 26% der Antworten von Bard als «76–100% genau» eingestuft. Diese Ergebnisse deuten darauf hin, dass Bing und ChatGPT den Patienten genauere Informationen zum Glaukom liefern als die Suche auf einzelnen Websites. Die Informationen, die zur Bewertung der Genauigkeit abgefragt wurden, variierten jedoch zwischen den Studien, sodass ein direkter Vergleich nicht möglich ist.
Die Literatur zur Bestimmung der Genauigkeit von ChatGPT bei der Beantwortung ophthalmologischer Fragen variiert. Rasmussen et al. [10] bewerteten 56% der ChatGPT-Antworten auf Fragen zur vernalen Keratokonjunktivitis als frei von Ungenauigkeiten oder als verbunden mit geringfügigen, nicht schädlichen Ungenauigkeiten. Potapenko et al. [11] zeigten eine höhere Genauigkeit, wobei 71% der Antworten auf Fragen zu Netzhauterkrankungen als frei von Ungenauigkeiten oder verbunden mit geringfügigen, nicht schädlichen Ungenauigkeiten bewertet wurden. Momenaei et al. [8] werteten die Antworten zur chirurgischen Behandlung von Netzhauterkrankungen aus und stellten fest, dass 93% der insgesamt 264 Antworten auf einer Skala von «angemessen», «unangemessen» oder «unvollständig» als angemessen bewertet wurden. Diese Unterschiede in der Genauigkeit können teilweise durch die unterschiedlichen Bewertungssysteme und deren Granularität erklärt werden. Es ist jedoch möglich, dass ChatGPT und möglicherweise auch andere KI-Chatbots bei der Beantwortung von Fragen zu bestimmten Themen versierter sind.
Während die Genauigkeit der Antworten bei der Bewertung von Patienteninformationsressourcen von größter Bedeutung ist, da Ungenauigkeiten den Patienten schaden und zu Missverständnissen führen können, bieten unzureichende Antworten den Patienten nicht die Informationen, die sie benötigen. Stattdessen können sich Patienten in der falschen Sicherheit wiegen, dass sie die Frage vollständig verstanden haben, und sich möglicherweise nicht dazu entschließen, ihr Anliegen mit ihrem Arzt zu besprechen. Wenngleich die Genauigkeit von ChatGPT in ausgewählten Bereichen evaluiert wurde, ist die Vollständigkeit der von KI-Chatbots bereitgestellten Informationen bislang in keinem Bereich objektiv charakterisiert worden, auch nicht auf dem Gebiet der Augenheilkunde. Im Vergleich zum Goldstandard der AAO-Broschüren war ChatGPT am umfassendsten in seinen Antworten, gefolgt von Bard und Bing. Wenngleich die Auswertung der Vollständigkeit von ChatGPT darauf hindeutet, dass es den AAO-Broschüren überlegen ist, enthalten die AAO-Broschüren einige kritische Konzepte, die Patienten möglicherweise nicht von sich aus in Betracht ziehen. Es liegt auf der Hand, dass KI-Chatbots nur die Fragen beantworten, die gestellt werden. Daher besteht die Möglichkeit, dass weniger Fragen gestellt werden, was zu weniger Informationen führt als bei einem Standarddokument zur Patientenaufklärung wie den AAO-Broschüren.
Genaue und umfassende Informationen sind zwar für eine optimale Patientenaufklärung unerlässlich, aber nur von begrenztem Nutzen, wenn sie nicht verstanden werden. Die AAO- und Bard-Antworten entsprachen dem Niveau der achten Klasse, die Bing-Antworten dem Niveau der zwölften Klasse und die ChatGPT-Antworten dem Niveau des ersten Studienjahres. Die Lesbarkeit der ChatGPT-Antworten zum Glaukom stimmt mit einer Untersuchung überein, in der die Lesbarkeit der ChatGPT-Antworten zur Netzhaut dem Niveau eines Studenten im zweiten Studienjahr entsprach. Dies verdeutlicht die Verständnisschwierigkeiten, die mit diesem Chatbot verbunden sind [8]. Es wurde festgestellt, dass die anderen institutionellen und Online-Materialien zur Glaukomaufklärung dem Niveau von Schülern der Klassen 10 bis 12 entsprechen, wobei die Online-Informationen zum Glaukom entsprechend dem Niveau von Schülern der Klassen 9 bis 11 verfasst sind [4, 12–16]. In Anbetracht der Tatsache, dass die American Medical Association für Aufklärungsmaterial ein Leseniveau unterhalb dem eines Siebtklässlers empfiehlt, waren die Antworten des KI-Chatbots, mit Ausnahme von Bard (der, wie bereits erwähnt, Ungenauigkeiten enthält), auf einem Niveau geschrieben, das für die meisten Patienten schwer zu verstehen wäre [17]. Wenn die Informationen von ChatGPT und Bing für Menschen mit geringer Gesundheitskompetenz unverständlich sind, könnten die Unterschiede im Patientenverständnis zwischen den verschiedenen Gruppen mit der Verbreitung dieser KI-Chatbots zunehmen. Geringe Gesundheitskompetenz wurde bei Glaukompatienten mit einer erhöhten Anzahl an Medikamenten und geringerer ambulanter Nachsorge in Verbindung gebracht [18]. Diese vulnerablen Gruppen benötigen eine besonders gute und verständliche Patientenaufklärung. Dies kann erreicht werden, indem Ärzte geprüfte Materialien wie die Broschüren der AAO nutzen oder durch Verbesserung der Chatbots, um sicherzustellen, dass sie den empfohlenen Richtlinien für das Leseniveau entsprechen.
Die Länge der Antworten von KI-Chatbots kann die Benutzerfreundlichkeit beeinflussen. Kürzere Antworten, gemessen an der Anzahl der Wörter und Zeichen, können für Patienten leichter zu interpretieren und zu verstehen sein. Die Antworten von Bing waren signifikant kürzer als die der anderen Chatbots und der AAO-Broschüre. Die Kürze der Antworten geht jedoch mit einer geringeren Bewertung der Vollständigkeit einher. Dies deutet darauf hin, dass die Bing-Antworten nicht prägnant waren, sondern nicht genügend Informationen enthielten. Die Antworten von ChatGPT, Bard und AAO waren zwar länger, aber die Anzahl der Wörter und Zeichen entspricht ungefähr der Länge eines Absatzes und ist daher angemessen.
Bing lieferte für jede Antwort Quellenangaben, eine einzigartige Funktion dieses Chatbots, die die Glaubwürdigkeit erhöht, da die Quellen überprüft werden können. Obwohl unabhängige Websites die häufigste Art von Quelle waren, stammte mehr als die Hälfte von Forschungsorganisationen, akademischen Einrichtungen oder Peer-Review-Artikeln. Diese Verteilung der Quellen ähnelt der Studie über die 15 wichtigsten Websites bei der Google-Suche nach «Glaukom», was darauf hindeutet, dass Bing möglicherweise Informationen von den beliebtesten Websites zusammenfasst, ohne zuverlässigere Quellen auszuwählen [4].
Zusätzlich zur objektiven Beurteilung der Genauigkeit und der Vollständigkeit ergab eine subjektive Bewertung der Antworten der KI-Chatbots durch Glaukomspezialisten bestimmte Muster falscher Antworten und zeigte, wie KI-Chatbots Patienten potenziell schaden können. Das Fehlen vollständiger Informationen, wie z.B. der Ausschluss bestimmter Risiken einer Glaukom-Drainage-Implantat-Operation, kann Patienten in die Irre führen. Zu den Bedenken bezüglich der Formulierung gehört, dass falsche Vorstellungen aufrechterhalten werden können, zum Beispiel durch eine Antwort wie: «Glaukom wird durch hohen Druck im Auge verursacht». Falsche Informationen über den Eingriff, z.B. «Der Chirurg verwendet eine spezielle Kontaktlinse, um das Auge ruhig zu halten» bei der Beschreibung einer Trabekulektomie, sind keine brauchbaren Informationen für Patienten und können bei Arztbesuchen eine Klärung erfordern. Zu den schädlichsten Aussagen von KI-Chatbots gehören Fehlinformationen, die zu ungünstigen Ergebnissen für den Patienten führen können. Beispielsweise ist die Antwort «Das Blutungsrisiko kann durch die Einnahme von Blutverdünnern vor dem Eingriff verringert werden» schädlich, wenn der Patient dieses Thema nicht ausdrücklich mit seinem Arzt besprochen hat, und es ist für Ärzte schwierig zu erkennen, welche falschen Empfehlungen von KI-Chatbots abgegeben wurden. Das Vorhandensein schädlicher Ungenauigkeiten in ChatGPT-Antworten wurde in mehreren Studien sowohl in der Augenheilkunde als auch in anderen medizinischen Bereichen nachgewiesen [10, 11, 19]. Um dieses potenzielle Risiko zu minimieren, sollten Ärzte ihre Patienten befragen, detaillierte Patientenanweisungen geben und die Patienten ermutigen, vor medizinischen Entscheidungen ärztlichen Rat einzuholen.
Bei der Interpretation der Ergebnisse müssen die Einschränkungen der Studie berücksichtigt werden. Die im Rahmen der Studie beurteilten Fragen stammen aus AAO-Broschüren, die möglicherweise nicht die häufigsten Fragen von Patienten zum Glaukom wiedergeben. Die Vollständigkeit der Antworten der KI-Chatbots wurde im Vergleich zu den AAO-Broschüren bewertet, wobei davon ausgegangen wurde, dass die AAO-Broschüren die umfassendsten Informationen enthielten. Darüber hinaus wurden sowohl die Genauigkeit als auch die Vollständigkeit anhand subjektiver Bewertungsskalen beurteilt. Da jedoch die Vollständigkeit direkt mit den AAO-Informationen verglichen wurde und die Genauigkeitswerte auf numerischen Prozentwerten und nicht auf einem «genau oder ungenau»-System beruhten, wurde diese Einschränkung minimiert. KI-Chatbots werden kontinuierlich aktualisiert und in manchen Fällen mit neuen Informationen ergänzt. Eine Einschränkung dieser Studie besteht daher darin, dass alle Antworten an einem einzigen Tag generiert wurden. Insbesondere könnten die Studienergebnisse mit von den Standardeinstellungen abweichenden Einstellungen der KI-Chatbots anders ausfallen. Bei zukünftigen Studien könnte man sich dafür entscheiden, die Antworten über einen längeren Zeitraum zu untersuchen, um die Konsistenz und Verbesserungen der Parameter im Laufe der Zeit zu bewerten.
Schlussfolgerungen
Zusammenfassend ist festzuhalten, dass in unserer Studie die Stärken und Einschränkungen verschiedener KI-Chatbots, darunter ChatGPT, Bing und Bard, bei der Beantwortung von Fragen zum Glaukom beurteilt wurden. Ärzte müssen sich dieser Einschränkungen bewusst sein, um sicherzustellen, dass die Patienten nach ihrem Vorwissen und ihren Fragen befragt werden und dann klärende und umfassende Informationen erhalten. KI-Entwickler können die Antworten von Chatbots auf Glaukom-Fragen verbessern, indem sie die Lesbarkeit verbessern und Ungenauigkeiten durch die Inanspruchnahme genauerer Online-Quellen und von Glaukom-Experten reduzieren. Mit weiteren Verbesserungen könnten KI-Chatbots in Zukunft eine nützliche zusätzliche Quelle für Glaukom-Informationen sein und zu einer besseren Patientenaufklärung beitragen.
Weitere Informationen
Beiträge der Autoren,
Alle Autoren haben die zu veröffentlichende Endfassung überprüft und die Verantwortung für alle Aspekte der Arbeit übernommen. Konzept und Gestaltung: Goutham R. Yalla, Lauren E. Hock, Aakriti G. Shukla, Natasha N. Kolomeyer. Erfassung, Analyse oder Interpretation der Daten: Goutham R. Yalla, Nicholas Hyman, Lauren E. Hock, Qiang Zhang, Aakriti G. Shukla, Natasha N. Kolomeyer. Entwurf des Manuskripts: Goutham R. Yalla, Nicholas Hyman, Aakriti G. Shukla, Natasha N. Kolomeyer. Kritische Überprüfung des Manuskripts auf wichtige intellektuelle Inhalte: Goutham R. Yalla, Lauren E. Hock, Qiang Zhang, Aakriti G. Shukla, Natasha N. Kolomeyer. Aufsicht: Goutham R. Yalla, Lauren E. Hock, Aakriti G. Shukla, Natasha N. Kolomeyer.
Erklärungen
Menschliche Probanden: Alle Autoren haben bestätigt, dass in dieser Studie keine menschlichen Teilnehmer oder Gewebe verwendet wurden. Tierversuche: Alle Autoren haben bestätigt, dass in dieser Studie keine Tierversuche oder Tiergewebe verwendet wurden.
Disclosure Statement
In Übereinstimmung mit dem einheitlichen Offenlegungsformular des ICMJE erklären alle Autoren Folgendes: Zahlungs-/Dienstleistungsinformationen: Alle Autoren haben erklärt, dass sie für die eingereichte Arbeit keine finanzielle Unterstützung von einer Organisation erhalten haben. Finanzielle Beziehungen: Alle Autoren haben erklärt, dass sie derzeit oder in den letzten drei Jahren keine finanziellen Beziehungen zu Organisationen (gehabt) haben, die ein Interesse an der eingereichten Arbeit haben könnten. Andere Beziehungen: Alle Autoren haben erklärt, dass es keine anderen Beziehungen oder Tätigkeiten gibt, die die eingereichte Arbeit beeinflusst haben könnten.
Danksagungen
Die Autoren danken dem Biostatistics Consulting Core, Vickie and Jack Farber Vision Research Center, Wills Eye Hospital, für die Unterstützung. Die Daten, auf die sich die Ergebnisse dieser Studie stützen, sind auf begründete Anfrage über den Korrespondenzautor zugänglich. Dr. Aakriti G. Shukla und Natasha N. Kolomeyer haben zu gleichen Teilen zu dieser Arbeit beigetragen und sind als leitende Co-Autoren zu betrachten.
Lizenzangabe
Yalla GR, Hyman N, Hock LE, Zhang Q, Shukla AG, Kolomeyer NN: Performance of artificial intelligence chatbots on glaucoma questions adapted from patient brochures. Cureus 2024;16:e56766 (DOI: 10.7759/cureus.56766). © 2024, Yalla et al. (Übersetzung), lizensiert unter CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/deed.de).