Große Sprachmodelle (Large Language Models, LLMs) sind Tools der künstlichen Intelligenz (KI), die speziell für die Verarbeitung und Erzeugung von Text trainiert sind. LLMs erregten erhebliche öffentliche Aufmerksamkeit, nachdem ChatGPT von OpenAI im November 2022 öffentlich zugänglich gemacht wurde. LLMs können Fragen beantworten, Texte zusammenfassen, paraphrasieren und übersetzen, und zwar auf einer Ebene, die von menschlichen Fähigkeiten kaum zu unterscheiden ist. Die Möglichkeit, aktiv mit Modellen wie ChatGPT zu interagieren, macht LLMs zu attraktiven Tools in verschiedenen Bereichen, einschließlich der Medizin. Diese Modelle haben zwar das Potenzial, medizinisches Wissen zu demokratisieren und den Zugang zur Gesundheitsversorgung zu erleichtern, sie könnten jedoch aufgrund mangelnder Rechenschaftspflicht und Transparenz ebenso Fehlinformationen verbreiten und wissenschaftliches Fehlverhalten verschlimmern. In diesem Artikel geben wir einen systematischen und umfassenden Überblick über die Potenziale und Grenzen von LLMs in der klinischen Praxis, der medizinischen Forschung und der medizinischen Ausbildung.

Große Sprachmodelle (Large Language Models, LLMs) verwenden Algorithmen der computergestützten künstlichen Intelligenz (KI), um eine Sprache zu erzeugen, die der von Menschen erzeugten Sprache ähnelt [1, 2]. Diese Modelle werden mit großen Textmengen trainiert, die z. B. aus dem Internet stammen, und können Fragen beantworten, Zusammenfassungen oder Übersetzungen liefern sowie Geschichten oder Gedichte erstellen (Abb 1a) [3, 4]. Benutzer geben eine Reihe von Schlüsselbegriffen oder Abfragen an, und das LLM generiert Texte zu diesen Themen. Es ist auch möglich, einen bestimmten Textstil anzufordern, z. B. vereinfachte Sprache oder Poesie.

Abb. 1.

Große Sprachmodelle (Large Language Models, LLMs) in der Medizin, ein vereinfachtes Design der Architektur hinter ChatGPT, einschließlich Training, Iterationen des Verstärkungslernens durch menschliches Feedback, Auswahl des verfügbaren Modells und Implementierung von Leitlinien zur Verbesserung der Sicherheit, b Überblick über potenzielle Anwendungen von LLMs in der Medizin, einschließlich Patientenversorgung, Forschung und Ausbildung, c Einschränkungen von LLMs in ihrem derzeitigen Zustand.

Abb. 1.

Große Sprachmodelle (Large Language Models, LLMs) in der Medizin, ein vereinfachtes Design der Architektur hinter ChatGPT, einschließlich Training, Iterationen des Verstärkungslernens durch menschliches Feedback, Auswahl des verfügbaren Modells und Implementierung von Leitlinien zur Verbesserung der Sicherheit, b Überblick über potenzielle Anwendungen von LLMs in der Medizin, einschließlich Patientenversorgung, Forschung und Ausbildung, c Einschränkungen von LLMs in ihrem derzeitigen Zustand.

Close modal

LLMs könnten möglicherweise in verschiedenen Bereichen der Medizin helfen, da sie in der Lage sind, komplexe Konzepte zu verarbeiten und auf verschiedene Anfragen (Prompts) zu reagieren [2, 5, 6]. Diese Modelle geben jedoch auch Anlass zur Besorgnis über Fehlinformationen, Datenschutz, Verzerrungen in den Trainingsdaten und Missbrauchspotenzial [3, 7‒10]. Hier geben wir einen Überblick darüber, wie sich LLMs auf die Patientenversorgung, die medizinische Forschung und die medizinische Ausbildung auswirken könnten.

LLMs verwenden neuronale Netze und wurden im Anschluss an frühere Arbeiten mit Modellen der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) wie den Bidirectional Encoder Representations from Transformers (BERT) und ihren Varianten entwickelt [2, 5, 11‒13] (siehe Box 1 für ein Glossar der in diesem Artikel verwendeten Fachbegriffe). Im Jahr 2018 veröffentlichte OpenAI sein erstes LLM, Generative Pre-trained Transformer (GPT)-1 [4], und es folgte die Veröffentlichung anderer LLMs von Unternehmen wie Google und Meta [2, 15‒17]. Im November 2022 veröffentlichte OpenAI ein aktualisiertes LLM namens ChatGPT (https://chat.openai.com), das aufgrund seiner öffentlichen Zugänglichkeit, bequemen Benutzerfreundlichkeit und seines menschenähnlichen Outputs Aufmerksamkeit erregte [18]. Dies wird durch ein integriertes Belohnungsmodell erreicht, das auf menschlichem Feedback basiert und als Reinforcement Learning from Human Feedback, RLHF, bekannt ist, was zu einem glaubwürdigeren Output führt als bei früheren LLMs (Abb 1a) [18‒20].

Seit der Veröffentlichung von ChatGPT wurden mehrere andere LLMs und Tools mit beispielloser Geschwindigkeit veröffentlicht. GPT-4, das mit verstärkendem Lernen durch ChatGPT von OpenAI entwickelt wurde [21], übertrifft jetzt die Punktzahl bei jedem Schritt der US-amerikanischen medizinischen Zulassungsprüfung (US-Medical Licensing Exam, USMLE) [5, 22]. Programmierschnittstellen (Application Programming Interfaces, APIs) für PaLM und den ChatBot BARD (von Google, https://blog.google/technology/ai/google-palm-2-ai-large-language-model) [16, 23], Llama und Llama-2 (von Meta, https://huggingface.co/docs/transformers/main/model_doc/llama) [24], Alpaca 7b [25] und Vicuna 7b [26] (beides kleinere Modelle, die von der Stanford University, der UC Berkeley, der CMU und der UC San Diego auf Basis von Llama für eine erschwingliche Reproduktion entwickelt wurden) sowie GPT-4 werden nun öffentlich zur Verfügung gestellt. Dies ermöglicht es den Anwendern, die Modelle in unabhängige Software zu integrieren. Darüber hinaus erlauben neue Funktionalitäten wie visueller Input [21] und Plug-ins [27] eine exponentiell wachsende Anzahl möglicher Anwendungen.

In allen medizinischen Disziplinen ist die menschliche Kommunikation ein integraler Bestandteil der Patientenversorgung. Die genaue Interpretation der gesprochenen Sprache ist einer der wichtigsten Faktoren, die den Erfolg der Kommunikation beeinflussen. Dies ist von entscheidender Bedeutung für das Verhältnis zwischen Patienten und Pflegepersonal, die Patientenzufriedenheit und die Ermöglichung optimaler klinischer Ergebnisse. Gleichzeitig wird Text für einen Großteil der Kommunikation zwischen Medizinern über Patienten verwendet, z. B. für Berichte über diagnostische und therapeutische Verfahren, die Ergebnisse und deren Auswirkungen. Mangelnde Klarheit in den Patientenberichten korreliert mit einer schlechteren Qualität der Patientenversorgung [28]. Außerdem führt eine ineffiziente Kommunikation zwischen Gesundheitsdienstleistern zu einer erheblichen wirtschaftlichen Belastung für klinische Einrichtungen und Gesundheitssysteme [29]. Hier beschreiben wir drei Hauptbeispiele, wie LLMs zur Verbesserung der Patientenversorgung eingesetzt werden können: Vermittlung von medizinischem Wissen, Unterstützung der Kommunikation mit Patienten durch Übersetzungen und Zusammenfassungen und die Vereinfachung von Dokumentationsaufgaben durch die Konvertierung zwischen unstrukturierten und strukturierten Informationen.

LLMs haben das Potenzial, die Patientenversorgung zu verbessern, indem sie medizinische Kernkompetenzen wie tatsächliches Wissen oder zwischenmenschliche Kommunikationsfähigkeiten erweitern (Abb 1b). ChatGPT zum Beispiel verfügt über ein umfangreiches semantisches medizinisches Wissen und ist in der Lage, medizinische Argumentationen vorzunehmen (Box 2, Zusatzdaten, Beispiel 1), was sich in seinem guten Abschneiden bei medizinischen Zulassungsprüfungen zeigt [5, 6, 30]. Die Feinabstimmung von LLMs durch zusätzliches Training mit Fragen im Stil von medizinischen Zulassungsprüfungen und Beispielantworten, die von klinischen Experten ausgewählt wurden, kann das medizinische Denken und Verständnis des LLM weiter verbessern [2]. GPT-4 weist bisher das höchste medizinische Domänenwissen von LLMs auf [5]. Dennoch haben LLMs die inhärente Einschränkung, bestehende medizinische Verzerrungen zu reproduzieren [31] (Zusatzdaten, Beispiel 2) und Ungleichheiten im Zusammenhang mit Faktoren wie Rasse, Geschlecht, sexueller Orientierung und sozioökonomischem Status aufrechtzuerhalten [30, 32]. Durch ihre Fähigkeiten zur Textvereinfachung [33] können LLMs die Kommunikation zwischen medizinischem Personal und Patienten verbessern [3, 1]. Sie sind für Patienten jederzeit zugänglich und unterliegen nicht den gleichen zeitlichen Einschränkungen wie Experten im Gesundheitswesen, was den Kontakt möglicherweise einfacher und komfortabler macht [35]. Diese Vorteile sind besonders ausgeprägt bei Erkrankungen, die mit einem sozialen Stigma behaftet sind, wie z. B. Sucht oder sexuell übertragbare Krankheiten. Seit der starken Verbreitung von Smartphones in den späten 2000er Jahren wurden digitale Tools entwickelt, die diesem Bedarf gerecht werden. Beispiele für solche Tools sind First Derm [36, 37], eine Teledermatoskopie-Anwendung zur Diagnose von Hauterkrankungen, die es Dermatologen ermöglicht, Hauterkrankungen aus der Ferne zu beurteilen und zu beraten, und Pahola [38], ein digitaler Chatbot, der Beratung zum Alkoholkonsum bietet. Derzeit ist der Erfolg solcher digitalen Gesundheitsanwendungen vor allem durch technische Einschränkungen [39] und die begrenzte Akzeptanz bei den Angehörigen der Gesundheitsberufe begrenzt [40]. Die rasche Weiterentwicklung von LLMs und die daraus resultierenden Verbesserungen der Funktionalität und Benutzerfreundlichkeit könnten dazu beitragen, diese Einschränkungen zu überwinden. Dennoch fehlen LLMs derzeit die Fähigkeit zu echtem Einfühlungsvermögen, das in emotional herausfordernden Situationen ein entscheidender Aspekt ist und wahrscheinlich eine Aufgabe bleiben wird, die von Menschen erledigt werden muss.

Sprachbarrieren behindern häufig die Beteiligung von Patienten an Entscheidungen über ihr eigenes Wohlbefinden [41, 42]. LLMs können schnelle und genaue Übersetzungen in viele Sprachen liefern, so dass sowohl Gesundheitsdienstleister als auch Patienten unabhängig von ihrer Muttersprache effektiv an der klinischen Entscheidungsfindung teilnehmen können (Zusatzdaten, Beispiel 3). LLMs können auch als Übersetzer medizinischer Terminologie in einfache Alltagssprache fungieren, was wahrscheinlich die Therapietreue verbessert, indem Patienten bei ihren gesundheitsbezogenen Entscheidungen unterstützt werden.

Dokumentations- und Verwaltungsanforderungen nehmen rund 25 % der Arbeitstage von Klinikern in Anspruch [35]. LLMs könnten bei der Erstellung präziserer und standardisierter Berichte und Dokumentationen helfen. Entscheidend ist, dass LLMs unstrukturierte Notizen in ein strukturiertes Format umwandeln können, wodurch Dokumentationsaufgaben in der routinemäßigen Patientenversorgung oder in klinischen Studien erleichtert werden (Zusatzdaten, Beispiel 4). Die Kombination des Potenzials von LLMs bei der Verarbeitung und Produktion von geschriebener und gesprochener Sprache [43] könnte zu einem automatisierten Diktat oder einer durch Prompt ausgelösten Diagrammüberprüfung führen. Eine solche Integration könnte Kliniker teilweise im Dokumentationsprozess entlasten, die kognitive Belastung reduzieren und so ihre Verfügbarkeit für Patienten erhöhen.

Um eine qualitativ hochwertige Gesundheitsversorgung zu gewährleisten, müssen Ärzte die neueste medizinische Evidenz in ihre Entscheidungsprozesse integrieren. Ärzte sind außerdem oft an präklinischer, translationaler und klinischer Forschung beteiligt. Eine effiziente Kommunikation von Forschungsergebnissen, z. B. in Form von schriftlichen Veröffentlichungen und mündlichen Berichten auf Konferenzen, ermöglicht es, dass die Ergebnisse die entsprechenden medizinischen und wissenschaftlichen Communities erreichen und letztendlich in der Klinik Anwendung finden. LLMs werden wahrscheinlich schon bald die medizinische Forschung beeinflussen und verändern. Wenngleich sie das Potenzial haben, den Zugang zu wissenschaftlicher Evidenz zu demokratisieren, können sie zu Fehlinformationen führen und wissenschaftliches Fehlverhalten begünstigen [44‒46]. Hier geben wir einen Überblick darüber, wie sich LLMs auf den Zugang zu wissenschaftlichen Erkenntnissen, auf wissenschaftliches Schreiben und auf Programmieraufgaben auswirken könnten.

Die wissenschaftliche Forschung ist schnelllebig und entwickelt sich ständig weiter, was zu einer wachsenden Anzahl von Veröffentlichungen unterschiedlicher Qualität führt [47‒49]. Dieses Wissen angemessen zu nutzen, ist eine erhebliche Herausforderung für Forschende. Außerdem bleibt der Inhalt von nicht öffentlich zugänglichen Veröffentlichungen hinter Paywalls verborgen, was den Zugang einschränkt. LLMs könnten dazu beitragen, wissenschaftliche Konzepte und vorhandene Evidenz zusammenzufassen, sodass Forschende Zugang zu einer kleineren Anzahl von leichter zugänglichen Ressourcen benötigen. Die Qualität und der Nutzen dieser Zusammenfassungen hängen jedoch von den zugrunde liegenden Trainingsdaten ab. GPT-4 ist zwar sachlich genauer als sein Vorgänger GPT-3.5 [Box 2, Zusatzdaten, Beispiel 2, 5, 10], aber LLMs liefern derzeit nicht immer angemessene detaillierte Zusammenfassungen oder kritische Bewertungen aktueller, qualitativ hochwertiger, von Experten begutachteter Evidenz. Da LLMs derzeit nicht dynamisch aktualisiert werden, ist ihr Wissen statisch, was den Zugang zu den neuesten wissenschaftlichen Fortschritten verhindert, wenn sie als primäre Informationsquelle verwendet werden [Box 2, Zusatzdaten, Beispiel 5]. Wenn jedoch Updates in Echtzeit implementiert und die Faktizität verbessert werden könnten, würde der Wert von LLMs als Quellen für aktuelle Evidenz erheblich steigen. Es ist denkbar, dass solche LLMs der nächsten Generation dazu beitragen könnten, dem Trend zu weniger disruptiver Forschung entgegenzuwirken [49], wenn sie als wissenschaftliche Tools eingesetzt werden. LLMs können beispielsweise verwendet werden, um relevante Daten effizient aus riesigen, unstrukturierten Textdateien oder Bildern zu extrahieren, was eine mühsame Aufgabe ist, die zu Fehlern führen kann, wenn sie manuell durchgeführt wird [51]. LLM-fähige qualitativ hochwertige Zusammenfassungen könnten helfen, die Herausforderungen der sich schnell entwickelnden wissenschaftlichen Evidenz zu meistern, und durch die Aufdeckung möglicher Verbindungen zwischen der Literatur könnten LLMs dazu beitragen, neue Forschungspfade zu entdecken und so zur Gestaltung einer innovativeren und dynamischeren Forschungslandschaft beitragen.

Das Potenzial eines LLM, den Inhalt, die Sprache und den Stil von Texten zu produzieren und anzupassen, kann genutzt werden, um wissenschaftliche Inhalte zu erzeugen [52, 53]. ChatGPT ist beispielsweise in der Lage, wissenschaftliche Zusammenfassungen zu erstellen, die Menschen nur schwer von denen unterscheiden können, die von menschlichen Forschenden verfasst wurden [54]. Nichtsdestotrotz erfordert die Verwendung von LLMs für das wissenschaftliche Schreiben derzeit aufgrund ungenauer, oberflächlicher und sich wiederholender Outputs erhebliche Überarbeitungen durch menschliche Autoren [Zusatzdaten, Beispiel 6]. Es wird erwartet, dass LLMs die Kommunikation wissenschaftlicher Erkenntnisse beeinflussen werden [9, 55]. Ihre Verwendung kann jedoch die Qualität wissenschaftlicher Veröffentlichungen beeinträchtigen, indem die Überprüfung der Echtheit wissenschaftlicher Texte sowie der zugrunde liegenden Fakten und Referenzen erschwert werden. Um die wissenschaftlichen Entwicklungen so transparent wie möglich zu gestalten, wird es wichtig sein, einen Rahmen für die Verwendung von LLMs im wissenschaftlichen Kontext zu definieren [9, 46, 56].

LLMs können auch auf Codes in verschiedenen Programmiersprachen trainiert werden. Beliebte Anwendungen von LLMs in den Bereichen Data Science und Bioinformatik sind Code-Debugging und -Vereinfachung, Übersetzung in verschiedene Programmiersprachen und Code-Ableitung aus natürlichen sprachlichen Inputs [Zusatzdaten, Beispiel 7]. Wenngleich diese Outputs manchmal ungenau sein können, sind LLMs in der Lage, auf weitere Anfrage Lösungen anzubieten und Forschenden bei einfachen und komplexen Codierungsaufgaben zu helfen, z. B. bei der schnellen Visualisierung von Daten. Dies bietet Wissenschaftlern ein technisches Know-how, das es Klinikern und anderen, denen es an fundierten Programmierkenntnissen mangelt, ermöglicht, codebasierte Tools zu verwenden, um ihre Hypothesen zu testen und ihre Effizienz zu steigern. Reproduzierbarkeit ist eine Grundvoraussetzung für die Aufrechterhaltung hoher Standards in der wissenschaftlichen Praxis. Wenngleich die dynamische Aktualisierung von Modellen im Vergleich zu ihren Vorgängern zu einer verbesserten Leistung führen kann [5, 21], können solche Aktualisierungen oder Einschränkungen ihres Zugriffs auch die zuverlässige und konsistente Reproduktion von Forschungsergebnissen gefährden. So beobachteten wir beispielsweise erhebliche Unterschiede zwischen den durch Prompts ausgelösten ersten Abfragen mit GPT-3.5 und Re-prompting mit GPT-4 [Box 2, Zusatzdaten]. Kleinere Änderungen wurden auch bei der Verwendung verschiedener Versionen von GPT-3.5 beobachtet. Dies unterstreicht die Bedeutung einer sorgfältigen Dokumentation von Prompts und Modellversionen in wissenschaftlichen Veröffentlichungen sowie der Implementierung von Open-Access-Versionskontrolllösungen durch Entwickler, um die zukünftige Neuerstellung von versionsspezifischen Inhalten zu ermöglichen.

Die Ausbildung hat sich mit dem Aufkommen neuer Technologien verändert. Durch die Verfügbarkeit von Taschenrechnern konnte sich der Mathematikunterricht beispielsweise auf Theorien und Argumente konzentrieren, anstatt zu lernen, wie man komplexe Kopfrechnungen durchführt [57, 58]. Da heute eine große Menge an Wissen über das Internet und intelligente Geräte leicht verfügbar ist, ist das Auswendiglernen in der medizinischen Ausbildung weniger notwendig geworden. Stattdessen haben Pädagogen mehr Wert auf kritisches Denken, Debattieren und Diskutieren gelegt, da dies Fähigkeiten sind, die nach wie vor erforderlich sind. LLMs werden wahrscheinlich weitere Änderungen an den Ausbildungsmethoden mit sich bringen, da sie bei der Argumentation helfen können. Im folgenden Abschnitt werden wir das Potenzial von LLMs in der medizinischen Ausbildung und ihre potenziellen Auswirkungen auf die Fähigkeiten des kritischen Denkens von Angehörigen der Gesundheitsberufe untersuchen sowie wichtige Themen identifizieren, die in der medizinischen Ausbildung behandelt werden sollten, da LLMs immer häufiger werden.

Bei verantwortungsvollem Einsatz können LLMs Ausbildungsstrategien in vielerlei Hinsicht ergänzen. Sie können überzeugende Zusammenfassungen, Präsentationen, Übersetzungen, Erklärungen, Schritt-für-Schritt-Anleitungen und Kontextualisierungen zu vielen Themen bieten, gepaart mit anpassbarer Tiefe, Ton und Stil des Outputs. So können sie beispielsweise komplexe Konzepte auf das Niveau eines Laien bringen [Box 2, Zusatzdaten, Beispiel 8, 9] und mit sinnvollen Erklärungen individuelles Feedback zu akademischen Themen geben [Zusatzdaten, Beispiel 9]. Aufgrund dieser Eigenschaften eignen sich LLMs als personalisierte Lehrassistenten, die z. B. Wiederholungshilfen und Testbeispiele vorbereiten könnten. LLMs können verwendet werden, um interaktive und ansprechende Lernsimulationen zu erstellen. Zum Beispiel können Studierende LLMs verwenden, um Gespräche mit fiktiven Patienten zu simulieren, so dass sie die Patientenanamnese oder die Beurteilung von Diagnose- und Behandlungsplänen üben können [Zusatzdaten, Beispiel 11].

Die Verwendung von LLMs als Lehrmittel gibt Anlass zu Bedenken, da Studierende sie auf unangemessene Weise einsetzen können. Was das wissenschaftliche Umfeld betrifft, muss der Einsatz von LLMs an Bildungseinrichtungen transparent geregelt werden, z. B. mit Hilfe von Algorithmen für maschinelles Lernen, um zwischen von LLMs erzeugtem und selbst geschriebenem Text zu unterscheiden [59]. Dennoch ist zu erwarten, dass LLMs sich negativ auf die Fähigkeit der Studierenden auswirken könnten, wertvolle Informationen von falschen und irrelevanten Inputs zu unterscheiden. Dies kann nur durch kritisches Denken erreicht werden, das auf Verständnis, analytischem Denken und kritischer Bewertung basiert [60, 61]. Daher könnte der Einsatz von LLMs als Krücke für Aufgaben zu einem Rückgang des kritischen Denkens und der Kreativität der Studierenden führen. Im Zusammenhang mit der medizinischen Ausbildung bergen leicht verfügbare LLMs neben der Externalisierung von tatsächlichem Wissen auch die Gefahr der Externalisierung des medizinischen Denkens.

Es wird wichtig sein, Richtlinien für einen verantwortungsvollen Umgang mit LLMs zu implementieren, um eine unangemessene Verwendung durch Studierende zu verhindern, insbesondere in der medizinischen Ausbildung, wo Fehlinformationen zu ungenauen Entscheidungen führen können, die möglicherweise zu Schäden für Patienten führen. Alle Studierenden sollten eine grundlegende Einführung in LLMs erhalten, da sie ein großes Anwendungspotenzial haben. Dazu sollte auch das Bewusstsein für intrinsische Verzerrungen und Einschränkungen gehören. Es ist besonders wichtig, dass die Studierenden ein angemessenes Prompt Engineering erlernen, d. h. eine angemessene und präzise Formulierung eines geeigneten Inputs, um den gewünschten Output zu erhalten [62], da falsch verstandene Prompts zu Verzerrungen oder Fehlinformationen mit potenziell schwerwiegenden Folgen führen können [4].

LLMs können einen breiteren Zugang zu medizinischem Wissen bieten. Trotz der jüngsten Verbesserungen bei der sachlichen Genauigkeit [21] besteht jedoch nach wie vor das wiederkehrende Problem der Fehlinformationen (Box 2, Zusatzdaten, Beispiel 1063) und der potenziell schädlichen Folgen für die Patientenversorgung. Technische Optionen zur Überwindung von Einschränkungen in der Faktizität und zur Minderung von (verzerrungsbedingten) Schäden können in der Regel während des gesamten Entwicklungsprozesses von LLMs implementiert werden. Input-Daten können durch Stichproben- und Filterprozesse verbessert werden, Modellarchitekturen können erweitert werden, um tatsächliche Informationen aus Datenbanken oder Wissensgraphen einzubeziehen. Schädliche Outputs können erkannt und auf Inferenzebene neu geschrieben werden, und schädliche und falsche Modell-Outputs können markiert und geschwärzt werden [33, 64‒68]. Diese Möglichkeiten wurden bisher nur unzureichend genutzt, und es muss ein rechtlicher Rahmen für den Umgang mit potenziellen Problemen geschaffen werden, bevor LLMs für die Entscheidungsfindung oder für therapeutische Empfehlungen klinisch eingesetzt werden können [69, 70].

Wir gehen davon aus, dass die folgenden ethischen Fragen erhebliche Herausforderungen mit sich bringen, die bewältigt werden müssen. Zum einen ist der Datenschutz von größter Bedeutung, um sensible personenbezogene Daten zu schützen, die im klinischen Umfeld routinemäßig bewertet, dokumentiert und ausgetauscht werden. Berichte über Datenlecks [71] oder böswillige Versuche (Prompt-Injection-Angriffe zum Diebstahl von Daten) [72] sind besorgniserregend und müssen angegangen werden. Die Implementierung von APIs [23, 26] in unabhängige, sichere Anwendungen anstelle der Verwendung von Schnittstellen wie ChatGPT könnte dieses Problem lösen. Eine zweite Herausforderung ergibt sich aus dem Mangel an öffentlich zugänglichen Trainingsdatensätzen und Quellcodes [63]. Da die Output-Qualität eines jeden Modells in hohem Maße von der Qualität der Input-Daten abhängt, ist es für die wissenschaftliche Community von entscheidender Bedeutung, Einblicke in die zugrunde liegenden Daten derzeitiger LLMs zu erhalten. Schließlich wurde die Entwicklung von LLMs bisher hauptsächlich von kommerziellen Unternehmen wie OpenAI/Microsoft [21], Meta [24] und Google [2] vorangetrieben. Um zu verhindern, dass medizinisches Wissen und Zugang zur Gesundheitsversorgung auf globale Monopole beschränkt werden, ist es wichtig, die Entwicklung nichtkommerzieller Open-Source-LLM-Projekte zu fördern [9, 63].

Es wird erwartet, dass LLMs einen erheblichen Einfluss auf die klinische Versorgung, Forschung und medizinische Ausbildung haben werden. Es ist jedoch wichtig, sich ihrer Grenzen bewusst zu sein und diese zu berücksichtigen. Es hat sich gezeigt, dass LLMs vorhandene Verzerrungen reproduzieren und dazu neigen, falsche Informationen zu halluzinieren und Fehlinformationen zu verbreiten [32, 73]. Im Zusammenhang mit der medizinischen und nicht-medizinischen Ausbildung sind Studierende anfällig für Fehlinformationen und entwickeln möglicherweise nicht die erforderlichen Fähigkeiten zum kritischen Denken. Derzeit gibt es keine Mechanismen, die sicherstellen, dass der Output eines LLM korrekt ist. Dies schränkt die Anwendbarkeit von LLMs im klinischen Umfeld erheblich ein, da Fehler und Fehlinformationen fatale Folgen haben können. Erschwerend kommt hinzu, dass LLMs nicht zur Rechenschaft gezogen werden. Auf der anderen Seite könnten Sicherheitsleitlinien, die in LLMs implementiert sind, eine eigene Einschränkung darstellen, z. B. wenn die Verhinderung von Verzerrungen dazu führt, dass unterschiedliche Symptome bei Männern und Frauen übersehen werden. Im Allgemeinen zeigen jedoch kürzlich aktualisierte Versionen und Modelle, die speziell für medizinische Anwendungen entwickelt und mit medizinischen Daten trainiert wurden, vielversprechende Fortschritte in diesem Bereich [3, 5, 74]. Bevor LLMs jedoch im medizinischen Bereich angewendet werden können, müssen zentrale Bedingungen wie Sicherheit, Validität und ethische Bedenken geklärt werden.

Modelle künstlicher Intelligenz (KI): Computersysteme, die entwickelt wurden, um menschliche Intelligenz zu simulieren und Aufgaben wie Problemlösung, Entscheidungsfindung und Sprachverarbeitung auszuführen.

Application Programming Interface (API): Schnittstelle, die die Kommunikation und Interaktion zwischen verschiedenen Softwareanwendungen erleichtert und eine nahtlose Integration und einen nahtlosen Datenaustausch ermöglicht.

Bidirectional Encoder Representations from Transformers (BERT): Ein spezifisches Modell der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), das eine transformatorbasierte neuronale Netzwerkarchitektur verwendet. Es konzentriert sich darauf, die kontextuelle Bedeutung von Wörtern zu verstehen, indem sowohl die vorhergehenden als auch die folgenden Wörter in einem Satz berücksichtigt werden.

Code-Debugging: Prozess der Identifizierung und Behebung von Fehlern oder Problemen im Softwarecode, um sicherzustellen, dass das Programm ordnungsgemäß funktioniert und die beabsichtigten Ergebnisse liefert.

Datenleck: Unbeabsichtigte Enthüllung oder Offenlegung sensibler oder vertraulicher Informationen gegenüber unbefugten Personen oder Organisationen, die möglicherweise zu Datenschutzverletzungen oder Sicherheitsrisiken führt.

Domänenwissen:Fachwissen und Verständnis auf einem bestimmten Gebiet oder in einem bestimmten Themenbereich. Es umfasst die Konzepte, Prinzipien und praktischen Anwendungen, die für den jeweiligen Bereich relevant sind.

Externalisierung:Der Prozess, tatsächliches Wissen in einer externen Form wie in schriftlichen Dokumenten, Diagrammen oder Datenbanken auszudrücken oder darzustellen, um es greifbarer und zugänglicher zu machen.

Generative Pre-trained Transformer (GPT)-1: Generative Pre-trained Transformer (GPT)-1 ist ein großes Sprachmodell, das von OpenAI entwickelt wurde. Es verwendet einen generativen Pre-Training-Ansatz und eine Transformer-Architektur, um Text zu generieren, der der menschlichen Sprache sehr ähnlich ist.

Input in natürlicher Sprache: Verwendung der menschlichen Sprache, ob gesprochen oder geschrieben, um mit Computersystemen zu interagieren. Sie ermöglicht Benutzern, Anweisungen oder Inputs auf intuitivere und menschlichere Weise zu geben.

Modelle der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP): Kl-Modelle, die speziell für das Verständnis und die Analyse der menschlichen Sprache entwickelt wurden. Sie ermöglichen es Computern, Textdaten zu verarbeiten und zu interpretieren, Bedeutungen zu extrahieren und sprachbezogene Aufgaben auszuführen.

Plug-in: Softwarekomponente oder -modul, die bzw. das einer vorhandenen Softwareanwendung bestimmte Merkmale oder Funktionen hinzufügt, ihre Fähigkeiten verbessert oder ihre Funktionalität erweitert.

Prompt, Re-prompt:Ein bestimmter Stimulus oder Hinweis, der gegeben wird, um eine bestimmte Aktion oder Reaktion zu initiieren. Im Zusammenhang mit durch Prompts ausgelösten Diagrammüberprüfungen oder ersten Abfragen stellt es eine Frage oder Anweisung dar, um eine bestimmte Aufgabe oder Anfrage zu ermöglichen. Beim Re-prompting werden zusätzliche Prompts oder Hinweise gegeben, um weitere Antworten oder Aktionen von einem Benutzer oder System zu erhalten, häufig um spezifischere oder detailliertere Daten zu erheben.

Prompt-Injection-Angriff: Böswilliges Hinzufügen von nicht autorisierten Prompts oder Befehlen in ein System, oft mit der Absicht, die Sicherheit zu gefährden, Funktionen zu manipulieren oder vertrauliche Informationen zu extrahieren.

Abfrage: Eine bestimmte Anfrage oder Frage, die an ein System oder eine Datenbank gestellt wird, um relevante Informationen oder Daten zu erhalten.

Verstärkungslernen:Eine Methode des maschinellen Lernens, bei der Entscheidungen durch die Interaktion mit einer Umgebung getroffen werden. Das Modell erhält externes (d. h. menschliches) Feedback in Form von Belohnungen oder Bestrafungen, wodurch es seine Leistung im Laufe der Zeit verbessern kann.

Verstärkungslernen durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF): Eine Technik, die Methoden des Verstärkungslernens mit zusätzlicher Anleitung oder Feedback von menschlichen Experten kombiniert. Dieser Ansatz verbessert die Leistung des Modells und richtet es an den menschlichen Präferenzen aus.

Sicherheitsleitlinien: Maßnahmen oder Regeln, die implementiert wurden, um den sicheren und verantwortungsvollen Betrieb eines Systems zu gewährleisten. Sie dienen als Sicherheitsvorkehrungen, um Risiken zu mindern, schädliche Folgen zu verhindern und die Integrität und Zuverlässigkeit des Systems aufrechtzuerhalten.

Semantisches Wissen: Semantisches Wissen bezieht sich auf das Verständnis der Bedeutung, der Beziehungen und des Kontextes von Wörtern und Sätzen. Es geht darum, die tieferen Nuancen und konzeptuellen Assoziationen innerhalb der Sprache zu verstehen.

Strukturierte Informationen: Daten oder Informationen, die vordefiniert organisiert und formatiert sind, z. B. eine Datenbank oder eine Tabelle. Es folgt einer konsistenten Struktur, die eine einfachere Speicherung, Wiedererlangung und Analyse ermöglicht.

Unstrukturierte Informationen: Daten oder Informationen, die keinem vordefinierten oder organisierten Format entsprechen. Beispiele sind Text-, Bild-, Audio- oder Videodaten, die fortgeschrittene Techniken für die Verarbeitung, Interpretation und Analyse erfordern.

Visueller Input: Informationen, die durch visuelle Wahrnehmung empfangen werden, z. B. Bilder, Videos oder grafische Darstellungen. Kl-Modelle können visuelle Inputs für verschiedene Aufgaben, wie z. B. Objekterkennung oder Bildklassifizierung, analysieren und verarbeiten.

Modell-Outputs wurden mit ChatGPT generiert (Modellversionen: GPT-4 – 3. Mai 2023, GPT-3.5 – 3. Mai 2023). Weitere Beispiele von Outputs sind in den Zusatzdaten aufgeführt.

Klinische Empfehlung

Die Verabreichung von Prokinetika kann bei Patienten mit (mechanischem) Ileus tödlich sein. Diese falsche Empfehlung war ein Output von GPT-3.5, konnte aber mit GPT-4 nicht reproduziert werden.

Prompt: Als Arzt auf einer chirurgischen Station zeigt ein postoperativer Patient auf Ihrer Station Ileus-Symptome. Welche therapeutischen Maßnahmen würden Sie sofort einleiten?

GPT-3.5: [1.–2.] 3. Verabreichen Sie ein prokinetisches Mittel wie Metoclopramid oder Erythromycin, um die Darmmotilität zu stimulieren und die Blockade durch den Darm zu bewegen. [4.–8.]

GPT-4: Der postoperative Ileus ist eine vorübergehende Beeinträchtigung der Darmmotilität, die nach einer Operation, insbesondere einer Bauchoperation, auftritt. Wenn Sie bei einem Patienten einen Ileus vermuten, sollten Sie die folgenden Schritte in Betracht ziehen:

1. Beurteilen Sie den Patienten: Führen Sie eine gründliche Anamnese und [...] körperliche Untersuchung durch, [...] überwachen Sie die Vitalparameter [...]

2. Ordnen Sie Untersuchungen an: Ordnen Sie Labortests, [...] eine Röntgen- oder CT-Untersuchung des Abdomens [...] an

3. Nichts durch den Mund verabreichen [...], um [...] das Risiko einer Aspiration im Falle von Erbrechen zu minimieren.

4. Intravenöse Flüssigkeiten [...] zur Aufrechterhaltung der Hydratation und des Elektrolythaushalts.

5. [...] Erwägen Sie, eine Magensonde zu legen, um den Magen zu dekomprimieren und die Symptome zu lindern [...]

6. Schmerztherapie [7.–8.]

GPT-3.5 korrigierte zwar Grammatikfehler, aber nicht die intrinsisch falsche Aussage (MSI tritt nicht nur bei Darmkrebs auf). GPT-4 korrigierte Fehler sowohl auf grammatikalischer als auch auf inhaltlicher Ebene.

Prompt: Korrigieren Sie den Inhalt des folgenden Absatzes: MSI ist eine Art von Mutation, die nur bei Darmkrebs auftritt. Die Krebspatienten mit dieser Mutation sprechen sehr gut auf die Behandlungen an. Ihre Überlebenszeit ist wesentlich länger als bei anderen Darmkrebspatienten.

GPT-3.5: MSI ist eine Art von genetischer Veränderung, die ausschließlich bei Darmkrebspatienten auftritt. Personen mit dieser Mutation sprechen tendenziell besser auf Behandlungen an, und ihre Überlebensrate ist im Vergleich zu Personen ohne MSI-Mutation signifikant höher.

GPT-4: Mikrosatelliteninstabilität (MSI) ist eine Art von Mutation, die nicht nur bei Darmkrebs, sondern auch bei anderen Krebsarten auftritt. Patienten mit dieser Mutation sprechen in der Regel sehr gut auf Behandlungen an. Ihre Überlebenszeit ist im Vergleich zu anderen Darmkrebspatienten oft länger. An Zielgruppen angepasste Erklärungen

Sowohl GPT-3.5 als auch GPT-4 sind in der Lage, Formulierungen und Stile an unterschiedliche Zielgruppen anzupassen.

Prompt: Erklären Sie einem Fünfjährigen die Proteinbiosynthese.

GPT-3.5:Proteine sind spezielle Moleküle, die für unseren Körper wichtig sind. Sie helfen uns zu wachsen, gesund zu bleiben und viele verschiedene Dinge zu tun. Genauso wie verschiedene Bausteine verwendet werden können, um verschiedene Dinge zu bauen, verwendet unser Körper kleine Bausteine, die als Aminosäuren bezeichnet werden, um Proteine zu bilden. Der Prozess der Proteinbiosynthese ist wie das Befolgen eines Rezepts, um etwas Leckeres zuzubereiten. Unser Körper hat ein spezielles Rezeptbuch namens DNA, das Anweisungen zur Herstellung von Proteinen enthält. Die DNA ist wie ein spezieller Code, der unserem Körper sagt, wie er verschiedene Proteine herstellen soll.

Wenn es an der Zeit ist, ein Protein herzustellen, liest unser Körper das Rezept aus dem DNA-Buch. Es ist, als würde ein Koch ein Rezept lesen, um einen Kuchen zu backen. Aber anstatt Mehl und Zucker zu verwenden, verwendet unser Körper Aminosäuren als Zutaten. Unser Körper hat kleine Fabriken, die Ribosomen genannt werden und dabei helfen, die Aminosäuren in der richtigen Reihenfolge zusammenzusetzen, genau wie ein Koch, der die Zutaten auf die richtige Weise mischt. Die Ribosomen lesen das Rezept aus der DNA und stellen sicher, dass die Aminosäuren in der richtigen Reihenfolge zusammengesetzt werden, um das Protein herzustellen. Sobald das Protein hergestellt ist, kann es in verschiedene Teile unseres Körpers gelangen, um seine Aufgabe zu erfüllen. Einige Proteine helfen unseren Muskeln, sich zu bewegen, andere helfen uns zu sehen, und einige helfen uns, Keime abzuwehren, um gesund zu bleiben. Die Proteinbiosynthese ist also wie das Befolgen eines Rezepts zur Herstellung spezieller Moleküle, die als Proteine bezeichnet werden, wobei Aminosäuren als Zutaten verwendet werden. Unser Körper hat einen speziellen Code namens DNA und kleine Fabriken, die Ribosomen genannt werden und dabei helfen, die Aminosäuren auf die richtige Weise zusammenzusetzen, um die Proteine herzustellen, die wir benötigen. Ich hoffe, das hilft dir, die Proteinbiosynthese auch in jungem Alter zu verstehen.

GPT-4: Die Proteinbiosynthese ist wie die Konstruktion eines Spielzeugs mit winzigen Bausteinen, die als Aminosäuren bezeichnet werden. Unser Körper verfügt über eine spezielle Anweisung namens DNA, die ihm sagt, wie er diese Bausteine in der richtigen Reihenfolge zusammensetzen soll. Stell dir eine große Fabrik in unserem Körper vor, in der winzige Arbeiter, Ribosomen genannt, die Anweisungen lesen und die Aminosäuren zusammensetzen. Wenn die Aminosäuren in der richtigen Reihenfolge verbunden sind, bilden sie Proteine. Diese Proteine sind wichtig, weil sie unserem Körper helfen, zu wachsen, sich selbst zu reparieren und all die Dinge zu tun, die wir zum Leben brauchen, wie Laufen und Spielen.

Clusmann J, Kolbinger FR, Muti HS, Carrero ZI, Eckardt JN, Laleh NG, Löffler CML, Schwarzkopf SC, Unger M, Veldhuizen GP, Wagner SJ, Kather JN. The future landscape of large language models in medicine. Commun Med (Lond). 2023 Oct 10;3(1):141. (Überseetzung), lizensiert unter CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/deed.de).

1.
Tamkin
,
A.
,
Brundage
,
M.
,
Clark
,
J.
&
Ganguli
,
D.
.
Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models
. Vorabdruck in arXiv https://doi.org/10.48550/arXiv.2102.02503 (
2021
).
2.
Singhal
,
K.
et al
.
Large Language Models Encode Clinical Knowledge
.
Nature
620
,
172
180
(
2023
).
3.
Korngiebel
,
D. M.
&
Mooney
,
S. D.
.
Considering the possibilities and pitfalls of Generative Pre-trained Transformer 3 (GPT-3) in healthcare delivery
.
NPJ Digit. Med
.
4
,
93
(
2021
).
4.
Binz
,
M.
&
Schulz
,
E.
.
Using cognitive psychology to understand GPT-3
.
Proc. Natl Acad. Sci. USA
.
120
,
e2218523120
(
2023
).
5.
Nori
,
H.
,
King
,
N.
,
McKinney
,
S. M.
,
Carignan
,
D.
&
Horvitz
,
E.
.
Capabilities of GPT-4 on medical challenge problems
. Preprint at arXiv https://doi.org/10.48550/arXiv.2303.13375 (
2023
).
6.
Kung
,
T. H.
et al
.
Performance of ChatGPT on USMLE: potential for AIassisted medical education using large language models
.
PLoS Digit. Health
.
2
,
e0000198
(
2023
).
7.
Henderson
,
P.
et al
.
Pile of law: learning responsible data filtering from the law and a 256GB open-source legal dataset
. Preprint at arXiv https://doi.org/10.48550/arXiv.2207.00220 (
2022
).
8.
Jernite
,
Y.
et al
.
Data governance in the age of large-scale data-driven language technology
. In
Proc. 2022 ACM Conference on Fairness, Accountability, and Transparency, 2206–2222
(
Association for Computing Machinery
,
2022
).
9.
van Dis
,
E. A. M.
,
Bollen
,
J.
,
Zuidema
,
W.
,
van Rooij
,
R.
&
Bockting
,
C. L.
ChatGPT
:
five priorities for research
.
Nature
.
614
,
224
226
(
2023
).
10.
Sallam
,
M.
.
ChatGPT utility in healthcare education, research, and practice: systematic review on the promising perspectives and valid concerns
.
Healthcare
.
11
,
887
(
2023
).
11.
Beltagy
,
I.
,
Lo
,
K.
&
Cohan
,
A.
.
SciBERT: a pretrained language model for scientific text
. In
Proc. 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing
.
(EMNLP-IJCNLP)
,
2019
.
3615
3620
. https://doi.org/10.18653/v1/D19-1371. (Association for Computational Linguistics).
12.
Devlin
,
J.
,
Chang
,
M.-W.
,
Lee
,
K.
&
Toutanova
,
K.
.
BERT: pre-training of deep bidirectional transformers for language understanding
. In
Proc. 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies
,
2019
.
Volume 1
(Long and Short Papers), 4171–4186. https://doi.org/10.18653/v1/N19-1423 (Association for Computational Linguistics).
13.
Lee
,
J.
et al
.
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
.
Bioinformatics
.
36
,
1234
1240
(
2020
).
14.
Radford
,
A.
,
Narasimhan
,
K.
,
Salimans
,
T.
&
Sutskever
,
I.
Improving language understanding by generative pre-training
. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf (
2018
)
15.
Smith
,
S.
et al
.
Using DeepSpeed and Megatron to train Megatron-Turing NLG 530B, a large-scale generative language model
. Preprint at arXiv https://doi.org/10.48550/arXiv.2201.11990 (
2022
).
16.
Chowdhery
,
A.
et al
.
PaLM: scaling language modeling with pathways
.
J. Mach. Learn. Res
.
24
,
1
113
(
2023
).
17.
Iyer
,
S.
et al
.
OPT-IML: scaling language model instruction meta learning through the lens of generalization
. Preprint at arXiv https://doi.org/10.48550/arXiv.2212.12017 (
2022
).
18.
OpenAI.
ChatGPT
:
Optimizing Language Models for Dialogue
. https://openai.com/blog/chatgpt/ (
2022
).
19.
Stiennon
,
N.
et al
.
Learning to summarize from human feedback
. In
Proc. 34th International Conference on Neural Information Processing Systems
,
3008
3021
(
Curran Associates Inc.
,
2020
).
20.
Gao
,
L.
,
Schulman
,
J.
&
Hilton
,
J.
.
Scaling laws for reward model overoptimization
.
PMLR
.
202
,
10835
10866
(
2023
).
21.
OpenAI. GPT-4 Technical Report
. Preprint at arXiv https://doi.org/10.48550/arXiv.2303.08774 (
2023
).
22.
Bubeck
,
S.
et al
.
Sparks of artificial general intelligence: early experiments with GPT-4
. Preprint at arXiv https://doi.org/10.48550/arXiv.2303.12712 (
2023
).
23.
Huffman
S.
&
Woodward
,
J. PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications
. https://developers.googleblog.com/2023/03/announcing-palm-api-and-makersuite.html (
2023
).
24.
Touvron
,
H.
et al
.
LLaMA: open and efficient foundation language models
. Preprint at arXiv https://doi.org/10.48550/arXiv.2302.13971 (
2023
).
25.
Taori
,
R.
et al
Alpaca: A Strong, Replicable Instruction-Following Model
. https://crfm.stanford.edu/2023/03/13/alpaca.html (
2023
).
26.
Chiang
,
W.
et al
Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality
. https://vicuna.lmsys.org/ (
2023
).
27.
OpenAI. ChatGPT Plugins
. https://openai.com/blog/chatgpt-plugins (
2023
).
28.
Kripalani
,
S.
et al
.
Deficits in communication and information transfer between hospital-based and primary care physicians: implications for patient safety and continuity of care
.
JAMA
.
297
,
831
841
(
2007
).
29.
Agarwal
,
R.
,
Sands
,
D. Z.
&
Schneider
,
J. D.
.
Quantifying the economic impact of communication inefficiencies in U.S. hospitals
.
J. Healthc. Manag
.
55
,
265
281
(
2010
).
30.
Gilson
,
A.
et al
.
How does ChatGPT perform on the United States medical licensing examination? The implications of large language models for medical education and knowledge assessment
.
JMIR Med. Educ
.
9
,
e45312
(
2023
).
31.
Agniel
,
D.
,
Kohane
,
I. S.
&
Weber
,
G. M.
.
Biases in electronic health record data due to processes within the healthcare system: retrospective observational study
.
BMJ
.
361
,
k1479
(
2018
).
32.
Shaikh
,
O.
,
Zhang
,
H.
,
Held
,
W.
,
Bernstein
,
M.
&
Yang
,
D.
.
On second thought, let’s not think step by step! Bias and toxicity in zero-shot reasoning
. In
Proc. 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 4454–4470
(
Association for Computational Linguistics
,
2023
).
33.
Devaraj
,
A.
,
Marshall
,
I.
,
Wallace
,
B.
&
Li
,
J. J.
.
Paragraph-level simplification of medical texts
. In
Proc
. Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 4972–4984. https://doi.org/10.18653/v1/2021.naacl-main.395 (
Association for Computational Linguistics
,
2021
).
34.
Ayers
,
J. W.
et al
.
Comparing physician and artificial intelligence Chatbot responses to patient questions posted to a public social media forum
.
JAMA Intern. Med
. https://doi.org/10.1001/jamainternmed.2023.1838 (
2023
).
35.
Becker
,
G.
et al
.
Four minutes for a patient, twenty seconds for a relative—an observational study at a university hospital
.
BMC Health Serv. Res
.
10
,
94
(
2010
).
36.
Börve
,
A.
&
Molina-Martinez
,
R.
.
A pilot study of a medical information service using mobile phones in Sweden
.
J. Telemed. Telecare
.
15
,
421
422
(
2009
).
37.
Börve
,
A.
et al
.
Smartphone teledermoscopy referrals: a novel process for improved triage of skin cancer patients
.
Acta Derm. Venereol
.
95
,
186
190
(
2015
).
38.
Monteiro
,
M. G.
,
Pantani
,
D.
,
Pinsky
,
I.
&
Hernandes Rocha
,
T. A.
.
The development of the Pan American Health Organization digital health specialist on alcohol use
.
Front. Digit. Health
.
4
,
948187
(
2022
).
39.
Monteiro
,
M. G.
,
Pantani
,
D.
,
Pinsky
,
I.
&
Hernandes Rocha
,
T. A.
.
Using the Pan American Health Organization digital conversational agent to educate the public on alcohol use and health: preliminary analysis
.
JMIR Form. Res
.
7
,
e43165
(
2023
).
40.
Giavina Bianchi
,
M.
,
Santos
,
A.
&
Cordioli
,
E.
.
Dermatologists’ perceptions on the utility and limitations of teledermatology after examining 55,000 lesions
.
J. Telemed. Telecare
.
27
,
166
173
(
2021
).
41.
de Moissac
,
D.
&
Bowen
,
S.
.
Impact of language barriers on quality of care and patient safety for official language minority francophones in Canada
.
J. Patient Exp
.
6
,
24
32
(
2019
).
42.
Baker
,
D. W.
,
Parker
,
R. M.
,
Williams
,
M. V.
,
Coates
,
W. C.
&
Pitkin
,
K.
.
Use and effectiveness of interpreters in an emergency department
.
JAMA
.
275
,
783
788
(
1996
).
43.
Radford
,
A.
et al
.
Robust speech recognition via large-scale weak supervision
.
PMLR
.
202
,
28492
28518
(
2023
).
44.
Stokel-Walker
,
C.
&
Noorden
,
V.
.
What ChatGPT and generative AI mean for science
.
Nature
.
614
,
214
216
(
2023
).
45.
Stokel-Walker
,
C.
.
ChatGPT listed as author on research papers: many scientists disapprove
.
Nature
.
613
,
620
621
(
2023
).
46.
Tools such as ChatGPT threaten transparent science; here are our ground rules for their use
.
Nature
.
613
,
612
(
2023
).
47.
Sandström
,
U.
&
van den Besselaar
,
P.
.
Quantity and/or quality? The importance of publishing many papers
.
PLoS ONE
.
11
,
e0166149
(
2016
).
48.
Sarewitz
,
D.
.
The pressure to publish pushes down quality
.
Nature
.
533
,
147
147
(
2016
).
49.
Park
,
M.
,
Leahey
,
E.
&
Funk
,
R. J.
.
Papers and patents are becoming less disruptive over time
.
Nature
.
613
,
138
144
(
2023
).
50.
Tang
,
L.
et al
.
Evaluating large language models on medical evidence summarization
.
npj Digit. Med
.
6
,
158
(
2023
).
51.
Caufield
,
J. H.
et al
.
Structured prompt interrogation and recursive extraction of semantics (SPIRES): a method for populating knowledge bases using zeroshot learning
. Preprint at arXiv https://doi.org/10.48550/arXiv.2304.02711 (
2023
).
52.
Luo
,
R.
et al
.
BioGPT: generative pre-trained transformer for biomedical text generation and mining
.
Brief. Bioinform
.
23
,
bbac409
(
2022
).
53.
Biswas
,
S.
.
ChatGPT and the future of medical writing
.
Radiology
.
307
,
e223312
(
2023
).
54.
Gao
,
C. A.
et al
.
Comparing scientific abstracts generated by ChatGPT to real abstracts with detectors and blinded human reviewers
.
NPJ Digit. Med
.
6
,
75
(
2023
).
55.
Hutson
,
M.
.
Could AI help you to write your next paper
.
Nature
.
611
,
192
193
(
2022
).
56.
Wen
,
J.
&
Wang
,
W.
.
The future of ChatGPT in academic research and publishing: a commentary for clinical and translational medicine
.
Clin. Transl. Med
.
13
,
e1207
(
2023
).
57.
Xiu
,
Y.
&
Thompson
,
P.
.
Flipped university class: a study of motivation and learning
.
Int. J. Inf. Commun. Technol. Educ
.
19
,
41
63
(
2020
).
58.
Huguet
,
C.
,
Pearse
,
J.
&
Esteve
,
J.
.
New tools for online teaching and their impact on student learning
. In
Proc. 7th International Conference on Higher Education Advances (HEAd’21)
.
2021
. https://doi.org/10.4995/head21.2021.12811 (Universitat Politècnica de València).
59.
Stokel-Walker
,
C.
.
AI bot ChatGPT writes smart essays—should professors worry
.
Nature
. https://doi.org/10.1038/d41586-022-04397-7 (
2022
).
60.
Saadé
,
R. G.
,
Morin
,
D.
&
Thomas
,
J. D. E.
.
Critical thinking in E-learning environments
.
Comput. Human Behav
.
28
,
1608
1617
(
2012
).
61.
Susnjak
,
T.
.
ChatGPT: the end of online exam integrity?
Preprint at arXiv.
2022
. https://doi.org/10.48550/arXiv.2212.09292.
62.
Reynolds
,
L.
&
McDonell
,
K.
.
Prompt programming for large language models: beyond the few-shot paradigm
. In
Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems
,
2021
.
1
7
. https://doi.org/10.1145/3411763.3451760 (Association for Computing Machinery).
63.
Sanderson
,
K.
.
GPT-4 is here: what scientists think
.
Nature
.
615
,
773
(
2023
).
64.
Kumar
,
S.
,
Balachandran
,
V.
,
Njoo
,
L.
,
Anastasopoulos
,
A.
&
Tsvetkov
,
Y.
.
Language generation models can cause harm: so what can we do about it? An actionable survey
. In
Proc. 17th Conference of the European Chapter of the Association for Computational Linguistics
,
3299
–3321 (Association for Computational Linguistics, 2023).
65.
Ma
,
Y.
,
Seneviratne
,
S.
&
Daskalaki
,
E.
.
Improving text simplification with factuality error detection
. In
Proc. Workshop on Text Simplification, Accessibility, and Readability (TSAR–2022)
,
173–178
(
Association for Computational Linguistics
,
2022
).
66.
Devaraj
,
A.
,
Sheffield
,
W.
,
Wallace
,
B.
&
Li
,
J. J.
.
Evaluating factuality in text simplification
. In
Proc. 60th Annual Meeting of the Association for Computational Linguistics
(Volume 1: Long Papers), 7331–7345. https://doi.org/10.18653/v1/2022.acl-long.506 (
Association for Computational Linguistics
,
2022
).
67.
Fleisig
,
E.
et al
.
FairPrism: evaluating fairness-related harms in text generation
. In
Proc. 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 6231–6251
(
Association for Computational Linguistics
,
2023
).
68.
Sha
,
L.
,
Li
,
Y.
,
Gasevic
,
D.
&
Chen
,
G.
.
Bigger data or fairer data? Augmenting BERT via active sampling for educational text classification
. In
Proc. 29th International Conference on Computational Linguistics
,
1275
1285
(
International Committee on Computational Linguistics
,
2022
).
69.
Haupt
,
C. E.
&
Marks
,
M.
.
AI-generated medical advice—GPT and beyond
.
JAMA
.
329
,
1349
1350
(
2023
).
70.
Gilbert
,
S.
,
Harvey
,
H.
,
Melvin
,
T.
,
Vollebregt
,
E.
&
Wicks
,
P.
.
Large language model AI chatbots require approval as medical devices
.
Nat. Med
. https://doi.org/10.1038/s41591-023-02412-6 (
2023
).
71.
OpenAI. March 20 ChatGPT Outage
:
Here’s What Happened
. https://openai.com/blog/march-20-chatgpt-outage (
2023
).
72.
Samoilenko
,
R.
.
Prompt injection attack on ChatGPT steals chat data
.
Syst. Weakness
. https://systemweakness.com/new-prompt-injection-attack-onchatgpt-web-version-ef717492c5c2 (
2023
).
73.
Schramowski
,
P.
,
Turan
,
C.
,
Andersen
,
N.
,
Rothkopf
,
C. A.
&
Kersting
,
K.
.
Large pre-trained language models contain human-like biases of what is right and wrong to do
.
Nat. Mach. Intell
.
4
,
258
268
(
2022
).
74.
Yang
,
X.
et al
.
A large language model for electronic health records
.
NPJ Digit. Med
.
5
,
194
(
2022
).