Laut Scott Gottlieb, der während der Trump-Administration als Kommissar der FDA fungierte, werden große Sprachmodelle (LLMs) ein viel größerer Teil der klinischen Arbeitsabläufe von Ärzten werden.
Diese Meinung teilte er am Dienstag auf dem 3. Jahresgipfel zur Zukunft der ländlichen Gesundheitsversorgung in Sioux Falls, South Dakota. Er wurde auf der Bühne von Tommy Ibrahim, Präsident und CEO von Sanford Health Plan, interviewt.
Ibrahim hob die Forschung hervor, die Gottlieb kürzlich mit dem American Enterprise Institute, einer Mitte-Rechts-/Rechts-Denkfabrik, durchgeführt hat. Die Studie, die diesen Sommer veröffentlicht wurde, stellte fünf LLMs auf die Probe: ChatGPT-4o von Open AI, Gemini Advanced von Google, Claude 3.5 von Anthropic, Grok von xAI und HuggingChat von Llama.
Das Forschungsteam stellte diesen LLMs 50 Fragen aus dem anspruchsvollsten Teil der dreiteiligen US Medical Licensing Examination. Die KI-Modelle schnitten recht gut ab.
ChatGPT-4o von Open AI hatte mit einer Genauigkeitsrate von 98 % die beste Leistung. HuggingChat von Llama hatte mit 66 % die schlechteste Genauigkeitsrate, und die übrigen LLMs hatten eine Genauigkeitsrate im Bereich von 84–90 %.
Bei der Prüfung zur medizinischen Zulassung in den USA müssen die Kandidaten etwa 60 % der Fragen richtig beantworten. Die durchschnittliche Punktzahl zum Bestehen der Prüfung lag in der Vergangenheit bei etwa 75 %.
Aufgrund dieser Studienergebnisse sowie des Ausmaßes der KI-Innovation, das Gottlieb in seiner Rolle als Partner bei New Enterprise Associates sieht, ist er optimistisch, welche Rolle LLMs in der Zukunft des Gesundheitswesens spielen können. Er glaubt jedoch nicht, dass dieses Potenzial bereits ausgeschöpft wird.
„Ich denke, wir sind jetzt an dem Punkt angelangt, an dem man einen komplexen Fall bearbeitet und nichts nutzt [LLMs]das solltest du wahrscheinlich sein. Ich denke, dass dies bei den meisten Ärzten wahrscheinlich nicht der Fall ist, da es innerhalb eines Gesundheitssystems keine gute Möglichkeit gibt, dies auf HIPAA-konforme Weise zu tun. Es gibt nicht viele Systeme, die lokale Instanzen dieser Chatbots bereitgestellt haben“, erklärte Gottlieb.
Er erwähnte auch Forschungsarbeiten, die er derzeit durchführt, um die medizinischen Fähigkeiten von LLMs weiter zu testen. Gottlieb und sein Forschungsteam füttern derzeit klinische ChatGPT-4o-Vignetten aus dem New England Journal of Medicine. In jeder Ausgabe enthält die Zeitschrift eine Vignette eines schwer zu fassenden klinischen Falles und bietet dem Leser eine Multiple-Choice-Auswahl, um welchen Fall es sich handeln könnte – Antworten werden in der nächsten Ausgabe enthüllt.
Es sind 350 Beispiele der klinischen Vignetten der Zeitschrift online, und Gottlieb und sein Team geben sie alle an ChatGPT-4o weiter.
„Bisher erreicht es 100 % – und das erklärt, wie es zur Diagnose gekommen ist. Es übernimmt Dinge aus der klinischen Vignette und erklärt, warum diese Hinweise die entscheidenden Hinweise waren, um zu dieser Diagnose zu gelangen. Die klinische Argumentation ist wirklich tiefgreifend“, erklärte er.
Gottlieb forderte das Publikum auf, sich einen Assistenzarzt vorzustellen, der spät in der Nacht einen Anruf für einen komplexen Fall erhält. Für ihn ist es selbstverständlich, dass der Assistenzarzt mithilfe eines LLM schneller zu einer Differenzialdiagnose gelangen kann.
„Ich meine, man muss es fast tun“, bemerkte Gottlieb.
Allerdings seien LLMs zur klinischen Entscheidungsunterstützung noch nicht in großem Umfang eingesetzt worden, stellte er fest.
Diese Tools sind für die meisten Ärzte nicht leicht zugänglich. Um LLMs zur diagnostischen Unterstützung zu nutzen, müssen Gesundheitssysteme entweder ihre eigenen Modelle erstellen oder bestehende Modelle modifizieren, indem sie lokale Gesundheitsdaten überlagern und Kontrollen zum Schutz der Patientendaten hinzufügen – und das kostet Zeit und Ressourcen, erklärte Gottlieb.
„Aber ich denke, dass sehr bald jeder darüber nachdenken muss, wie er diesen Point-of-Care einsetzen kann“, sagte er.
Foto: Sanford Health