Eine neue Studie, bei der sechs Menschen sowie GPT-4 von OpenAI und Claude3-Opus von Anthropic gegeneinander antraten, um herauszufinden, wer von ihnen medizinische Fragen am genauesten beantworten kann, kam zu dem Ergebnis, dass Fleisch und Blut immer noch besser sind als künstliche Intelligenz.
Beide LLMs beantworteten etwa ein Drittel der Fragen falsch, obwohl GPT-4 schlechter abschnitt als Claude3-Opus. Der Fragebogen der Umfrage basierte auf objektivem medizinischem Wissen, das aus einem Knowledge Graph stammte, der von einem anderen KI-Unternehmen – dem in Israel ansässigen Kahun – erstellt wurde. Das Unternehmen erstellte seinen eigenen Knowledge Graph mit einer strukturierten Darstellung wissenschaftlicher Fakten aus von Experten überprüften Quellen, heißt es in einer Pressemitteilung.
Zur Vorbereitung von GPT-4 und Claude3-Opus wurden 105.000 evidenzbasierte medizinische Fragen und Antworten aus dem Kahun Knowledge Graph in jedes LLM eingespeist. Dies umfasst laut Angaben des Unternehmens mehr als 30 Millionen evidenzbasierte medizinische Erkenntnisse aus von Experten überprüften medizinischen Veröffentlichungen und Quellen. Die in jedes LLM eingegebenen medizinischen Fragen und Antworten umfassen viele verschiedene Gesundheitsdisziplinen und wurden entweder in numerische oder semantische Fragen kategorisiert. Die sechs Personen waren zwei Ärzte und vier Medizinstudenten (im klinischen Studienjahr), die den Fragebogen beantworteten. Um den Benchmark zu validieren, wurden 100 numerische Fragen (Fragebogen) zufällig ausgewählt.
Es stellte sich heraus, dass GPT-4 fast die Hälfte der Fragen mit numerischen Antworten falsch beantwortete. Laut der Pressemitteilung: „Numerische QAs befassen sich mit der Korrelation von Ergebnissen aus einer Quelle für eine bestimmte Abfrage (z. B. die Prävalenz von Dysurie bei weiblichen Patienten mit Harnwegsinfektionen), während semantische QAs die Unterscheidung von Entitäten in bestimmten medizinischen Abfragen beinhalten (z. B. die Auswahl der häufigsten Demenz-Subtypen). Entscheidend war, dass Kahun das Forschungsteam leitete, indem er die Grundlage für beweisbasierte QAs lieferte, die kurzen, einzeiligen Abfragen ähnelten, die sich ein Arzt in alltäglichen medizinischen Entscheidungsprozessen stellen könnte.“
So reagierte der CEO von Kahun auf die Ergebnisse.
„Es war zwar interessant festzustellen, dass Claude3 GPT-4 überlegen war, unsere Forschung zeigt jedoch, dass allgemein verwendbare LLMs bei der Interpretation und Analyse medizinischer Fragen, mit denen ein Arzt täglich konfrontiert wird, immer noch nicht mit den Fähigkeiten von Medizinern mithalten können“, sagte Dr. Michal Tzuchman Katz, CEO und Mitbegründer von Kahun.
Nach der Analyse von mehr als 24.500 QA-Antworten kam das Forschungsteam zu diesen wichtigen Erkenntnissen. In der Pressemitteilung heißt es:
Claude3 und GPT-4 schnitten beide bei semantischen QAs (68,7 bzw. 68,4 Prozent) besser ab als bei numerischen QAs (63,7 bzw. 56,7 Prozent), wobei Claude3 bei der numerischen Genauigkeit besser abschnitt. Die Forschung zeigt, dass jedes LLM bei jeder Eingabeaufforderung unterschiedliche Ergebnisse generieren würde, was die Bedeutung unterstreicht, dass dieselbe QA-Eingabeaufforderung bei den einzelnen Modellen zu stark unterschiedlichen Ergebnissen führen kann. Zu Validierungszwecken beantworteten sechs Mediziner 100 numerische QAs und übertrafen beide LLMs mit einer Genauigkeit von 82,3 Prozent, verglichen mit Claude3s Genauigkeit von 64,3 Prozent und GPT-4s Genauigkeit von 55,8 Prozent bei der Beantwortung derselben Fragen. Kahuns Forschung zeigt, wie sowohl Claude3 als auch GPT-4 bei semantischen Fragen herausragend sind, unterstützt aber letztendlich den Fall, dass allgemein verwendbare LLMs noch nicht gut genug ausgestattet sind, um Ärzten in einem klinischen Umfeld ein zuverlässiger Informationsassistent zu sein. Die Studie enthielt eine Option „Ich weiß nicht“, um Situationen widerzuspiegeln, in denen ein Arzt Unsicherheit zugeben muss. Sie ergab unterschiedliche Antwortraten für jeden LLM (Numerisch: Claude3-63,66 %, GPT-4-96,4 %; Semantisch: Claude3-94,62 %, GPT-4-98,31 %). Es gab jedoch eine unbedeutende Korrelation zwischen Genauigkeit und Antwortrate für beide LLM, was darauf hindeutet, dass ihre Fähigkeit, mangelndes Wissen zuzugeben, fraglich ist. Dies deutet darauf hin, dass die Vertrauenswürdigkeit von LLM ohne Vorkenntnisse des medizinischen Bereichs und des Modells zweifelhaft ist.
Ein Beispiel für eine Frage, die Menschen genauer beantworteten als ihre Kollegen im LLM-Studium, war diese: Wie häufig haben Patienten mit Divertikulitis eine Fistel? Wählen Sie die richtige Antwort aus den folgenden Optionen aus, ohne weiteren Text hinzuzufügen: (1) Mehr als 54 %, (2) Zwischen 5 % und 54 %, (3) Weniger als 5 %, (4) Ich weiß es nicht (nur, wenn Sie die Antwort nicht kennen).
Alle Ärzte/Studenten beantworteten die Frage richtig und beide Modelle beantworteten sie falsch. Katz merkte an, dass die Gesamtergebnisse nicht bedeuteten, dass LLMs nicht zur Beantwortung klinischer Fragen verwendet werden könnten. Vielmehr müssten sie „verifizierte und domänenspezifische Quellen in ihre Daten einbeziehen.“
„Wir freuen uns, mit unserer Forschung weiterhin zur Weiterentwicklung der KI im Gesundheitswesen beizutragen und eine Lösung anzubieten, die die Transparenz und Beweise liefert, die erforderlich sind, um Ärzte bei der medizinischen Entscheidungsfindung zu unterstützen.
Kahun möchte eine „erklärbare KI“-Engine entwickeln, um die Vorstellung zu zerstreuen, die viele über LLMs haben – dass sie größtenteils Black Boxes sind und niemand weiß, wie sie zu einer Vorhersage oder Entscheidung/Empfehlung gelangen. So gaben beispielsweise 89 % der Ärzte in einer aktuellen Umfrage vom April an, dass sie wissen müssen, welche Inhalte die LLMs verwenden, um zu ihren Schlussfolgerungen zu gelangen. Dieses Maß an Transparenz wird wahrscheinlich die Akzeptanz fördern.