Forscher an der University of Massachusetts Amherst haben diese Woche eine Arbeit veröffentlicht, in der sie untersuchen, wie häufig große Sprachmodelle bei der Erstellung medizinischer Zusammenfassungen zu Halluzinationen neigen.
In den letzten ein bis zwei Jahren haben Gesundheitsdienstleister zunehmend LLMs genutzt, um das Burnout von Ärzten durch die Erstellung medizinischer Zusammenfassungen zu lindern. Allerdings gibt es in der Branche immer noch Bedenken hinsichtlich Halluzinationen, die auftreten, wenn ein KI-Modell falsche oder irreführende Informationen ausgibt.
Für diese Studie sammelte das Forschungsteam 100 medizinische Zusammenfassungen von OpenAIs GPT-4o und Metas Llama-3 – zwei aktuellen proprietären und Open-Source-LLMs. Das Team beobachtete in „fast allen Zusammenfassungen“ Halluzinationen, sagte Prathiksha Rumale, eine der Autorinnen der Studie, in einer Erklärung an MedCity News.
In den 50 von GPT-4o erstellten Zusammenfassungen identifizierten die Forscher 327 Fälle von Inkonsistenzen bei medizinischen Ereignissen, 114 Fälle von falschen Begründungen und drei Fälle von chronologischen Inkonsistenzen.
Die 50 von Llama-3 generierten Zusammenfassungen waren kürzer und weniger umfassend als die von GPT-4o, stellte Rumale fest. In diesen Zusammenfassungen fand das Forschungsteam 271 Fälle von Inkonsistenzen bei medizinischen Ereignissen, 53 Fälle von falscher Argumentation und eine chronologische Inkonsistenz.
„Die häufigsten Halluzinationen standen im Zusammenhang mit Symptomen, Diagnosen und medizinischen Anweisungen. Dies unterstreicht die Tatsache, dass medizinisches Fachwissen für die modernsten Sprachmodelle weiterhin eine Herausforderung darstellt“, erklärte Rumale.
Tejas Naik, ein weiterer Autor der Studie, stellte fest, dass die heutigen LLMs flüssige und plausible Sätze bilden können und sogar den Turing-Test bestehen.
Diese KI-Modelle können zwar mühsame Sprachverarbeitungsaufgaben wie die Zusammenfassung von Krankenakten beschleunigen, doch die von ihnen erstellten Zusammenfassungen könnten potenziell gefährlich sein, insbesondere wenn sie nicht mit der Original-Krankenakte übereinstimmen, betonte er.
„Nehmen wir an, in einer Krankenakte steht, dass ein Patient aufgrund von Covid-19 eine verstopfte Nase und Halsschmerzen hatte, aber ein Modell halluziniert, dass der Patient eine Halsinfektion hat. Dies kann dazu führen, dass das medizinische Fachpersonal falsche Medikamente verschreibt und der Patient die Gefahr übersieht, ältere Familienmitglieder und Personen mit Vorerkrankungen anzustecken“, erklärte Naik.
Ebenso könne es passieren, dass ein LLM eine Arzneimittelallergie übersieht, die in der Krankenakte eines Patienten vermerkt ist. Dies könne dazu führen, dass der Arzt ein Arzneimittel verschreibt, das eine schwere allergische Reaktion auslösen könnte, fügte er hinzu.
Die Forschung legt nahe, dass die Gesundheitsbranche einen besseren Rahmen für die Erkennung und Kategorisierung von KI-Halluzinationen benötigt. Auf diese Weise können Branchenführer besser zusammenarbeiten, um die Vertrauenswürdigkeit der KI in klinischen Kontexten zu verbessern, heißt es in dem Papier.
Foto: steved_np3, Getty Images