Da der Dokumentationsaufwand und verschiedene andere Verwaltungsaufgaben zugenommen haben, hat das Burnout bei Ärzten ein historisches Ausmaß erreicht. Als Reaktion darauf integrieren EHR-Anbieter generative KI-Tools, um Ärzte bei der Formulierung ihrer Antworten auf Patientennachrichten zu unterstützen. Über die Genauigkeit und Wirksamkeit dieser Tools wissen wir jedoch noch vieles nicht.
Forscher von Mass General Brigham haben kürzlich Untersuchungen durchgeführt, um mehr über die Leistung dieser generativen KI-Lösungen zu erfahren. Sie haben letzte Woche in The Lancet Digital Health eine Studie veröffentlicht, die zeigt, dass diese KI-Tools die Arbeitsbelastung von Ärzten wirksam reduzieren und die Patientenaufklärung verbessern können – aber auch, dass diese Tools Einschränkungen aufweisen, die eine menschliche Aufsicht erfordern.
Für die Studie verwendeten die Forscher das große Sprachmodell GPT-4 von OpenAI, um 100 verschiedene hypothetische Fragen von Krebspatienten zu erstellen.
Die Forscher ließen diese Fragen von GPT-4 sowie von sechs Radioonkologen beantworten, die manuell antworteten. Anschließend übermittelte das Forschungsteam denselben sechs Ärzten die von GPT-4 generierten Antworten, die sie überprüfen und bearbeiten sollten.
Die Onkologen konnten nicht sagen, ob GPT-4 oder ein menschlicher Arzt die Antworten verfasst hatte – und in fast einem Drittel der Fälle gingen sie davon aus, dass eine von GPT-4 generierte Antwort von einem Arzt verfasst worden war.
Die Studie zeigte, dass Ärzte in der Regel kürzere Antworten verfassten als GPT-4. Die Antworten des großen Sprachmodells waren länger, da sie normalerweise mehr Aufklärungsinformationen für Patienten enthielten – gleichzeitig waren diese Antworten jedoch auch weniger direkt und lehrreich, stellten die Forscher fest.
Insgesamt berichteten die Ärzte, dass die Verwendung eines großen Sprachmodells zur Unterstützung beim Verfassen ihrer Antworten auf Patientennachrichten hilfreich sei, um ihre Arbeitsbelastung und das damit verbundene Burnout zu reduzieren. Sie hielten GPT-4-generierte Antworten in 82 % der Fälle für sicher und in 58 % der Fälle für akzeptabel, ohne weitere Bearbeitung zu versenden.
Es ist jedoch wichtig, sich daran zu erinnern, dass große Sprachmodelle gefährlich sein können, wenn kein Mensch auf dem Laufenden ist. Die Studie ergab außerdem, dass 7 % der durch GPT-4 hervorgerufenen Reaktionen ein Risiko für den Patienten darstellen könnten, wenn sie nicht bearbeitet werden. Meistens liegt dies daran, dass die von GPT-4 generierte Reaktion „ungenau die Dringlichkeit vermittelt, mit der der Patient in die Klinik kommen oder von einem Arzt aufgesucht werden sollte“, sagte Dr. Danielle Bitterman, Autorin von die Studie und Mass General Brigham Radioonkologe.
„Diese Modelle durchlaufen einen verstärkenden Lernprozess, bei dem sie darauf trainiert werden, höflich zu sein und Antworten auf eine Art und Weise zu geben, die eine Person vielleicht hören möchte. Ich denke, dass sie manchmal fast zu höflich werden und die Dringlichkeit, wenn sie vorhanden ist, nicht angemessen zum Ausdruck bringen“, erklärte sie in einem Interview.
In Zukunft müsse mehr Forschung darüber betrieben werden, was Patienten davon halten, dass auf diese Weise große Sprachmodelle für die Interaktion mit ihnen verwendet werden, bemerkte Dr. Bitterman.
Foto: Halfpoint, Getty Images