Die Innovation und Einführung von KI boomt im Gesundheitswesen, von Diagnosetools bis hin zur personalisierten Medizin. Während die Führungskräfte im Gesundheitswesen optimistisch sind, sind sich die IT-Führungskräfte, mit denen ich gesprochen habe, weniger sicher. Wenn Leben auf dem Spiel stehen, wie können Sie dann wissen, ob ein KI-Tool vertrauenswürdige Ergebnisse liefert?
Kürzlich haben einige Gruppen Konfidenzwerte als Methode zur Messung der Zuverlässigkeit von KI im Gesundheitswesen empfohlen. Im Kontext der KI basieren Konfidenzwerte häufig auf Näherungen und nicht auf validierten Wahrscheinlichkeiten. Insbesondere im Gesundheitswesen können große Sprachmodelle (LLMs) zu Konfidenzwerten führen, die nicht den tatsächlichen Wahrscheinlichkeiten entsprechen, was zu einem irreführenden Gefühl der Sicherheit führen kann.
Meiner Meinung nach ist dies als Technologieführer im Gesundheitswesen und KI-Enthusiast der falsche Ansatz. KI kann ein unschätzbar wertvolles Werkzeug sein, aber blindes Vertrauen in „Konfidenzwerte“ birgt ernsthafte Risiken. Im Folgenden werde ich diese Risiken darlegen und meiner Meinung nach bessere Alternativen vorschlagen, damit Sie KI nutzen können, ohne die Arbeit Ihres Unternehmens zu beeinträchtigen.
Konfidenzwerte im Zusammenhang mit KI erklärt
Konfidenzwerte sind Zahlen, die die Gewissheit eines KI-Tools über eine Ausgabe, wie eine Diagnose oder einen medizinischen Code, zeigen sollen. Um zu verstehen, warum Anwender im Gesundheitswesen Vertrauenswerten nicht vertrauen sollten, ist es wichtig zu erklären, wie die Technologie funktioniert. In der KI stammen Konfidenzwerte normalerweise aus einem statistischen Konfidenzintervall. Dies ist eine mathematische Ausgabe, die die Wahrscheinlichkeit berechnet, dass eine KI-Ausgabe basierend auf ihrem Trainingsmodell korrekt ist.
Diese tauchen häufig in anderen Formen der Technologie auf. Denken Sie zum Beispiel an eine Dating-App, die den Benutzern einen Match-Score gibt. Wenn man diese Ergebnisse im Alltag sieht, kann man leicht zu der Annahme verleiten, sie seien zuverlässig und für andere Bereiche, wie etwa das Gesundheitswesen, geeignet.
Für Kliniker, die beispielsweise generative KI-Zusammenfassungen in der Patientenakte abrufen, kann ein angezeigter Konfidenzwert eine falsche Gewissheit bedeuten und zu unbeabsichtigten Fehlern führen, wenn sie dieser Technologie mehr vertrauen als ihrem eigenen Urteilsvermögen.
Ich glaube, dass die Aufnahme dieser Ergebnisse in eine Gesundheitsplattform ein zu großes Risiko darstellt. Ich habe mich dafür entschieden, bei den von mir entworfenen KI-Lösungen keine Konfidenzniveaus anzuzeigen, weil ich glaube, dass sie Benutzer davon abhalten können, kritisch über die Informationen auf ihren Bildschirmen nachzudenken. Dies gilt insbesondere für Benutzer, die nicht in der Analytik geschult sind oder mit den Mechanismen von KI oder ML nicht vertraut sind.
Ein fehlerhafter Ansatz zur Bewertung der KI-Ausgabe
KI-Konfidenzwerte werden häufig als Prozentwerte angezeigt, was auf eine gewisse Wahrscheinlichkeit hindeutet, dass ein Code oder eine Diagnose korrekt ist. Für medizinisches Fachpersonal, das nicht in Datenwissenschaft ausgebildet ist, können diese Zahlen jedoch täuschend zuverlässig erscheinen. Konkret bergen diese Ergebnisse vier erhebliche Risiken:
Missverständnis des Kontexts – Standardmäßig enthalten KI-Workflows nur Schulungen auf Bevölkerungsebene – nicht die spezifische Bevölkerungsgruppe eines Anbieters. Das bedeutet, dass ein handelsübliches KI-Tool weder die Bevölkerung des Arztes noch lokale Gesundheitsmuster berücksichtigt und ein Konfidenzwert eher eine breite Annahme als maßgeschneiderte Erkenntnisse widerspiegelt. Dies führt dazu, dass Ärzte ein unvollständiges Bild erhalten. Übermäßiges Vertrauen in angezeigte Ergebnisse – Wenn ein Benutzer einen Konfidenzwert von 95 % liest, geht er möglicherweise davon aus, dass keine weiteren Nachforschungen erforderlich sind. Dies kann die Datenkomplexität zu stark vereinfachen. Im schlimmsten Fall ermutigt es Ärzte dazu, ihre eigene kritische Überprüfung zu umgehen oder differenzierte Diagnosen zu übersehen. Der Automatisierungsbias, ein Phänomen, bei dem Benutzer den Ergebnissen der Technologie zu sehr vertrauen, ist im Gesundheitswesen besonders besorgniserregend. Studien weisen darauf hin, dass Automatisierungsverzerrungen dazu führen können, dass Ärzte kritische Symptome übersehen, wenn sie davon ausgehen, dass der Konfidenzwert einer KI aussagekräftig ist. Falsche Darstellung der Genauigkeit – Die Feinheiten des Gesundheitswesens stimmen nicht immer mit statistischen Wahrscheinlichkeiten überein. Ein hoher Konfidenzwert könnte mit Daten auf Bevölkerungsebene übereinstimmen, aber die KI kann keinen bestimmten Patienten mit Sicherheit diagnostizieren. Dieses Missverhältnis kann ein falsches Sicherheitsgefühl hervorrufen. Falsche Sicherheit führt zu Fehlern – Wenn sich Ärzte zu genau an die hohen Werte einer KI-Empfehlung halten, übersehen sie möglicherweise andere potenzielle Diagnosen. Wenn die KI beispielsweise ein hohes Vertrauen in einen bestimmten Code suggeriert, könnte ein Kliniker weitere Untersuchungen überspringen. Wenn dieser Code falsch ist, kann er sich auf nachfolgende Pflegeentscheidungen auswirken, kritische Eingriffe verzögern oder zu einem Abrechnungsfehler in einem wertbasierten Pflegevertrag führen. Diese Fehler gefährden das Vertrauen, sei es ein Plattformnutzer, der gegenüber KI misstrauisch wird, oder ein Versicherungsabrechnungssteller, der eingehende Ansprüche in Frage stellt.
Eine bessere Möglichkeit, Benutzern zu helfen, die Stärke der KI-Ausgabe zu verstehen
Lokalisierte Daten und Kenntnisse darüber, wie ein Endbenutzer mit KI-Tools interagiert, ermöglichen es Ihnen, die KI so anzupassen, dass sie effektiv funktioniert. Anstatt sich auf Konfidenzwerte zu verlassen, empfehle ich die Verwendung dieser drei Methoden, um vertrauenswürdige Ergebnisse zu erstellen:
KI-Modelle häufig lokalisieren und aktualisieren – Durch die Anpassung von KI-Modellen an lokale Daten – spezifische Gesundheitsmuster, demografische Merkmale und sich entwickelnde Gesundheitszustände – wird die KI-Ausgabe relevanter. Beispielsweise gibt es in Alabama einen höheren Prozentsatz an Patienten mit Typ-II-Diabetes als in Massachusetts, und eine genaue Ausgabe hängt von zeitnahen, lokalisierten Daten ab, die die von Ihnen versorgte Bevölkerung widerspiegeln. Damit ein Benutzer eine KI-Ausgabe versteht, muss er wissen, welche Daten in ein Modell eingespeist werden und wie diese entwickelt und gepflegt werden. Durch kontinuierliches Training und Aktualisieren von Modellen mit aktuellen Daten wird sichergestellt, dass sie aktuelle Standards und Erkenntnisse widerspiegeln, wodurch eine Abhängigkeit von veralteten Daten vermieden wird. Regelmäßige Umschulungs- und Auditprozesse sind von entscheidender Bedeutung. Durch die Aktualisierung eines KI-Modells mit aktuellen, lokalisierten Daten können Gesundheitsorganisationen das Risiko von Konfidenzwerten reduzieren, die nicht die Dynamik der realen Welt widerspiegeln. Stellen Sie die Ergebnisse dem Endbenutzer durchdacht dar – Überlegen Sie, wie jeder Benutzer mit Daten interagiert, und gestalten Sie die Ergebnisse so, dass sie seinen Anforderungen entsprechen, ohne davon auszugehen, dass „eine Lösung für alle“ für alle funktioniert. Mit anderen Worten: Die Ergebnisse müssen der Perspektive des Benutzers entsprechen. Was für einen Datenwissenschaftler von Bedeutung ist, unterscheidet sich von dem, was für einen Kliniker von Bedeutung ist. Anstelle eines einzelnen Konfidenzwerts sollten Sie die Anzeige kontextbezogener Daten in Betracht ziehen, z. B. wie oft ähnliche Vorhersagen in bestimmten Populationen oder Umgebungen zutreffend waren. Vergleichende Darstellungen können Nutzern dabei helfen, die Empfehlungen der KI besser abzuwägen. Unterstützen Sie das klinische Urteilsvermögen, ersetzen Sie es jedoch nicht – Die besten KI-Tools führen Benutzer, ohne Entscheidungen für sie zu treffen. Nutzen Sie gestapelte Rankings, um eine Reihe von Diagnosemöglichkeiten darzustellen, wobei die stärksten Übereinstimmungen ganz oben stehen. Durch die Einstufung der Möglichkeiten haben Kliniker die Möglichkeit, ihre Entscheidung zu berücksichtigen und sich auf ihr professionelles Urteilsvermögen zu verlassen, anstatt automatisch zu akzeptieren.
Ärzte benötigen technische Tools, die ihr Fachwissen unterstützen und ein blindes Vertrauen auf Konfidenzwerte verhindern. Durch die Kombination von KI-Erkenntnissen mit realen Kontexten können Gesundheitsorganisationen KI verantwortungsbewusst nutzen und so reibungslosere Arbeitsabläufe und vor allem eine sicherere Patientenversorgung schaffen.
Foto: John-Kelly, Getty Images
Brendan Smith-Elion ist Vizepräsident für Produktmanagement bei Arcadia. Er verfügt über mehr als 20 Jahre Erfahrung im Bereich Gesundheitsdienstleister. Seine Leidenschaft gilt dem Produktmanagement, aber er verfügt auch über Erfahrung in der Geschäftsentwicklung und als BI-Ingenieur. Bei Arcadia widmet sich Brendan der Förderung transformativer Ergebnisse für Kunden durch datengestützte, wertorientierte Arbeitsabläufe.
Er begann seine Karriere bei Agfa, wo er die PACS-Plattform für die Kardiologie leitete, bevor er zu einem Startup namens Chartwise wechselte, das sich auf die Verbesserung klinischer Dokumente konzentrierte. Brendan verbrachte auch einige Zeit bei athenahealth, wo er die Bemühungen zur Entwicklung von Anbieter-Workflows für eine sinnvolle Nutzung, Qualitätsmessungen, Spezial-Workflows und klinischen Microservices für die Bestellung sowie eines universellen Diagrammservices leitete. Zuletzt war er vor der Veröffentlichung des Artikels bei Alphabet/Google tätig und arbeitete an einer Gesundheitsdatenplattform für die Verily Health Platform-Teams, die an Datenprodukten für das präventive Krankheitsmanagement von Kostenträgern und Anbietern arbeiteten.
Dieser Beitrag erscheint über das MedCity Influencers-Programm. Über MedCity Influencer kann jeder seine Sicht auf Wirtschaft und Innovation im Gesundheitswesen auf MedCity News veröffentlichen. Klicken Sie hier, um herauszufinden, wie.