Von MIKE MAGEE
Wenn Sie meinen wöchentlichen Kommentar auf HealthCommentary.org oder THCB verfolgen, ist Ihnen in den letzten sechs Monaten vielleicht aufgefallen, dass ich offenbar von mAI, dem Eindringen künstlicher Intelligenz in den Gesundheitssektor, besessen bin.
Lassen Sie mich heute ein Geheimnis verraten. Mein tiefer Einblick war Teil einer langen Vorbereitung auf einen Vortrag („KI trifft Medizin“), den ich diesen Freitag, den 17. Mai, um 14:30 Uhr in Hartford, CT, halten werde. Wenn Sie in der Gegend sind, ist es für die Öffentlichkeit zugänglich. HIER können Sie sich für die Teilnahme anmelden.
Dieses Bild ist eine von 80 Folien, die ich in der 90-minütigen Präsentation zu einem gewaltigen, revolutionären, transformativen und komplexen Thema behandeln werde. Es ist auch ein bewegliches Ziel, wie in der letzten Zeile oben dargestellt, die ich heute Morgen hinzugefügt habe.
Die Ergänzung wurde von Mira Murati, der Chief Technology Officer von OpenAI, erzwungen, die gestern von einem Hochsitz in San Francisco aus verkündete: „Wir blicken auf die Zukunft der Interaktion zwischen uns und Maschinen.“
Die neue Anwendung, die sowohl für Computer als auch für Smartphones entwickelt wurde, heißt GPT-4o. Im Gegensatz zu früheren Mitgliedern der GPT-Familie, die sich durch selbstlernende generative Fähigkeiten und einen unstillbaren Datendurst auszeichneten, konzentriert sich diese neue Anwendung nicht so sehr auf den Suchraum, sondern schafft stattdessen einen „persönlichen Assistenten“, der schnell und einfach ist Beherrschung von Text, Ton und Bild („multimodal“).
OpenAI sagt, dass dies „ein Schritt hin zu einer viel natürlicheren Mensch-Computer-Interaktion“ ist und in der Lage ist, auf Ihre Anfrage „mit einer durchschnittlichen Verzögerung von 320 Millisekunden zu antworten, was einer menschlichen Reaktionszeit ähnelt“. Und sie betonen schnell, dass dies erst der Anfang ist, indem sie heute Morgen auf ihrer Website erklären: „Mit GPT-4o haben wir ein einziges neues Modell durchgängig über Text, Bild und Audio trainiert, also alle Ein- und Ausgänge.“ werden von demselben neuronalen Netzwerk verarbeitet. Da GPT-4o unser erstes Modell ist, das alle diese Modalitäten kombiniert, kratzen wir noch an der Oberfläche der Erforschung der Möglichkeiten und Grenzen des Modells.“
Es ist nützlich, daran zu erinnern, dass es bei der gesamten KI-Bewegung in der Medizin und in allen anderen Bereichen um Sprache geht. Und Sprachexperten erinnern uns daran: „Sprache und Sprache in der akademischen Welt sind komplexe Bereiche, die über Paläoanthropologie und Primatologie hinausgehen“, und erfordern praktische Kenntnisse in „Phonetik, Anatomie, Akustik und menschlicher Entwicklung, Syntax, Lexikon, Gestik, phonologischen Darstellungen“. , Silbenorganisation, Sprachwahrnehmung und neuromuskuläre Kontrolle.“
Die Idee der sofortigen, multimodalen Kommunikation mit Maschinen kommt scheinbar aus dem Nichts, ist aber in Wirklichkeit das Produkt von fast einem Jahrhundert fantasievoller, kreativer und disziplinierter Entdeckungen durch Informationstechnologen und Experten für menschliche Sprache, die sich erst vor kurzem vollständig angenähert haben. Der paläolithische Archäologe Paul Pettit, Ph.D., bringt es auf den Punkt: „Mittlerweile gibt es viel Unterstützung für die Vorstellung, dass symbolische Kreativität Teil unseres kognitiven Repertoires war, als wir begannen, uns aus Afrika zu zerstreuen.“ Das heißt: „Ihre multimodalen Computerbilder sind Teil eines Gesprächs, das vor langer Zeit mit antiken Felszeichnungen begonnen hat.“
Im Laufe der Geschichte war die Sprache ein Beschleuniger der Spezies, eine geheime Kraft, die es uns ermöglichte, zu dominieren und schnell (im Guten wie im Schlechten) zu „Meistern des Universums“ aufzusteigen. Die Abkürzung: Wir Menschen haben uns „vom Geplapper zur Konkordanz zur Inklusivität …“ bewegt.
GPT-4o ist nur der jüngste Fortschritt, aber nicht deshalb bemerkenswert, weil es die Fähigkeit zum „Selbstlernen“ hervorhebt, die die New York Times zu Recht als „aufregend und beängstigend“ bezeichnet hat, sondern weil der Schwerpunkt auf Geschwindigkeit und Effizienz liegt nun auf Augenhöhe mit der Sprache von Mensch zu Mensch zu konkurrieren. Wie OpenAI feststellt: „GPT-4o ist 2x schneller, halb so teuer und hat 5x höhere (Verkehrs-)Ratenlimits im Vergleich zu GPT-4.“
Praktikabilität und Benutzerfreundlichkeit sind die Worte, die ich gewählt habe. In den Worten des Unternehmens: „Heute ist GPT-4o viel besser als jedes andere bestehende Modell darin, die von Ihnen geteilten Bilder zu verstehen und zu diskutieren.“ Sie können jetzt beispielsweise ein Foto eines Menüs in einer anderen Sprache machen und mit GPT-4o sprechen, um es zu übersetzen, mehr über die Geschichte und Bedeutung des Essens zu erfahren und Empfehlungen zu erhalten.“
In meinem Vortrag werde ich einen großen Teil des Themas abdecken, indem ich versuche, den historischen Kontext, relevante Nomenklaturen und Definitionen neuer Begriffe sowie das große Potenzial (sowohl gute als auch schlechte) für Anwendungen im Gesundheitswesen bereitzustellen. Wie viele andere gesagt haben: „Es ist kompliziert!“
Doch wie die gestrige Ankündigung in San Francisco deutlich macht, ist die Mensch-Maschine-Schnittstelle deutlich verschwommen. Oder wie Mira Murati es ausdrückte: „Sie möchten die Erfahrung machen, die wir machen – wo wir diesen sehr natürlichen Dialog führen können.“
Mike Magee MD ist Medizinhistoriker und schreibt regelmäßig für THCB. Er ist der Autor von CODE BLUE: Inside the Medical Industrial Complex (Grove/2020)