Von MIKE MAGEE
Es überrascht nicht, dass mein Kandidat für das „Wort des Jahres“ KI und insbesondere „die Sprache der menschlichen Biologie“ betrifft.
Wie Eliezer Yudkowski, der Gründer des Machine Intelligence Research Institute und Erfinder des Begriffs „freundliche KI“, in Forbes erklärte:
„Alles, was zu intelligenterer als menschlicher Intelligenz führen könnte – in Form von künstlicher Intelligenz, Gehirn-Computer-Schnittstellen oder einer auf Neurowissenschaften basierenden Verbesserung der menschlichen Intelligenz – ist zweifellos der Gewinner, der am meisten dazu beiträgt, die Welt zu verändern.“ Nichts anderes ist auch nur in derselben Liga.“
Der vielleicht einfachste Weg, damit anzufangen, ist zu sagen, dass „Missense“ eine Form von Fehlaussagen ist oder sich in Worten „falsch oder unvollkommen“ ausdrückt. Im Fall von „Missense“ besteht die Sprache jedoch nicht aus Wörtern, bei denen beispielsweise die Bedeutung eines Satzes durch eine falsche Schreibweise oder die Wahl des falschen Wortes gestört würde.
Mit „missense“ sprechen wir von einer anderen Sprache – der Sprache der DNA und der Proteine. Der Fokus liegt insbesondere darauf, wie die vier Baseneinheiten oder Nukleotide, die das Gerüst eines DNA-Strangs bilden, Anweisungen für jede der 20 verschiedenen Aminosäuren in Form von drei „Buchstaben“-Codes oder „Codons“ übermitteln.
In dieser Proteinsprache gibt es vier Nukleotide. Jedes „Nukleotid“ (Adenin, Chinin, Cytosin, Thymin) ist ein dreiteiliges Molekül, das eine Nuklease, einen Zucker mit 5 Kohlenstoffatomen und eine Phosphatgruppe enthält. Die einzigartigen chemischen Strukturen der vier Nukleotide sollen zwei „Basenpaare“ bilden. Adenin verbindet sich über eine doppelte Wasserstoffbrücke mit Thymin und Cytosin verbindet sich über eine dreifache Wasserstoffbrücke mit Guanin. AT- und CG-Bindungen „greifen“ effektiv über zwei DNA-Stränge hinweg, um sie in der bekannten „Doppelhelix“-Struktur zu verbinden. Die Stränge gewinnen an Länge, indem sie ihre Zucker- und Phosphatmoleküle auf der Ober- und Unterseite jedes Nukleosids nutzen, um sich miteinander zu verbinden, wodurch die Stranglänge zunimmt.
Die A’s und T’s sowie C’s und G’s sind die Ausgangspunkte eines Codes. Eine Dreierkette, zum Beispiel ATG, wird als „Codon“ bezeichnet und steht in diesem Fall für eine der 20 allen Lebensformen gemeinsamen Aminosäuren, Methionin. Es gibt 64 verschiedene Codons – 61 steuern die Kettenanfügung einer der 20 Aminosäuren (einige haben Duplikate), und die restlichen 3 Codons dienen als „Stoppcodons“, um eine Proteinkette zu beenden.
Messenger-RNA (mRNA) transportiert ein Spiegelbild der kodierten Nukleotidbasenkette vom Zellkern zu den Ribosomen im Zytoplasma der Zelle. Codons rufen dann jede Aminosäure auf, die zusammen das Protein bilden. Die Struktur des Proteins wird durch die spezifischen enthaltenen Aminosäuren und deren Reihenfolge ihres Auftretens definiert. Proteinketten falten sich spontan und bilden dabei eine dreidimensionale Struktur, die ihre biologischen Funktionen beeinflusst.
Ein Fehler in einem einzelnen Buchstaben eines Codons kann zu einer falschen Nachricht oder „Misses“ führen. Im Jahr 2018 veröffentlichte Alphabet (ehemals Google) AlphaFold, ein künstliches Intelligenzsystem, das in der Lage ist, die Proteinstruktur aus DNA-Codon-Datenbanken vorherzusagen, mit dem Versprechen, die Arzneimittelforschung zu beschleunigen. Fünf Jahre später veröffentlichte das Unternehmen AlphaMissense, das AlphaFold-Datenbanken durchsucht, um die neue „Proteinsprache“ wie beim Large Language Model (LLM)-Produkt ChatGPT zu erlernen. Das ultimative Ziel: Vorhersagen, wo „krankheitsverursachende Mutationen wahrscheinlich auftreten.“
AlphaMissense ist noch in Arbeit und hat bereits einen Katalog möglicher menschlicher Missense-Mutationen erstellt. 57 % davon haben keine schädlichen Auswirkungen und 32 % stehen möglicherweise mit einer (noch zu bestimmenden) menschlichen Pathologie in Zusammenhang. Das Unternehmen hat einen Großteil seiner Datenbank als Open Source bereitgestellt und hofft, dass es die „Analysen der Auswirkungen von DNA-Mutationen und … die Erforschung seltener Krankheiten“ beschleunigen wird.
Die Zahlen sind nicht gering. Ob Sie es glauben oder nicht, KI sagt, dass das menschliche Genom mit 46 Chromosomen theoretisch 71 Millionen mögliche Missense-Ereignisse beherbergt, die nur darauf warten, einzutreten. Bisher haben sie nur 4 Millionen identifiziert. Das durchschnittliche Genom des Menschen weist heute nur noch 9000 dieser Fehler auf, von denen die meisten keinen Einfluss auf Leib und Leben haben.
Aber gelegentlich tun sie es. Nehmen wir zum Beispiel die Sichelzellenanämie. Der schmerzhafte und lebensbeschränkende Zustand ist das Ergebnis eines einzelnen Codonfehlers (GTG statt GAG) in der Nukleosidkette, die für die Bildung des Proteins Hämoglobin verantwortlich ist. Dieser kleine Fehler führt dazu, dass die sechste Aminosäure in der sich entwickelnden Hämoglobinkette, Glutaminsäure, durch die Aminosäure Valin ersetzt wird. In diesem Wissen haben Forscher nun das Gen-Editierungstool CRISPR (ein Gewinner des Nobelpreises für Chemie im Jahr 2020) verwendet, um den Fehler durch autologe Stammzelltherapie zu korrigieren.
Wie der Physiker Stephen Hsu von der Michigan State University sagte: „Das Ziel hier ist, dass Sie mir eine Veränderung eines Proteins geben, und anstatt die Proteinform vorherzusagen, sage ich Ihnen: Ist das schlecht für den Menschen, der es hat?“ Bei den meisten dieser Überschläge haben wir einfach keine Ahnung, ob sie krank machen.“
Patrick Malone, ein medizinischer Forscher bei KdT Ventures, sieht die KI auf dem Vormarsch. Er sagt, dies sei „ein Beispiel für eine der wichtigsten jüngsten methodischen Entwicklungen in der KI.“ Das Konzept besteht darin, dass die fein abgestimmte KI in der Lage ist, früheres Lernen zu nutzen. Das Pre-Training-Framework ist besonders nützlich in der Computerbiologie, wo wir oft durch den Zugriff auf Daten in ausreichendem Umfang eingeschränkt sind.“
Die Macher von AlphaMissense glauben, dass ihre Vorhersagen:
„Beleuchten Sie die molekularen Auswirkungen von Varianten auf die Proteinfunktion.“
„Tragen Sie zur Identifizierung pathogener Missense-Mutationen und bisher unbekannter krankheitsverursachender Gene bei.“
„Erhöhen Sie die diagnostische Ausbeute seltener genetischer Erkrankungen.“
Und natürlich dieser warnende Hinweis: Die wachsende Fähigkeit, Leben zu definieren und zu erschaffen, birgt das Potenzial, das Leben zu verändern. Das heißt, was wir erschaffen, wird letztendlich verändern, wer wir sind und wie wir uns zueinander verhalten.
Mike Magee MD ist Medizinhistoriker und regelmäßiger THCB-Mitarbeiter. Er ist der Autor von CODE BLUE: Inside America’s Medical Industrial Complex (Grove/2020)