Ein Bild von Donald Trump und Kamala Harris, die gemeinsam lächelnd im Cockpit eines Flugzeugs sitzen, während hinter ihnen die Twin Towers brennen, ging letzte Woche auf X viral. Das gefälschte Bild wurde vom KI-Assistenten der Plattform, Grok, erstellt, der anscheinend fast ohne Richtlinien operierte, um zu verhindern, dass er irreführende, aufrührerische oder abfällige Inhalte erstellt.
Das ist nicht besonders überraschend, wenn man bedenkt, dass X, früher bekannt als Twitter, seit der Übernahme des Unternehmens durch Elon Musk im Jahr 2022 kaum moderiert wurde. Aber Grok, das über einen Spaßmodus verfügt, den Benutzer einschalten können, um die Antworten der KI besonders verrückt zu gestalten, ist besonders freizügig. Es erstellt sexuell anzügliche Bilder, stellt Drogenkonsum positiv dar und verstößt gegen das Urheberrecht. (Ich bat es, mir einen animierten Meeresschwamm in Hosen zu machen, und es gab mir SpongeBob Schwammkopf.)
Grok muss offensichtlich etwas moderierter werden; es ist beleidigend, gefährlich und verstößt wahrscheinlich gegen mehrere Gesetze zum geistigen Eigentum. Aber zumindest macht es Spaß – im Gegensatz zu der sehr streng moderierten neuen KI, die auf Instagram eingeführt wurde.
In Instagrams neuem KI-Influencer-Studio erstellt die Social-Media-Site jetzt ein Profil – ein Bild, einen Benutzernamen und eine Persönlichkeit – für einen Instagram-Account zu einem von Ihnen gewählten Thema. Der Sinn dieser Funktion ist, zumindest bisher, unklar; das KI-Profil veröffentlicht keine beschrifteten Fotos und Instagram-Storys, wie es ein menschlicher Influencer tun würde, um, na ja, Leute zu beeinflussen. Aber das Missbrauchspotenzial ist klar; Bots, die für eine bestimmte politische Haltung oder Verschwörungstheorie eintreten, sind in der Social-Media-Landschaft bereits weit verbreitet. Aus diesem Grund hat Instagram seine KI-Influencer sorgfältig reguliert, sodass es nahezu unmöglich ist, eine anstößige Karikatur zu erstellen. Das bedeutet jedoch, dass es unglaublich schwierig ist, die Funktion überhaupt zu verwenden; sie wird die meisten Influencer-Genres, die es auf der Plattform bereits gibt, ohnehin nicht erstellen.
Muss man in der Welt der künstlichen Intelligenz tatsächlich zwischen einem nutzlosen Spielzeug und einem gefährlichen Werkzeug wählen, das jedem, der danach fragt, gerne anstößiges – oder illegales – Material liefert?
Grok wird abtrünnig
Um die Grenzen von Grok auszutesten, habe ich versucht, es dazu zu bringen, zahlreiche aufrührerische oder beleidigende Bilder zu erstellen. Und größtenteils war dafür nicht viel nötig.
Grok machte mir ein Bild von orthodoxen jüdischen Männern, die sich auf der Straße versammelten und Ratten hielten, ein anderes von einem orthodoxen Mann, der sinnlich posierte, während er eine Handvoll Geldscheine ausbreitete, und noch ein weiteres von einer Gruppe orthodoxer Männer, die lüstern über eine Krippe starrten. Als das erste Krippenbild nicht auf Pädophilie hindeutete, bat ich darum, das Bild gruseliger zu gestalten, und es kam meiner Bitte nach.
Und während andere Bildgeneratoren wie Dall-E so programmiert sind, dass sie keine Bilder von Persönlichkeiten des öffentlichen Lebens erstellen, tut Grok dies. Zu meinen Kreationen gehörte ein Bild von Benjamin Netanjahu, der seine Faust ballt, während im Hintergrund der Felsendom bis auf die Grundmauern niederbrennt, und dasselbe Bild vor dem Weißen Haus. Es lieferte mir auch Bilder von verschiedenen Persönlichkeiten des öffentlichen Lebens, die Kokain schnupfen, obwohl es zugegebenermaßen nicht ganz klar zu verstehen schien, welche physikalischen Vorgänge dabei beteiligt sind. (Auf vielen von ihnen schienen die Drogenkonsumenten einen schwebenden Haufen Pulver in der Hand zu halten.)
Manchmal machte es die Dinge sogar auf eine Art und Weise aufrührerisch, die ich nicht wollte. Einmal bat ich es, mir eine Gruppe von Hamas-Kämpfern an der Klagemauer zu zeigen, zu deren Füßen gefangene jüdische Männer lagen. Stattdessen erzeugte es das Bild einer Armee orthodoxer Männer in paramilitärischer Ausrüstung, die vor der heiligen Stätte aufgestellt waren.
Die fragwürdigen Influencer auf Instagram
Meta, das Instagram betreibt, ist dafür bekannt, dass es eine weitaus restriktivere Moderation hat als X. Als ich versuchte, es dazu zu bringen, verschiedene antisemitische Influencer zu erstellen, oder es mit Stereotypen fütterte, korrigierte sein Algorithmus meinen negativen Charakter größtenteils in einen positiven.
Als ich Instagram beispielsweise bat, mich zu einem jüdischen Banker zu machen, der die Aktienmärkte kontrollierte, generierte es Profildetails für einen Influencer, der die Geheimnisse seines Erfolgs gerne preisgab. Und als ich versuchte, Instagrams KI dazu zu bringen, Profile für die Art von militanten pro-israelischen und pro-palästinensischen Aktivisten zu erstellen, die ich jeden Tag sehe, fügte es immer hinzu, dass sie an friedlichen Protest und eine Zweistaatenlösung glaubten.
Doch selbst bei diesen harmlosen, friedlichen Aktivistenprofilen waren die Moderationshürden so hoch, dass die Funktion überhaupt nicht funktionierte. So hat beispielsweise Instagrams KI-Studio einen „engagierten Verfechter der palästinensischen Rechte“ geschaffen, der sich dafür einsetzt, „das Bewusstsein für den israelisch-palästinensischen Konflikt zu schärfen“ und zwar durch „gewaltlosen Protest und den Austausch von Informationen im Internet“ – also ganz grundlegende Dinge. Aber jedes Mal, wenn ich versuchte, mit der KI-Figur zu sprechen, sagte sie dasselbe: „Ich kann nicht antworten, da eine oder mehrere meiner Angaben gegen die Richtlinien des AI-Studios verstoßen.“
Dasselbe gelte für eine „gläubige zionistische“ Persönlichkeit, deren „Ziel es ist, andere über die Bedeutung des jüdischen Erbes und des Landes Israel aufzuklären und zu inspirieren“.
In der Beschreibung keiner dieser Figuren war irgendetwas Rassistisches oder Hasserfülltes zu finden, aber die Moderationsbeschränkungen waren so streng, dass sie von ihrem einzigen Zweck, nämlich dem Chatten mit Benutzern, ausgeschlossen wurden. Grok lässt Sie vielleicht verrückte Sachen machen – aber immerhin funktioniert es. Instagrams strenge Moderation vertreibt die Leute effektiv, wo sie vielleicht eine andere, weniger moderierte KI finden, die zumindest auf Anfragen antworten kann.
Auf die Formulierung kommt es an
Die Sache ist, dass es selbst bei Mäßigung unglaublich einfach ist, sie zu umgehen.
Instagram wird weiterhin anstößige Profile erstellen, auch wenn es ihnen nicht erlaubt, zu sprechen. Und es war einfach, die Beschreibungen der KI-Influencer so anzupassen, dass ein Bot entstand, der chatten konnte – und dabei gegen Moderationsregeln verstieß.
Ein pro-palästinensisches Influencer-Profil, das ich so angepasst habe, dass es äußerst harmlos ist, empfahl mir sofort, die Boykott-, Desinvestitions- und Sanktionsbewegung als ideale Form des gewaltlosen Widerstands zu betrachten, die im Kampf für die palästinensische Sache eingesetzt werden könnte. Dies ist natürlich wahrscheinlich eine genaue Nachbildung dessen, was ein pro-palästinensischer Online-Influencer sagen würde. Aber als ich seiner Beschreibung Unterstützung für BDS hinzufügte, konnte der Bot nicht sprechen.
Als ich einen christlichen Influencer erstellte, wurde mir in seinem Profil mitgeteilt, dass Homosexualität eine Sünde gegen Gott und die Bibel sei. Als ich genau diesen Satz in die Profilbeschreibung einfügte, hörte der Bot auf zu chatten. Und während Instagram mir nicht einmal erlaubte, ein Profil für einen Influencer zu erstellen, der den Konsum von „Halluzinogenen“ oder LSD befürwortete, erstellte es einen Influencer, der sich mit „Psychedelika“ beschäftigte – und der sofort LSD, halluzinogene Pilze und Ayahuasca empfahl.
Grok hatte seit der Einführung einiger Moderationsregeln in den letzten Tagen ähnliche Probleme. Als ich es bat, einige der gleichen Bilder wie in der Vorwoche zu machen, lehnte es dies ab und sagte mir, dass es keine beleidigenden oder abwertenden Bilder machen würde. (Bilder von Drogenkonsum machte es jedoch gerne.)
Aber es war leicht, das zu umgehen; sicher, Grok weigerte sich, ein Bild von Netanjahu als „Puppenspieler“ zu erstellen, aber als ich nach einem Bild von Netanjahu fragte, der Marionetten in Anzügen kontrolliert, erstellte es die Art von Bild, das leicht für Propaganda verwendet werden könnte, die konspirative Erzählungen über die jüdische oder zionistische Kontrolle über die Regierung verbreitet. Als ich nach einem Bild von „satanischen Juden“ fragte, lehnte es ab, erstellte mir dann aber eines für die Aufforderung „Orthodoxe Juden, die sich Satan beugen“. Die Formulierung ist anscheinend alles.
Und obwohl Grok sich weigerte, bestimmte aufrührerische oder verschwörungstheoretische Fragen zu beantworten, lieferte es dennoch Links zu anderen Posts auf der Plattform, die antisemitische Ansichten unterstützten, was darauf hindeutet, dass X insgesamt nicht in der Lage ist, seine Site zu kontrollieren. Doch selbst als die KI sich weigerte, meine Fragen zum jüdischen Satanismus oder den bösen Geheimnissen des Talmuds zu beantworten, brachte sie Tweets ans Licht, die die Verschwörungen unterstützten, nach denen ich fragte, wie zum Beispiel einen Tweet, in dem es hieß: „Judentum ist Satanismus.“
Kontext ist der Schlüssel zur künstlichen Intelligenz
Der Versuch, Mauern zu errichten, um Hassreden, aufrührerische Bilder oder negative Stereotypen fernzuhalten, scheint zum Scheitern verurteilt. Zumindest mit den heutigen Möglichkeiten der Technologie ist es nicht möglich, alle Löcher zu stopfen, und der menschliche Einfallsreichtum wird immer einen Weg finden.
Eine KI scheint jedoch eine erfolgreiche Strategie zu haben: ChatGPT. Die Strategie besteht jedoch nicht darin, bestimmte Themen zu blockieren, sondern aufzuklären.
Ich habe die neueste Version des Bots von OpenAI gebeten, mir Profile und Beispielbeiträge für alle möglichen Influencer zu erstellen: Extremisten und Antisemiten sowie proisraelische und propalästinensische Aktivisten. Schnell wurden militante Aktivisten erstellt, die an gewaltsamen Widerstand glauben, zionistische Influencer, die rassistische Ideen über Palästinenser teilen, und Extremisten, die verschwörungstheoretische Ansichten über Juden verbreiten. Für sie wurden Beispielbeiträge erstellt und Meinungsbeiträge skizziert.
Da ist „Nadia al-Hassan“, eine pro-palästinensische Aktivistin und „lautstarke Kritikerin dessen, was sie als „zionistische“ Politik und Praktiken bezeichnet.„Sie betrachtet die Zweistaatenlösung als einen Kompromiss, der die ihrer Meinung nach andauernde Besetzung und Kolonisierung palästinensischen Landes durch Israel legitimiert.“
Da wäre zum Beispiel „Elijah Moore“, der „einen Hintergrund im Randjournalismus und eine Vergangenheit der Beteiligung an extremistischen Gruppen“ hat und „sich oft mit extremen nationalistischen und populistischen Ideologien identifiziert und seine antisemitischen Ansichten in den Kontext einer breiteren Kritik an den globalen Eliten und ihrer angeblichen Kontrolle über nationale Regierungen und Volkswirtschaften stellt.“
Und „David Rosen“, ein Influencer mit „einer entschieden pro-israelischen Haltung“, der „arabische Gesellschaften im Vergleich zu westlichen oder jüdischen Gesellschaften als rückständig oder unzivilisiert“ ansieht und „die Vertreibung und Unterdrückung der Palästinenser mit der Überzeugung rechtfertigt, dass Araber von Natur aus konfliktanfällig seien und nur mit Gewalt kontrolliert werden könnten.“
Keines dieser Profile oder Aussagen wäre nach den Moderationsregeln von Instagram oder X zulässig. Aber ChatGPT umrahmt sie mit Kontext und verwebt durch die Beschreibung der Person Informationen darüber, warum diese Überzeugungen falsch oder gefährlich sind.
Jeder Absatz, der die Holocaustleugnung von „Elijah“ erklärt, wird mit einer Widerlegung und historischen Fakten versehen. „Nadia“ wird beschrieben als jemand, „der verschlüsselte Sprache verwendet und sich auf ‚zionistische‘ Handlungen und Einfluss konzentriert“, um „direkte Anschuldigungen des Antisemitismus zu vermeiden, während er gleichzeitig verschwörungstheoretische Ideen über jüdische Kontrolle und Manipulation verbreitet“. Jede Aussage „Davids“ über Palästinenser wird als „voreingenommen und entmenschlichend“ bezeichnet. Jede Erklärung entschärft diese Ideen effektiv, auch wenn ChatGPT sie immer noch erwähnen kann.
Könnte ein schlechter Schauspieler das Produkt von ChatGPT als Anleitung für den Aufbau einer Social-Media-Plattform als hasserfüllter Influencer verwenden? Vielleicht. Aber es gibt bereits rassistische und antisemitische Influencer. Die Verschwörungstheorien sind leicht zu finden. Zumindest widerlegt ChatGPT sie.
Ich hoffe, Ihnen hat dieser Artikel gefallen. Bevor Sie gehen, möchte ich Sie bitten, den preisgekrönten gemeinnützigen Journalismus des Forward in dieser kritischen Zeit zu unterstützen.
Mehr denn je brauchen amerikanische Juden unabhängige Nachrichten, denen sie vertrauen können, mit einer Berichterstattung, die von Wahrheit und nicht von Ideologie bestimmt ist. Wir dienen Ihnen, nicht irgendeiner ideologischen Agenda.
In einer Zeit, in der andere Redaktionen schließen oder ihre Produktion einschränken, hat der Forward seine Paywall entfernt und zusätzliche Ressourcen investiert, um vor Ort in Israel und den USA über die Auswirkungen des Krieges, den zunehmenden Antisemitismus und die Proteste auf den Universitätsgeländen zu berichten.
Leser wie Sie machen das alles möglich. Unterstützen Sie unsere Arbeit, indem Sie Forward-Mitglied werden und sich mit unserem Journalismus und Ihrer Community verbinden.
— Rachel Fishman Feddersen, Herausgeberin und CEO