Write a journalistic article in German fully based on
Der anthropische CEO Dario Amodei veröffentlichte am Donnerstag einen Aufsatz, in dem hervorgehoben wurde, wie wenig Forscher über die inneren Funktionsweise der weltweit führenden KI -Modelle verstanden haben. Um das zu beheben, legte Amodei ein ehrgeiziges Ziel für Anthropic fest, um die meisten KI -Modellprobleme bis 2027 zuverlässig zu erkennen.
Amodei erkennt die bevorstehende Herausforderung an. In „Die Dringlichkeit der Interpretierbarkeit“ hat der CEO sagt, dass Anthropic frühe Durchbrüche erzielt hat, um festzustellen, wie Modelle zu ihren Antworten gelangen – jedoch betont, dass weit mehr Forschung erforderlich ist, um diese Systeme zu dekodieren, wenn sie stärker werden.
„Ich bin sehr besorgt über die Bereitstellung solcher Systeme, ohne die Interpretierbarkeit besser im Griff zu haben“, schrieb Amodei im Aufsatz. „Diese Systeme werden absolut von zentraler Bedeutung für die Wirtschaft, die Technologie und die nationale Sicherheit sein und so viel Autonomie in der Lage sein, dass ich es für die Menschheit im Grunde genommen inakzeptabel halte, die Funktionsweise ihrer Arbeit völlig zu wissen.“
Anthropic ist eines der Pionierunternehmen in mechanistischer Interpretierbarkeit, ein Feld, das die schwarze Box von KI -Modellen öffnen und verstehen soll, warum sie die Entscheidungen treffen, die sie treffen. Trotz der schnellen Leistungsverbesserungen der KI -Modelle der Tech -Industrie haben wir immer noch relativ wenig Vorstellung davon, wie diese Systeme zu Entscheidungen kommen.
Zum Beispiel hat OpenAI kürzlich neue Argumentations-KI-Modelle O3 und O4-Mini auf den Markt gebracht, die bei einigen Aufgaben besser abschneiden, aber auch mehr als seine anderen Modelle halluzinieren. Das Unternehmen weiß nicht, warum es passiert.
„Wenn ein generatives KI -System etwas tut, z. B. ein finanzielles Dokument zusammenfassen, haben wir keine Ahnung, auf einer bestimmten oder präzisen Ebene, warum es die Entscheidungen trifft – warum es bestimmte Wörter gegenüber anderen auswählt oder warum es gelegentlich einen Fehler macht, obwohl es normalerweise genau ist“, schrieb Amodei im Aufsatz.
Der anthropische Mitbegründer Chris Olah sagt, dass KI-Modelle „mehr als sie gebaut werden“, bemerkt Amodei im Aufsatz. Mit anderen Worten, KI -Forscher haben Wege gefunden, die KI -Modellinformationen zu verbessern, aber sie wissen nicht genau warum.
Im Aufsatz sagt Amodei, es könnte gefährlich sein, Agi zu erreichen – oder wie er es nennt, „ein Land mit Genies in einem Rechenzentrum“, ohne zu verstehen, wie diese Modelle funktionieren. In einem früheren Aufsatz behauptete Amodei, die Tech -Industrie könne bis 2026 oder 2027 einen solchen Meilenstein erreichen, glaubt jedoch, dass wir diese KI -Modelle nicht vollständig verstehen.
Langfristig sagt Amodei, Anthropic möchte im Wesentlichen „Gehirnscans“ oder „MRTs“ hochmoderner KI-Modelle durchführen. Diese Untersuchungen würden dazu beitragen, eine Vielzahl von Problemen in KI -Modellen zu ermitteln, einschließlich ihrer Tendenzen, zu lügen, Macht oder andere Schwächen zu suchen, sagt er. Dies könnte fünf bis zehn Jahre dauern, bis diese Maßnahmen erforderlich sind, um die zukünftigen KI -Modelle von Anthropic zu testen und einzusetzen, fügte er hinzu.
Anthropic hat einige Forschungsdurchbrüche gemacht, die es ihm ermöglicht haben, besser zu verstehen, wie seine KI -Modelle funktionieren. Zum Beispiel hat das Unternehmen kürzlich Wege gefunden, die Denkwege eines KI -Modells zu verfolgen, was das Unternehmen nennt, Schaltungen. Anthropisch identifizierte einen Schaltkreis, der KI -Modellen hilft, zu verstehen, welche US -Städte sich befinden, in denen US -amerikanische Staaten stellt. Das Unternehmen hat nur einige dieser Schaltkreise gefunden, aber Schätzungen gibt es Millionen innerhalb von AI -Modellen.
Anthropic hat selbst in die Interpretierbarkeitsforschung investiert und kürzlich seine ersten Investitionen in ein Startup getätigt, das auf Interpretierbarkeit arbeitet. Im Aufsatz forderte Amodei Openai und Google DeepMind auf, ihre Forschungsbemühungen auf diesem Gebiet zu erhöhen.
Amodei fordert die Regierungen auf, Vorschriften für „leichte“ Vorschriften aufzuerlegen, um die Interpretierbarkeitsforschung zu fördern, z. B. Anforderungen an Unternehmen, ihre Sicherheitspraktiken offenzulegen. In dem Aufsatz sagt Amodei auch, dass die USA Exportkontrollen auf Chips nach China setzen sollten, um die Wahrscheinlichkeit eines außer Kontrolle geratenen, globalen KI-Rennens zu begrenzen.
Anthropic hat sich immer von OpenAI und Google für die Sicherheit auf den Schwerpunkt auf der Sicherheit hervorgehoben. Während andere Technologieunternehmen die kontroverse KI -Sicherheitsrechnung in Kalifornien, SB 1047, zurückzusetzen, gab Anthropic bescheidene Unterstützung und Empfehlungen für die Gesetzesvorlage, die Sicherheitsberichterstattungsstandards für Frontier -KI -Modellentwickler festgelegt hätte.
In diesem Fall scheint Anthropic auf eine branchenweite Anstrengung zu drängen, um AI-Modelle besser zu verstehen und nicht nur ihre Fähigkeiten zu erhöhen.