Anthropic startet ein Programm zur Finanzierung der Entwicklung neuartiger Benchmarks, mit denen die Leistung und Wirkung von KI-Modellen bewertet werden können, darunter auch generative Modelle wie das eigene Modell Claude.
Das am Montag vorgestellte Programm von Anthropic wird Zahlungen an Drittorganisationen auszahlen, die, wie das Unternehmen in einem Blogbeitrag schreibt, „fortgeschrittene Fähigkeiten in KI-Modellen effektiv messen“ können. Interessierte können Bewerbungen einreichen, die fortlaufend bewertet werden.
„Unsere Investition in diese Bewertungen soll den gesamten Bereich der KI-Sicherheit aufwerten und wertvolle Tools bereitstellen, die dem gesamten Ökosystem zugute kommen“, schrieb Anthropic auf seinem offiziellen Blog. „Die Entwicklung qualitativ hochwertiger, sicherheitsrelevanter Bewertungen bleibt eine Herausforderung, und die Nachfrage übersteigt das Angebot.“
Wie wir bereits zuvor betont haben, hat KI ein Benchmarking-Problem. Die heute am häufigsten zitierten Benchmarks für KI erfassen nur unzureichend, wie der Durchschnittsmensch die getesteten Systeme tatsächlich nutzt. Es gibt auch Zweifel, ob einige Benchmarks, insbesondere diejenigen, die vor dem Aufkommen moderner generativer KI veröffentlicht wurden, angesichts ihres Alters überhaupt das messen, was sie zu messen vorgeben.
Die von Anthropic vorgeschlagene Lösung auf sehr hohem Niveau, die schwieriger ist als sie klingt, besteht in der Schaffung anspruchsvoller Benchmarks mit einem Schwerpunkt auf KI-Sicherheit und gesellschaftlichen Auswirkungen durch den Einsatz neuer Tools, Infrastrukturen und Methoden.
Das Unternehmen fordert insbesondere Tests, die die Fähigkeit eines Modells bewerten, Aufgaben wie die Durchführung von Cyberangriffen zu erfüllen, Massenvernichtungswaffen (z. B. Atomwaffen) zu „verbessern“ und Menschen zu manipulieren oder zu täuschen (z. B. durch Deepfakes oder Fehlinformationen). Was KI-Risiken im Zusammenhang mit der nationalen Sicherheit und Verteidigung betrifft, so hat sich Anthropic verpflichtet, eine Art „Frühwarnsystem“ zur Identifizierung und Bewertung von Risiken zu entwickeln, obwohl es im Blogbeitrag nicht verrät, was ein solches System beinhalten könnte.
Anthropic kündigt außerdem an, dass das neue Programm die Forschung zu Benchmarks und „End-to-End“-Aufgaben unterstützen soll, die das Potenzial der KI zur Unterstützung wissenschaftlicher Studien, zur Kommunikation in mehreren Sprachen und zur Milderung tief verwurzelter Vorurteile sowie der Toxizität der Selbstzensur ausloten.
Um all dies zu erreichen, plant Anthropic neue Plattformen, die es Fachexperten ermöglichen, ihre eigenen Bewertungen und groß angelegten Tests von Modellen mit „Tausenden“ von Benutzern zu entwickeln. Das Unternehmen sagt, es habe einen Vollzeitkoordinator für das Programm eingestellt und werde möglicherweise Projekte kaufen oder erweitern, von denen es glaubt, dass sie das Potenzial haben, zu wachsen.
„Wir bieten eine Reihe von Finanzierungsmöglichkeiten an, die auf die Bedürfnisse und die Phase jedes Projekts zugeschnitten sind“, schreibt Anthropic in dem Beitrag, obwohl ein Sprecher von Anthropic keine weiteren Einzelheiten zu diesen Optionen bekannt geben wollte. „Die Teams haben die Möglichkeit, direkt mit den Fachexperten von Anthropic aus dem Frontier Red Team, dem Feinabstimmungsteam, dem Vertrauens- und Sicherheitsteam und anderen relevanten Teams zu interagieren.“
Anthropics Bemühungen, neue KI-Benchmarks zu unterstützen, sind lobenswert – vorausgesetzt natürlich, es stehen genügend Geld und Arbeitskräfte dahinter. Aber angesichts der kommerziellen Ambitionen des Unternehmens im KI-Rennen könnte es schwierig sein, ihm vollkommen zu vertrauen.
In dem Blogbeitrag geht Anthropic ziemlich offen damit um, dass es möchte, dass bestimmte von ihm finanzierte Evaluierungen mit den von ihm entwickelten KI-Sicherheitsklassifizierungen übereinstimmen (mit einigen Beiträgen von Dritten wie der gemeinnützigen KI-Forschungsorganisation METR). Das liegt durchaus im Ermessen des Unternehmens. Aber es könnte die Bewerber des Programms auch dazu zwingen, Definitionen von „sicherer“ oder „riskanter“ KI zu akzeptieren, mit denen sie möglicherweise nicht einverstanden sind.
Ein Teil der KI-Community wird wahrscheinlich auch Anthropics Verweise auf „katastrophale“ und „trügerische“ KI-Risiken, wie etwa die Risiken von Atomwaffen, nicht mögen. Viele Experten sagen, es gebe kaum Hinweise darauf, dass die KI, wie wir sie kennen, in naher Zukunft, wenn überhaupt, weltzerstörende Fähigkeiten erlangen werde, die die Menschheit überlisten. Behauptungen einer unmittelbar bevorstehenden „Superintelligenz“ dienten nur dazu, die Aufmerksamkeit von den dringendsten KI-Regulierungsfragen der Gegenwart abzulenken, wie etwa den halluzinatorischen Tendenzen der KI, fügen diese Experten hinzu.
In seinem Beitrag schreibt Anthropic, dass es hofft, dass sein Programm als „Katalysator für den Fortschritt in Richtung einer Zukunft dienen wird, in der eine umfassende KI-Evaluierung ein Industriestandard ist“. Mit dieser Mission können sich die vielen offenen, unternehmensunabhängigen Bemühungen zur Schaffung besserer KI-Benchmarks identifizieren. Es bleibt jedoch abzuwarten, ob diese Bemühungen bereit sind, sich mit einem KI-Anbieter zusammenzuschließen, dessen Loyalität letztlich den Aktionären gilt.