Write a journalistic article in German fully based on
Nicht einmal Pokémon ist vor dem AI -Benchmarking -Kontroversen sicher.
Letzte Woche wurde ein Beitrag zu X viral und behauptete, dass das neueste Gemini -Modell von Google das Flaggschiff -Claude -Modell von Anthropic in der ursprünglichen Pokémon -Videospieltrilogie übertroffen hat. Berichten zufolge hatte Gemini Lavendar Town im Zuckungsstrom eines Entwicklers erreicht. Claude steckte Ende Februar am Mount Moon fest.
Gemini ist buchstäblich vor Claude ATM in Pokemon, nachdem er Lavendelstadt erreicht hatte
119 Live -Aufrufe nur übrigens, unglaublich unterschätzte Stream pic.twitter.com/8avsovai4x
– Sie (@You21e8) 10. April 2025
Aber was der Beitrag nicht erwähnte, ist, dass Gemini einen Vorteil hatte.
Wie Benutzer von Reddit betonten, hat der Entwickler, der den Gemini -Stream beibehält, einen benutzerdefinierten Minimap, der dem Modell hilft, „Fliesen“ im Spiel wie Cuttable -Bäume zu identifizieren. Dies reduziert die Notwendigkeit, dass Gemini Screenshots analysiert werden muss, bevor es Gameplay -Entscheidungen trifft.
Jetzt ist Pokémon bestenfalls eine halb schwere AI-Benchmark-nur wenige würden argumentieren, dass es sich um einen sehr informativen Test der Funktionen eines Modells handelt. Es ist jedoch ein lehrreiches Beispiel dafür, wie unterschiedliche Implementierungen eines Benchmarks die Ergebnisse beeinflussen können.
Zum Beispiel meldete Anthropic zwei Punkte für sein jüngstes anthropisches 3.7-Sonnet-Modell auf dem Benchmark SWE-Bench verifiziert, der die Codierungsfähigkeiten eines Modells bewerten soll. Claude 3.7 Sonett erreichte eine Genauigkeit von 62,3% auf SWE-Bench, die verifiziert wurde, jedoch 70,3% mit einem „benutzerdefinierten Gerüst“, das anthropisch entwickelte.
In jüngerer Zeit hat Meta eine Version eines seiner neueren Models, Lama 4 Maverick, abgestimmt, um in einer bestimmten Benchmark, der LM-Arena, gut abzuschneiden. Die Vanilleversion des Modells bewertet bei derselben Bewertung deutlich schlechter.
Angesichts der Tatsache, dass KI-Benchmarks-eingeschlossenes Pokémon-zunächst unvollkommene Maßnahmen sind, drohen maßgeschneiderte und nicht standardmäßige Implementierungen das Gewässer noch weiter. Das heißt, es scheint nicht wahrscheinlich, dass es einfacher wird, Models zu vergleichen, sobald sie veröffentlicht werden.