Write a journalistic article in German fully based on
Epoch AI, ein in Kalifornien ansässiges Forschungsinstitut, hat letzte Woche einen neuen Benchmark für künstliche Intelligenz (KI) eingeführt. Der neue KI-Benchmark mit dem Namen FrontierMath testet große Sprachmodelle (LLMs) auf ihre Fähigkeit zum Reseasoning und zur mathematischen Problemlösung. Das KI-Unternehmen behauptet, dass bestehende mathematische Benchmarks aufgrund von Faktoren wie Datenkontamination und KI-Modellen, die bei ihnen sehr hohe Ergebnisse erzielen, nicht sehr nützlich seien. Epoch AI behauptet, dass selbst die führenden LLMs beim neuen Benchmark weniger als zwei Prozent erreicht haben.
Epoch AI startet FrontierMath Benchmark
In einem Beitrag auf X (früher bekannt als Twitter) erklärte das KI-Unternehmen, dass es mit mehr als 60 Mathematikern zusammengearbeitet habe, um Hunderte von Ursprüngen und unveröffentlichten mathematischen Problemen zu erstellen. Epoch AI behauptet, dass selbst Mathematiker Stunden brauchen würden, um diese Fragen zu lösen. Als Grund für die Entwicklung des neuen Benchmarks wurden die Einschränkungen bestehender Benchmarks wie GSM8K und MATH genannt, bei denen KI-Modelle im Allgemeinen eine hohe Punktzahl erreichen.
Das Unternehmen behauptete, dass die hohen Punktzahlen der LLMs größtenteils auf Datenkontamination zurückzuführen seien. Das bedeutet, dass die Fragen irgendwie bereits in die KI-Modelle eingespeist wurden, was dazu führte, dass sie die Fragen leicht lösen konnten.
FrontierMath löst das Problem, indem es neue Probleme einbezieht, die einzigartig sind und nirgendwo veröffentlicht wurden, wodurch die mit der Datenkontamination verbundenen Risiken gemindert werden. Darüber hinaus umfasst der Benchmark ein breites Spektrum an Fragen, darunter rechenintensive Probleme in der Zahlentheorie, der reellen Analysis und der algebraischen Geometrie sowie Themen wie die Zermelo-Fraenkel-Mengentheorie. Die KI-Firma sagt, alle Fragen seien „vermutungssicher“, was bedeutet, dass sie nicht versehentlich ohne fundierte Begründung gelöst werden können.
Epoch AI betonte, dass zur Messung der KI-Fähigkeit Benchmarks für kreative Problemlösungen erstellt werden sollten, bei denen die KI über mehrere Schritte hinweg schlussfolgern muss. Insbesondere glauben viele Branchenveteranen, dass die bestehenden Benchmarks nicht ausreichen, um korrekt zu messen, wie fortgeschritten ein KI-Modell ist.
Als Reaktion auf den neuen Benchmark begrüßte Noam Brown, ein OpenAI-Forscher, der hinter dem o1-Modell des Unternehmens stand, in einem Beitrag den neuen Benchmark und sagte: „Ich liebe es, eine neue Bewertung mit so niedrigen Erfolgsquoten für Grenzmodelle zu sehen.“
Für die neuesten technischen Nachrichten und Rezensionen folgen Sie Gadgets 360 auf X, Facebook, WhatsApp, Threads und Google News. Abonnieren Sie unseren YouTube-Kanal, um die neuesten Videos zu Gadgets und Technik zu erhalten. Wenn Sie alles über Top-Influencer wissen möchten, folgen Sie unserem hauseigenen Who’sThat360 auf Instagram und YouTube.
Poco X7 Pro könnte das erste Smartphone sein, das in Indien mit Xiaomis HyperOS 2 ausgeliefert wird
Die 13 Farboptionen von iQOO wurden vor der Markteinführung in Indien am 3. Dezember enthüllt