Write a journalistic article in German fully based on
Forscher von Top US-Universitäten warnen, dass sich die Ausdehnung der Voraussetzungen nachteilig auf die Leistung von zu viel vor dem Training auswirken kann
Forscher von Carnegie Mellon, Stanford, Harvard und Princeton fordern einen der akzeptierten Kernüberzeugungen der KI -Entwicklung in Frage – damit desto mehr Daten vor dem Training sind die Leistung.
Wie von HPCWire berichtet, lehnt ein neues Papier das Konzept der „katastrophalen Übertraining“ ab, wobei erweiterte Vorausbildung die Leistung eines Modells nach der Feinabstimmung schädigen kann.
Die Forscher verglichen zwei Versionen des OLMO-1B-Modells, die auf 2,3 Billionen Token und einem weiteren auf 3 Billionen trainiert wurden. Trotz des größeren Trainingssatzes erzielte das ausführlichere Modell Berichten zufolge bei Benchmarks wie Alpacaeval und ARC bis zu 3% schlechter.
Sie mögen mögen
Erreichen des Beugungspunkts
Dieser Leistungsabfall, so die Studie, sei mit einem Phänomen mit dem Namen „progressive Sensitivität“ verbunden.
Mit zunehmender Token -Anzahl wird das Modell zerbrechlicher. Sogar kleine Verbesserungen wie Anpassungen während der Feinabstimmung oder die Einführung von Rauschen können frühere Gewinne umkehren.
Die Autoren demonstrierten dies, indem sie Gaußsche Rauschen in vorgeborene Modelle injizierten, und stellten fest, dass die Leistung, die länger das Modell ausgebildet wurde, schärfe abgebaut.
Der Punkt, an dem dieses zusätzliche Training die Leistung abschließt, wird als „Flexionspunkt“ bezeichnet.
Nach dem Erreichen werden die Vorteile des Trainings durch das Risiko einer internen Instabilität überwogen. Die Studie ergab, dass dieser Wendepunkt in kleineren Modellen wie Olmo-1b häufig über 2,5 Billionen Token auftritt.
„Katastrophale Übertraining kann unvermeidlich sein … insbesondere wenn die Aufgaben vor der Ausbildung und der Feinabstimmung falsch ausgerichtet sind“, warnen die Autoren in ihrem Papier, auf den Sie über den Arxiv-Pre-Print-Server zugreifen können.
Während die Forscher kein Ende der Voraussetzung vorschlagen, sind sie der Ansicht, dass Entwickler überlegen sollten, wie viel Vorverzerrung ausreicht. Wie das Papier zu dem Schluss kommt:
Für KI -Entwickler, die Skala verfolgen, scheint die Nachricht klar zu sein: Manchmal ist weniger wirklich mehr.