Das Movie Gen-Modell von Meta erzeugt realistische Videos mit Ton, sodass wir endlich unendlich viel Moo Deng haben können

Noch weiß niemand wirklich, wofür generative Videomodelle nützlich sind, aber das hat Unternehmen wie Runway, OpenAI und Meta nicht davon abgehalten, Millionen in die Entwicklung dieser Modelle zu stecken. Metas neueste Version heißt Movie Gen und verwandelt, wie der Name schon sagt, Textansagen in relativ realistische Videos mit Ton – aber zum Glück noch ohne Stimme. Und klugerweise geben sie dies nicht öffentlich bekannt.

Movie Gen ist eigentlich eine Sammlung (oder „Besetzung“, wie sie es nennen) von Grundmodellen, von denen das größte der Text-zu-Video-Teil ist. Meta behauptet, dass es Spiele wie „Gen3“ von Runway, das neueste von LumaLabs und Kling1.5 übertrifft, obwohl so etwas wie immer eher zeigt, dass sie das gleiche Spiel spielen, als dass Movie Gen gewinnt. Die technischen Einzelheiten finden Sie in dem von Meta herausgegebenen Papier, in dem alle Komponenten beschrieben werden.

Der Ton wird so generiert, dass er zum Inhalt des Videos passt, indem beispielsweise Motorgeräusche hinzugefügt werden, die mit den Bewegungen des Autos korrespondieren, oder das Rauschen eines Wasserfalls im Hintergrund oder ein Donnerschlag in der Mitte des Videos, wenn es nötig ist. Es wird sogar Musik hinzugefügt, wenn das relevant erscheint.

Es wurde auf „einer Kombination aus lizenzierten und öffentlich zugänglichen Datensätzen“ geschult, die sie als „proprietär/kommerziell sensibel“ bezeichneten und zu denen keine weiteren Details bekannt gegeben wurden. Wir können nur vermuten, dass es sich um viele Instagram- und Facebook-Videos handelt, außerdem um einige Inhalte von Partnern und viele andere, die nur unzureichend vor Scrapern geschützt sind – auch bekannt als „öffentlich verfügbar“.

Was Meta hier jedoch eindeutig anstrebt, ist nicht einfach, für ein oder zwei Monate den „State of the Art“-Krone zu erobern, sondern einen praktischen, von der Suppe bis zur Nuss reichenden Ansatz, bei dem aus einer sehr einfachen Lösung ein solides Endprodukt hergestellt werden kann , Eingabeaufforderung in natürlicher Sprache. Dinge wie „Stellen Sie sich mich als Bäcker vor, der in einem Gewitter einen glänzenden Nilpferdkuchen backt.“

Ein Knackpunkt bei diesen Videogeneratoren war beispielsweise, wie schwierig sie normalerweise zu bearbeiten sind. Wenn Sie nach einem Video von jemandem fragen, der über die Straße geht, und dann feststellen, dass Sie möchten, dass die Person von rechts nach links statt von links nach rechts geht, besteht eine gute Chance, dass die gesamte Aufnahme anders aussieht, wenn Sie die Aufforderung mit dieser zusätzlichen Anweisung wiederholen. Meta fügt eine einfache, textbasierte Bearbeitungsmethode hinzu, bei der Sie einfach sagen können: „Ändern Sie den Hintergrund in eine belebte Kreuzung“ oder „Ändern Sie ihre Kleidung in ein rotes Kleid“, und es wird versucht, diese Änderung vorzunehmen, aber nur diese Änderung.

Bildnachweis: Meta

Auch Kamerabewegungen werden allgemein verstanden, wobei Dinge wie „Kamerafahrt“ und „Nach links schwenken“ bei der Erstellung des Videos berücksichtigt werden. Das ist im Vergleich zur echten Kamerasteuerung immer noch ziemlich umständlich, aber viel besser als nichts.

Die Einschränkungen des Modells sind etwas seltsam. Es erzeugt Videos mit einer Breite von 768 Pixeln, eine Dimension, die die meisten von der berühmten, aber veralteten 1024×768 kennen, die aber auch dreimal so groß ist wie 256, sodass sie gut mit anderen HD-Formaten kompatibel ist. Das Movie Gen-System skaliert dies auf 1080p hoch, was die Quelle der Behauptung ist, dass es diese Auflösung erzeugt. Stimmt zwar nicht wirklich, aber wir lassen sie durchgehen, denn Upscaling ist überraschend effektiv.

Seltsamerweise erzeugt es bis zu 16 Sekunden Video … mit 16 Bildern pro Sekunde, eine Bildrate, die sich in der Geschichte noch niemand gewünscht oder gewünscht hat. Sie können jedoch auch 10 Sekunden Video mit 24 FPS aufnehmen. Führen Sie damit!

Was den Grund betrifft, warum es keine Sprachausgabe gibt … Nun, dafür gibt es wahrscheinlich zwei Gründe. Erstens ist es super schwer. Sprache zu erzeugen ist jetzt einfach, aber sie an Lippenbewegungen und diese Lippen an Gesichtsbewegungen anzupassen, ist eine viel kompliziertere Angelegenheit. Ich kann es ihnen nicht verübeln, dass sie dies auf später verschoben haben, denn es wäre ein Fehler von der ersten Minute an. Jemand könnte sagen: „Generieren Sie einen Clown, der die Gettysburg-Adresse vorträgt, während er mit einem winzigen Fahrrad im Kreis fährt“ – ein Albtraum, der schnell viral geht.

Der zweite Grund ist wahrscheinlich politischer Natur: Einen Monat vor einer großen Wahl so etwas wie einen Deepfake-Generator zu veröffentlichen, ist … nicht das Beste für die Optik. Es ist ein praktischer vorbeugender Schritt, seine Fähigkeiten ein wenig einzuschränken, so dass, falls böswillige Akteure versuchen, es zu nutzen, ihrerseits echte Arbeit erforderlich wäre. Man könnte dieses generative Modell sicherlich mit einem Sprachgenerator und einem Open-Lip-Synchronisationsmodell kombinieren, aber man kann damit nicht einfach einen Kandidaten erzeugen, der wilde Behauptungen aufstellt.

„Movie Gen ist derzeit ein reines KI-Forschungskonzept, und selbst in diesem frühen Stadium hat Sicherheit oberste Priorität, wie es bei all unseren generativen KI-Technologien der Fall war“, antwortete ein Meta-Vertreter auf die Fragen von TechCrunch.

Anders als beispielsweise die großen Llama-Sprachmodelle wird Movie Gen nicht öffentlich verfügbar sein. Sie können die Techniken in gewisser Weise reproduzieren, indem Sie dem Forschungspapier folgen, der Code wird jedoch nicht veröffentlicht, mit Ausnahme des „zugrunde liegenden Bewertungsaufforderungsdatensatzes“, also der Aufzeichnung der Aufforderungen, die zur Erstellung der Testvideos verwendet wurden.

Source link

Tags: Filmgen Generative KI Meta

Das Movie Gen-Modell von Meta erzeugt realistische Videos mit Ton, sodass wir endlich unendlich viel Moo Deng haben können

StartUPDATES: Neue Entwicklungen von Healthcare-Startups

Kenya Airways stellt Pläne für eine verbesserte Bordgastronomie bei einer exklusiven Produktauswahlveranstaltung vor

Related Posts

20 neue Tech -Einhörner wurden bisher im Jahr 2025 geprägt

Das Bitnet von Microsoft zeigt, was KI mit nur 400 MB und ohne GPU tun kann

Wir haben gerade einen großen Hinweis darauf erhalten, dass das Samsung Galaxy Z Fold 7 und das Galaxy Z Flip 7 im Zeitplan stehen

Dies ist Huaqiangbei, der verrückteste Technologiemarkt der Welt

Gemini Advanced gilt für die Schüler bis 2026 zusammen mit NotebookLM Plus, 2TB Cloud -Speicher

Projector -Angebote: Sparen Sie bis zu 120 US -Dollar auf dem Xgimi Elfin Flip und Mogo 3 Pro

Kenya Airways stellt Pläne für eine verbesserte Bordgastronomie bei einer exklusiven Produktauswahlveranstaltung vor

Großbritannien wird die Chagos-Inseln an Mauritius abtreten, aber der US-Stützpunkt bleibt bestehen

NSE, ehemaliger Chef Vikram Limaye, andere haben den Fall des TAP-Systems mit Sebi geklärt; Zahlen Sie Rs 643 cr

CATEGORIES

LATEST UPDATES

Welcome Back!

Retrieve your password