Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen Freund, der nicht nur Bilder und Videos sehen kann, sondern sie auch wirklich versteht. Er kann dir nicht nur sagen, „Da ist ein Hund", sondern er kann dir auch zeigen, wo genau der Hund im Bild steht, wann er im Video aufgetaucht ist und sogar zählen, wie viele Hunde es sind, wenn sie sich bewegen.

Das ist im Grunde Molmo2, ein neues, hochmodernes Computer-Modell, das von Forschern am Allen Institute for AI und der University of Washington entwickelt wurde. Hier ist die Erklärung, warum dieses Projekt so besonders ist, einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Die „Black Box" der KI

Bisher waren die besten VideokIs (wie die von Google oder OpenAI) wie Geheimrezepte in einem verschlossenen Safe. Niemand durfte wissen, wie sie gekocht wurden oder welche Zutaten (Daten) sie verwendet haben. Viele andere offene Modelle haben versucht, diese Geheimrezepte zu kopieren, indem sie die Ergebnisse der teuren, geschlossenen KIs abgeguckt haben. Das ist wie ein Koch, der nur die fertige Pizza schmeckt und versucht, das Rezept zu erraten – das Ergebnis ist selten perfekt.

Molmo2 ändert das. Es ist wie ein offenes Kochbuch, bei dem jeder die Zutaten, den genauen Kochprozess und das Ergebnis sehen kann. Und das Beste: Die Zutaten wurden nicht von einer anderen KI „abgeschrieben", sondern von Menschen sorgfältig ausgewählt und vorbereitet.

2. Die Superkraft: „Grounding" (Das Zeigen mit dem Finger)

Die meisten KIs können Videos nur beschreiben. Wenn du fragst: „Wie viele Autos fahren vorbei?", antworten sie mit einem Text: „Es waren drei."

Molmo2 kann aber zeigen. Stell dir vor, du hast einen unsichtbaren Finger, der auf den Bildschirm zeigt.

Frage: „Wo ist das rote Auto?"
Molmo2-Antwort: Es setzt einen kleinen Punkt genau auf das rote Auto im Video.
Frage: „Wann fiel die Tasse vom Tisch?"
Molmo2-Antwort: Es markiert den exakten Moment im Zeitstrahl des Videos.

Das nennt man Grounding (Verankerung). Es ist der Unterschied zwischen jemandem, der dir von einem Unfall erzählt, und jemandem, der dir genau die Stelle im Video zeigt, wo es passiert ist. Molmo2 ist der erste offene KI-Modell-Typ, der das bei Videos so gut kann.

3. Die Zutaten: Ein riesiges, menschliches Datensalat

Damit ein KI-Modell so klug wird, braucht es Übungsmaterial. Die Forscher haben neue Datensätze erstellt, die wie ein riesiges, buntes Buffet sind:

Detaillierte Beschreibungen: Statt nur „Ein Mann läuft" zu sagen, haben Menschen Videos so detailliert beschrieben wie ein Drehbuchautor („Ein Mann in einem lila Kimono läuft an einem gelben Hund vorbei, der ein Bleistift hält").
Zeigen und Zählen: Es gibt spezielle Übungen, bei denen Menschen Videos ansehen und Punkte setzen, um Objekte zu zählen oder zu verfolgen (z. B. „Zeige mir alle Tänzer, die von links nach rechts laufen").
Keine Abkürzungen: Alles wurde von Menschen gemacht, nicht von einer anderen KI generiert. Das verhindert, dass das Modell nur die Fehler anderer KIs lernt.

4. Der Lernprozess: Wie ein Schüler, der alles auf einmal lernt

Stell dir vor, du musst für eine Prüfung lernen, die aus drei Teilen besteht:

Bilder beschreiben: Du lernst, Fotos genau zu beschreiben.
Videos verstehen: Du lernst, Handlungen in Videos zu erkennen.
Punkte setzen: Du lernst, mit dem Finger auf Dinge zu zeigen.

Die meisten Modelle lernen diese Dinge getrennt. Molmo2 lernt sie gleichzeitig und vermischt. Die Forscher haben eine spezielle Technik entwickelt (eine Art „Packing"-Methode), die es dem Modell erlaubt, viele kleine Lektionen in einem großen Lernblock zu verarbeiten, ohne den Überblick zu verlieren. Es ist wie ein Schüler, der nicht nur Mathe lernt, sondern Mathe, Sport und Musik in einem einzigen, effizienten Tag – und dabei alle Fächer perfekt beherrscht.

5. Das Ergebnis: Ein Open-Source-Riese

Warum ist das wichtig?

Für alle: Da alles offen ist (Code, Daten, Modell), kann jeder Forscher darauf aufbauen. Wir müssen nicht mehr warten, bis große Tech-Konzerne uns etwas geben.
Leistung: Molmo2 ist so stark, dass es in vielen Tests (wie Videos zählen oder Objekte verfolgen) sogar besser abschneidet als die besten geschlossenen Modelle von Google (Gemini) oder OpenAI.
Zukunft: Mit Molmo2 können wir Roboter bauen, die genau sehen, was sie tun, oder Suchmaschinen, die nicht nur nach Texten, sondern nach genauen Momenten in Videos suchen können.

Zusammenfassend:
Molmo2 ist wie ein offenes, hochintelligentes Gehirn, das gelernt hat, nicht nur zu schauen, sondern auch zu zeigen und zu zählen. Es hat bewiesen, dass man keine geheimen Zutaten braucht, um die besten VideokIs der Welt zu bauen – man braucht nur gute menschliche Lehrer und einen offenen Geist.

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

1. Das Problem: Die „Black Box" der KI

2. Die Superkraft: „Grounding" (Das Zeigen mit dem Finger)

3. Die Zutaten: Ein riesiges, menschliches Datensalat

4. Der Lernprozess: Wie ein Schüler, der alles auf einmal lernt

5. Das Ergebnis: Ein Open-Source-Riese

1. Problemstellung

2. Methodik

A. Datenerstellung (Der Kernbeitrag)

B. Modellarchitektur und Training

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

1. Das Problem: Die „Black Box" der KI

2. Die Superkraft: „Grounding" (Das Zeigen mit dem Finger)

3. Die Zutaten: Ein riesiges, menschliches Datensalat

4. Der Lernprozess: Wie ein Schüler, der alles auf einmal lernt

5. Das Ergebnis: Ein Open-Source-Riese

1. Problemstellung

2. Methodik

A. Datenerstellung (Der Kernbeitrag)

B. Modellarchitektur und Training

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction