Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Het paper introduceert Molmo2, een nieuwe familie van open-source video-taalmodellen met open gewichten en data die state-of-the-art prestaties leveren op het gebied van video-begrip en pixel-gebaseerde grounding, mede dankzij zeven nieuwe video-datasets en een geavanceerde trainingsreceptuur.

Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna

Gepubliceerd 2026-02-27
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🎬 Molmo2: De Open-Source Superheld voor Videobegrip

Stel je voor dat je een enorme bibliotheek hebt met miljoenen video's. De meeste mensen kunnen alleen kijken naar de beelden, maar ze kunnen er niet echt naar luisteren of er precies op wijzen. De slimste "bibliothecarissen" (de AI-modellen) die dit nu kunnen, zijn vaak geheimzinnig. Ze zitten opgesloten in een kasteel (propriëtaire modellen zoals die van Google of OpenAI), en niemand mag zien hoe ze werken of welke boeken ze gebruiken om te leren.

Molmo2 is de nieuwe, open-source bibliothecaris die de poorten openzet. Het is een familie van slimme computerhersenen die niet alleen video's kan kijken, maar ze ook echt begrijpt, kan tellen, en zelfs met zijn vinger kan wijzen op precies wat er gebeurt.

Hier zijn de belangrijkste punten, vertaald naar alledaagse taal:

1. Het Ontbrekende Puzzelstukje: "Aanwijzen" (Grounding)

Stel je voor dat je een video bekijkt van een voetbalwedstrijd.

  • Oude modellen: Kunnen zeggen: "Er wordt gevoetbald." (Dit is goed, maar vaag).
  • Molmo2: Kan zeggen: "Kijk, op seconde 12:30 springt de speler in het oranje shirt (wijst precies op de speler) en schiet de bal (wijst op de bal) in de hoek."

Dit noemen ze grounding. Het is alsof het model niet alleen kijkt, maar ook met zijn vinger kan wijzen op het scherm. Molmo2 is de eerste open-source model dat dit zo goed doet, zelfs in video's waar dingen bewegen en verdwijnen.

2. De "Geheime Recepten" (De Data)

De grootste uitdaging voor open-source AI is dat ze vaak "koken" met ingrediënten die door de dure, gesloten modellen zijn gemaakt. Dat is alsof je een chef-kok bent die alleen recepten mag gebruiken die door een andere chef zijn geschreven. Je leert dan niet echt zelf koken.

Molmo2 heeft een nieuwe, schone keuken gebouwd:

  • Menselijke Annotatie: In plaats van een andere AI te laten schrijven, hebben echte mensen video's bekeken en verteld wat er gebeurt. Ze hebben zelfs gesproken (want spreken is vaak gedetailleerder dan typen) en deze opnames getranscribeerd.
  • Nieuwe Datasets: Ze hebben 9 nieuwe "receptboeken" (datasets) gemaakt. Denk hierbij aan:
    • Dense Captions: Zeer lange, gedetailleerde beschrijvingen van video's (niet zomaar "een hond loopt", maar "een bruine hond rent over het gras en blaft naar een eekhoorn").
    • Vragen & Antwoorden: Mensen stelden lastige vragen over video's, zoals "Hoeveel keer heeft de robot de rode blok vastgepakt?"
    • Wijzen & Volgen: Mensen klikten precies op de plek in de video waar iets gebeurt, of volgden een object terwijl het zich verplaatste.

3. De "Trucjes" om Slimmer te Worden (Training)

Om deze enorme hoeveelheid data te verwerken, hebben de onderzoekers slimme trucjes bedacht:

  • De "Pakketjes" (Packing): Stel je voor dat je een vrachtwagen vol moet laden met dozen van verschillende maten. Normaal gesproken zitten er veel lege ruimtes tussen. Molmo2 gebruikt een slimme methode om de dozen perfect in elkaar te schuiven, zodat de vrachtwagen (de computer) altijd vol zit en niet tijd verspillen.
  • Twee-Weg Communicatie: Normaal gesproken kijken de visuele hersenen (die de beelden zien) en de taalhersenen (die praten) alleen naar voren. Molmo2 laat ze ook naar elkaar terugkijken. Het is alsof een team van detectives samen aan een bord zit en constant overleggt, in plaats van dat de ene detective alleen kijkt en de andere alleen schrijft.
  • Token-Gewicht: Als een video een heel lang verhaal heeft, mag dat niet alle aandacht opeisen. Molmo2 leert om ook goed te luisteren naar korte, belangrijke vragen.

4. De Resultaten: Hoe goed is het?

Molmo2 is nu de sterkste open-source video-AI ter wereld.

  • Vergeleken met de concurrentie: Het doet het beter dan andere open modellen (zoals Qwen of InternVL) en komt in de buurt van de duurste, gesloten modellen (zoals Gemini 3 Pro of GPT-5).
  • Specifieke sterke punten:
    • Tellen: Het kan heel goed tellen hoeveel dingen er in een video zijn (bijvoorbeeld: "Hoeveel auto's rijden er voorbij?").
    • Wijzen: Het kan precies aangeven waar en wanneer iets gebeurt.
    • Volgen: Het kan een object (bijvoorbeeld een danser) volgen door de hele video heen, zelfs als het even uit beeld is.

5. Waarom is dit belangrijk?

Vroeger was de beste technologie alleen beschikbaar voor grote bedrijven met veel geld. Met Molmo2 krijgen onderzoekers, studenten en kleine bedrijven toegang tot dezelfde krachtige technologie.

  • Geen "Black Box": Iedereen kan zien hoe het werkt.
  • Geen "Kringloop": Het model is niet getraind op de output van andere AI's, dus het is echt origineel.
  • Toekomst: Dit helpt bij het bouwen van robots die in huizen kunnen werken, auto's die zelf kunnen rijden, of hulpmiddelen voor mensen met een visuele beperking die video's kunnen "lezen".

Samenvattend

Molmo2 is als het openen van de deuren van een supergeavanceerd laboratorium. Het is een slimme, open-source robot die video's niet alleen ziet, maar ze ook echt begrijpt, kan tellen en met zijn vinger kan wijzen op de kleinste details. En het beste van alles? Iedereen mag meekijken en meedoen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →