InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Dit paper introduceert InternVL-U, een lichtgewicht 4B-parameter unificerend multimodaal model dat door middel van een decoupled architectuur en een op redenering gebaseerde data-pipeline superieure prestaties bereikt in begrijpen, redeneren, genereren en bewerken, terwijl het tegelijkertijd de efficiëntie en schaalbaarheid van grotere modellen overtreft.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🎨 De "Zesde Zin" van AI: InternVL-U

Stel je voor dat je een kunstenaar hebt die twee beroepen tegelijk wil doen:

  1. De Kunstkriticus: Iemand die een schilderij kan bekijken en precies kan uitleggen wat er te zien is, waarom het mooi is en welke diepe betekenis het heeft (begrip en redeneren).
  2. De Schilder: Iemand die een nieuw schilderij kan maken op basis van een beschrijving, of een bestaand schilderij kan aanpassen (creëren en bewerken).

Tot nu toe waren deze twee talenten vaak gescheiden. Of je had een slimme criticus die niets kon schilderen, of een snelle schilder die niet echt begreep wat hij schilderde.

InternVL-U is de eerste "super-kunstenaar" die beide talenten in één klein, efficiënt pakketje heeft. Het is een model van slechts 4 miljard parameters (wat in de wereld van AI heel klein is), maar het doet het beter dan veel reuzen die drie keer zo groot zijn.

🏗️ Hoe werkt het? De "Drie-Regels" Architectuur

De onderzoekers hebben een slimme manier bedacht om dit te bouwen, alsof ze een huis bouwen met drie specifieke regels:

  1. De Slimme Hoofd (Het Brein):
    Het hart van het model is een bestaande, zeer slimme taal- en beeldverstaander (InternVL 3.5). Dit is het brein dat de instructies leest en begrijpt.

    • Analogie: Dit is de regisseur die het script leest en precies weet wat er moet gebeuren.
  2. De Speciale Penseel (De Gen-Head):
    In plaats van het brein zelf te laten schilderen (wat traag en onnauwkeurig zou zijn), hebben ze een speciaal "penseel" toegevoegd: een MMDiT-head. Dit is een gespecialiseerd onderdeel dat alleen maar goed is in het maken van beelden.

    • Analogie: De regisseur (het brein) geeft de instructies aan een meester-schilder (het penseel). De regisseur hoeft niet zelf te schilderen, maar geeft wel de visie.
  3. Twee verschillende Brillen:
    Normaal gesproken gebruiken AI-modellen dezelfde "bril" om een foto te bekijken én om er een nieuwe te maken. InternVL-U gebruikt twee verschillende brillen:

    • Bril A (Begrip): Kijkt naar de betekenis van een foto (bijv. "dit is een hond").
    • Bril B (Maken): Kijkt naar de details om iets te tekenen (bijv. "de vacht moet zacht lijken").
    • Waarom? Omdat het moeilijk is om tegelijkertijd diep na te denken en perfect te tekenen met dezelfde "hersenen". Door ze te scheiden, krijgt het model het beste van beide werelden.

🧠 De "Gedachtenstroom" (Chain-of-Thought)

Dit is misschien wel het coolste deel. Vaak zeggen mensen tegen een AI: "Maak een grappige plaat van een kat."
Een oude AI zou misschien een willekeurige kat maken.

InternVL-U gebruikt een trucje genaamd Chain-of-Thought (CoT). Het denkt eerst hardop na voordat het tekent.

  • In plaats van: "Maak een plaat."
  • Denkt InternVL-U: "Oké, de gebruiker wil een grappige plaat. Een kat die verdwaald is in een supermarkt? Nee, een kat die probeert een mens te troosten die boos is. Ik moet de tekst 'Broer, kalmeer' toevoegen. De kat moet een bepaalde houding hebben..."

Door deze stap-voor-stap redenering te gebruiken, kan het model complexe taken aan, zoals:

  • Wiskundige problemen oplossen en het antwoord in een tekening zetten.
  • Tekst in een foto vervangen (bijv. een bordje "Open" veranderen in "Gesloten") zonder dat de rest van de foto verandert.
  • Wetenschappelijke diagrammen tekenen die kloppen (bijv. hoe een elektrisch circuit werkt).

🚀 Wat kan het allemaal?

Het model is getraind op een enorme hoeveelheid data, speciaal gemaakt voor moeilijke dingen:

  • Tekst in Beelden: Het kan tekst op een bordje of T-shirt schrijven zonder dat het letters verdraait (een groot probleem voor andere AI's).
  • Wetenschap: Het kan een diagram van een cel tekenen of een chemische formule maken die er echt uitziet.
  • Ruimte en 3D: Het kan een object roteren of een 3D-figuur van een andere kant laten zien.
  • Humor: Het kan "memes" maken die echt grappig zijn en de juiste emotie overbrengen.

🏆 Waarom is dit belangrijk?

Vroeger moest je een zware, dure computer gebruiken om een plaatje te maken, en een andere voor het begrijpen ervan.
InternVL-U bewijst dat je niet gigantisch groot hoeft te zijn om slim en creatief te zijn.

  • Het is lichtgewicht: Het draait op minder krachtige hardware.
  • Het is slimmer: Het begrijpt de instructies beter dan modellen die drie keer zo groot zijn.
  • Het is veelzijdig: Je kunt er alles mee doen: van het maken van een logo tot het oplossen van een Sudoku en het uitleggen van de oplossing.

Samenvattend

Stel je voor dat je een multitasker hebt die niet alleen een gesprek met je kan voeren, maar ook direct de tekening maakt die je beschrijft, de tekst in die tekening corrigeert en uitlegt waarom de tekening logisch klopt. Dat is InternVL-U: de democratisering van super-intelligente beeldkunst, beschikbaar voor iedereen.