Logics-Parsing-Omni Technical Report

Dit paper introduceert het Omni Parsing-framework en het bijbehorende Logics-Parsing-Omni-model, die een gestructureerde, bewijsgebaseerde aanpak bieden om fragmentarische multimodale data (documenten, afbeeldingen en audio-visuele streams) om te zetten in traceerbare, machine-leesbare kennis.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin Qu

Gepubliceerd Wed, 11 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🌍 De "Alles-Lezer": Logics-Parsing-Omni

Stel je voor dat je een enorme bibliotheek hebt, maar de boeken zijn niet in woorden geschreven. Ze bestaan uit foto's, geluiden, video's, handgeschreven notities en ingewikkelde grafieken. Tot nu toe konden computers deze "boeken" maar half lezen. Ze konden wel zien dat er tekst op een pagina stond (zoals een scanner), maar ze begrepen niet wat die tekst betekende in de context van de hele pagina, of ze konden het geluid in een video wel horen, maar niet koppelen aan wat er op dat moment op het scherm gebeurde.

Het team van Alibaba heeft nu een nieuwe uitvinding bedacht: Logics-Parsing-Omni.

Je kunt dit zien als een super-intelligente bibliothecaris die niet alleen kijkt, maar ook luistert, nadenkt en alles in een perfect georganiseerd archief zet.

1. Het Probleem: Een rommelige zolder

Vroeger waren computerprogramma's gespecialiseerd in één ding:

  • Sommigen waren goed in het lezen van tekst (OCR), maar zagen geen plaatjes.
  • Anderen konden een filmpje beschrijven ("een man loopt"), maar zagen niet dat hij een specifiek logo op zijn shirt droeg of dat de camera langzaam inzoomde.
  • Bij video's luisterden ze alleen naar wat mensen zeiden, maar negeerden ze achtergrondgeluiden (zoals een sirene) of de sfeer.

Het resultaat? Een rommelige zolder waar informatie versnipperd ligt. Je kunt niet snel vinden wat je zoekt, en je mist de diepere betekenis.

2. De Oplossing: De "Omni Parsing" Methode

De auteurs hebben een nieuw systeem bedacht dat alles in één keer doet. Ze noemen dit Omni Parsing.

Stel je voor dat je een ingewikkeld LEGO-gebouw hebt.

  • Oude manier: Je telt alleen het aantal rode blokken (dat is de tekst) en je zegt "het is een huis".
  • Nieuwe manier (Omni Parsing): De computer doet drie dingen tegelijk, stap voor stap:
    1. Het Kijken (Detectie): "Ik zie een rood blokje op coördinaat X, Y." (Precies weten waar iets is).
    2. Het Herkennen (Erkenning): "Dat rood blokje is een dakpan, en hierop staat 'Sinterklaas' geschreven." (Wat is het precies?).
    3. Het Denken (Interpretatie): "Omdat er een dak is en 'Sinterklaas' op staat, is dit een huis voor Sinterklaas, en het verhaal gaat over zijn aankomst." (De logica begrijpen).

Het mooie is: de computer koppelt elke gedachte direct aan het bewijs. Als hij zegt "dit is een huis", wijst hij precies naar de plek in de afbeelding of video waar dat huis te zien is. Geen gissen, geen hallucinaties.

3. Hoe hebben ze dit gebouwd? (De Twee-Fase Training)

Om deze "super-bibliothecaris" te trainen, hebben ze twee fases gebruikt:

  • Fase 1: De Brede Kennis (De Ontdekkingsreis)
    Ze hebben de computer eerst laten kijken naar 16 miljoen voorbeelden. Denk aan een kind dat eerst alle soorten dieren, auto's en gebouwen moet leren herkennen. Het leert de basis: "Dit is een tekst, dit is een geluid, dit is een beweging."
  • Fase 2: De Specifieke Vaardigheid (De Meesterklas)
    Daarna kregen ze 5 miljoen zeer moeilijke en nauwkeurige voorbeelden. Hier leerden ze de computer niet alleen te kijken, maar ook te redeneren. Ze leerden hem: "Als je dit geluid hoort en dit plaatje ziet, dan betekent dit dat er een ongeluk is gebeurd." Ze leerden hem ook om alles in een strakke, digitale lijst (JSON) te zetten, zodat andere computers het makkelijk kunnen gebruiken.

4. Wat kan het nu? (De Krachtproeven)

Het team heeft een test gemaakt genaamd OmniParsingBench. Het is alsof ze de computer een examen hebben laten doen in verschillende vakken:

  • Documenten: Het kan een pagina met een tabel, een formule en een tekening lezen en alles in één logisch verhaal omzetten.
  • Afbeeldingen: Het ziet het verschil tussen twee bijna identieke foto's (bijvoorbeeld: "In de tweede foto is de hoed van de man weggehaald") en kan precies aangeven waar dat verschil zit.
  • Audio & Video: Het luistert niet alleen naar wat mensen zeggen, maar ook naar achtergrondgeluiden (zoals "het regent") en kijkt naar camerabewegingen (zoals "de camera zwaait naar links"). Het koppelt dit allemaal aan elkaar.
  • Onderwijsvideo's: Het kan een lang college van 30 minuten bekijken en er een perfect gestructureerd samenvatting van maken, inclusief de formules die aan het bord werden geschreven en de belangrijkste lessen.

5. Waarom is dit belangrijk?

Vroeger moest je zelf zoeken door duizenden video's of documenten om iets te vinden. Met dit systeem wordt ongestructureerde rommel (zoals een video van een les) omgezet in een zoekbare, betrouwbare database.

  • Voorbeeld: Als je vraagt: "Toonde de docent in de video van 10:00 een formule over kwadratische vergelijkingen?", kan het systeem niet alleen zeggen "Ja", maar ook direct naar dat moment in de video springen en de formule tonen.

Conclusie

Logics-Parsing-Omni is als het geven van een bril aan een computer die tot nu toe slechts halfblind was. Het combineert het zien (pixels), het horen (geluid) en het denken (logica) tot één krachtige vaardigheid. Het zorgt ervoor dat computers niet alleen "kijken", maar echt "begrijpen" wat er gebeurt, en dat ze hun antwoorden altijd kunnen onderbouwen met bewijs.

Dit opent de deur voor slimme zoekmachines, betere onderwijsapps en systemen die echt kunnen helpen bij complexe taken, zonder dat we ons zorgen hoeven te maken over fouten of verzonnen feiten.