LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification

Each language version is independently generated for its own context, not a direct translation.

🎬 Het Probleem: De "Alles-Kijken" Filmcriticus

Stel je voor dat je een vraag hebt over een uur lange film. Bijvoorbeeld: "Wat doet de man met de takken nadat hij ze heeft gevonden en geschild?"

De oude manier om dit op te lossen (met de huidige slimme AI's) is alsof je een filmcriticus vraagt om de hele film, seconde voor seconde, te bekijken om het antwoord te vinden.

Het nadeel: De criticus moet elke frame bekijken, zelfs de saaie momenten waar de camera op een boom stilstaat of waar er niets gebeurt.
Het gevolg: Het duurt enorm lang. In de paper staat dat de oude methode wel 90 keer langzamer is dan een simpele snelle blik. Voor een echte toepassing (zoals op een telefoon of in een auto) is dit veel te traag. Het is alsof je een uur lang moet wachten op een antwoord dat je eigenlijk direct nodig hebt.

💡 De Oplossing: LE-NeuS (De Slimme Regisseur)

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd LE-NeuS. Ze noemen het een "neuro-symbolisch" systeem, maar laten we het simpel houden: het is een slimme regisseur die weet wat hij moet zoeken.

In plaats van de hele film te bekijken, doet LE-NeuS drie slimme dingen:

1. De "Snelle Scan" (CLIP-gestuurde adaptieve sampling)

Stel je voor dat je een boek wilt lezen om een specifiek citaat te vinden.

Oude methode: Je leest elke letter, van begin tot eind, langzaam en zorgvuldig.
LE-NeuS methode: Je bladert eerst heel snel door het boek. Je kijkt alleen naar de pagina's waar de woorden "boom" of "tak" in de titel staan. Je slaat alle pagina's over waar alleen maar "de wind waait" staat.

In technische termen gebruikt het systeem een snelle, lichte AI (CLIP) om te kijken welke beelden belangrijk zijn en welke saai. Het negeert de saaie beelden en houdt alleen de "sleutelmomenten" over. Dit bespaart enorm veel tijd.

2. De "Groepsopdracht" (Batched Proposition Detection)

Stel je voor dat je een groep vrienden hebt die allemaal een vraag moeten beantwoorden over een plaatje.

Oude methode: Je geeft het plaatje aan vriend A, wacht tot hij klaar is, geeft het dan aan vriend B, wacht weer, enzovoort. Dit is heel inefficiënt.
LE-NeuS methode: Je geeft het plaatje aan alle vrienden tegelijk. Ze werken parallel. Omdat de computer (de GPU) krachtig is, kan hij dit allemaal in één keer doen.

Dit betekent dat de AI niet één voor één hoeft na te denken over elke vraag, maar dat hij een hele hoop vragen in één keer beantwoordt.

3. De "Logische Puzzel" (Temporale logica)

De AI gebruikt een soort logische puzzel (temporale logica). In plaats van te raden, bouwt het een stappenplan:

Eerst moet de man de boom vinden.
Dan moet hij de schors eraf halen.
Pas daarna moet hij kijken wat hij ermee doet.

Het systeem zoekt alleen naar de stukjes video die passen bij deze stappen. Als de man de schors nog niet heeft gehaald, kijkt het systeem niet eens naar wat hij daarna doet.

🚀 Het Resultaat: Snelheid zonder Kwaliteitsverlies

Wat levert dit op?

Snelheid: De nieuwe methode is ongeveer 12 tot 13 keer sneller dan de oude, dure methode. In plaats van 16 minuten wachten, duurt het nu slechts 44 seconden.
Nauwkeurigheid: Het is niet alleen sneller, het is ook nauwkeuriger (ongeveer 10% beter) bij moeilijke vragen over tijd en volgorde.
Waarom? Omdat de AI zich concentreert op de belangrijke momenten in plaats van zich te laten afleiden door saaie beelden.

🏁 Conclusie in Eén Zin

LE-NeuS is als het verschil tussen iemand die een uur lang elke seconde van een film bekijkt om een antwoord te vinden, en een slimme regisseur die alleen de belangrijkste scènes selecteert, die in één keer laat analyseren, en zo het antwoord in een flits geeft zonder de kwaliteit te verliezen.

Dit maakt het mogelijk om slimme video-AI's te gebruiken in situaties waar snelheid belangrijk is, zoals in een auto, op een drone of in een noodsituatie.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Neuro-symbolische benaderingen voor het beantwoorden van vragen over lange video's (Long-Form Video Question Answering - LVQA) hebben aangetoond dat ze de nauwkeurigheid aanzienlijk kunnen verbeteren door temporele redenering te grondvesten in formele verificatie (temporele logica). Echter, bestaande methoden, zoals NeuS-QA, lijden onder een prohibitieve latentie-overhead. Ze zijn tot 90 keer trager dan standaard VLM-prompting (Vision-Language Models), wat ze onpraktisch maakt voor latency-gevoelige toepassingen, zoals edge-deployments.

De primaire bottleneck ligt in het sequentiële en dichte detectieproces van proposities (visuele gebeurtenissen) over alle frames tijdens het construeren van een automaat. Dit proces vereist dat een VLM bijna elk frame individueel analyseert, wat leidt tot enorme rekentijd, vooral bij video's van een uur lang.

Methodologie: LE-NeuS

De auteurs stellen LE-NeuS (Latency-Efficient Neuro-Symbolic) voor, een framework dat de nauwkeurigheidsvoordelen van temporeel logisch redenering behoudt maar de inferentielatentie drastisch reduceert. De methode combineert drie kernoptimalisaties:

CLIP-gestuurde Twee-Fase Adaptieve Sampling:
- In plaats van uniforme sampling, gebruikt LE-NeuS CLIP-embeddings om visuele redundantie te exploiteren.
- Fase 1 (Semantische Filtering): Frames die semantisch relevant zijn voor de query (gebaseerd op een drempelwaarde $\tau_s$ ) worden geselecteerd. Irrelevante achtergrondframes worden verwijderd.
- Fase 2 (Visuele Redundantie Eliminatie): Binnen de geselecteerde kandidaatframes worden bijna identieke frames verwijderd door de visuele gelijkenis tussen opeenvolgende frames te meten. Alleen "sleutelframes" (keyframes) met significante visuele veranderingen worden behouden.
- Proposities worden alleen expliciet gedetecteerd op deze sleutelframes en hun lokale omgeving; labels voor de overige frames worden afgeleid via propagatie.
Gebatchte Propositie-detectie (Batched Proposition Detection):
- De baseline NeuS-QA voert inferentie sequentieel uit voor elke (frame, propositie)-combinatie, wat GPU-resources onderbenut.
- LE-NeuS gebruikt batched inference: meerdere proposities worden parallel verwerkt over dezelfde visuele context in één doorloop van het VLM. Dit elimineert herhaalde overhead voor het laden van gewichten en kernel-starts, waardoor de doorvoer (throughput) op GPU's (zoals de NVIDIA H100) wordt gemaximaliseerd.
Multi-Segment Frames-of-Interest (FoI) Retrieval:
- In tegenstelling tot eerdere methoden die slechts één groot continu segment zoeken, retourneert LE-NeuS een lijst van disjuncte segmenten waar de temporele logica geldig is.
- Dit verhoogt de kans dat het VLM tijdens de finale antwoordgeneratie daadwerkelijk de relevante bewijsframes ziet, omdat de sampling-begroting niet wordt verspild aan de tijdsintervallen tussen niet-aangrenzende gebeurtenissen.

Het proces volgt een pipeline: Query $\rightarrow$ Temporele Logica (TL) Specificatie $\rightarrow$ Adaptieve Sampling $\rightarrow$ Gebatchte Propositie-detectie $\rightarrow$ Formele Modelverificatie (met Storm) $\rightarrow$ Finale VLM-antwoord.

Belangrijkste Bijdragen

Framework: Introductie van LE-NeuS, het eerste neuro-symbolische framework dat specifiek is ontworpen om de latentieproblematiek van LVQA op te lossen zonder in te leveren op formele garanties.
Theoretische Analyse: Afleiding van theoretische bovengrenzen voor latentie als functie van videolengte, propostiecomplexiteit en samplingdichtheid. Dit definieert de voorwaarden waaronder neuro-symbolische redenering schaalbaar en efficiënt is.
Optimalisatiestrategieën: Een combinatie van adaptieve sampling en parallelle inferentie die de rekentijd decoupeert van de totale videolengte.
Empirisch Bewijs: Uitgebreide evaluatie op meerdere benchmarks met verschillende VLM-backbones.

Resultaten

De methode is getest op benchmarks zoals LongVideoBench, Video-MME en MLVU op een NVIDIA H100 GPU.

Latentie: LE-NeuS reduceert de latentie-overhead van 90x (NeuS-QA) naar ongeveer 10x ten opzichte van standaard VLM-prompting.
- Voor een 60-minuten video daalt de doorlooptijd van ~958 seconden (NeuS-QA) naar 70 seconden (LE-NeuS).
- Globale snelheidswinst: 12.53x ten opzichte van de baseline NeuS-QA.
Nauwkeurigheid: Ondanks de drastische reductie in verwerkte frames (van gemiddeld 824 naar 197 frames), behoudt LE-NeuS de nauwkeurigheidsvoordelen van temporele logica.
- Op LongVideoBench bereikt LE-NeuS een 67.10% nauwkeurigheid (met InternVL2.5-8B), wat een verbetering is van 5.21% ten opzichte van NeuS-QA en 16% ten opzichte van andere gestructureerde redeneringsframeworks.
- Er is een verbetering van >10% behaald op queries die complexe temporele redenering vereisen.
Ablatie-studies: De studies tonen aan dat batching de latentie met 3.2x verlaagt, adaptieve sampling een extra 3.8x versnelling geeft, en de Multi-Segment strategie de nauwkeurigheid met bijna 7% verhoogt.

Betekenis en Impact

LE-NeuS opent de weg voor praktische, real-time toepassing van neuro-symbolische video-analyse. Waar eerdere methoden te traag waren voor gebruik buiten de research-lab, maakt deze efficiëntie het mogelijk om deze technieken toe te passen in:

Edge-deployments: Systemen met beperkte rekenkracht of strikte latency-eisen.
Autonome systemen: Voor verificatie van multi-stap uitvoeringen in robotica of autonoom rijden.
Assistieve technologie: Voor draagbare systemen die veiligheidskritieke cues in real-time moeten analyseren.

Het paper bewijst dat formele verificatie en temporele logica niet per se incompatibel zijn met lage latentie, mits de architectuur slim wordt ontworpen om visuele redundantie en hardware-parallelisme te benutten.

LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification

🎬 Het Probleem: De "Alles-Kijken" Filmcriticus

💡 De Oplossing: LE-NeuS (De Slimme Regisseur)

1. De "Snelle Scan" (CLIP-gestuurde adaptieve sampling)

2. De "Groepsopdracht" (Batched Proposition Detection)

3. De "Logische Puzzel" (Temporale logica)

🚀 Het Resultaat: Snelheid zonder Kwaliteitsverlies

🏁 Conclusie in Eén Zin

Probleemstelling

Methodologie: LE-NeuS

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation