Pathwise Test-Time Correction for Autoregressive Long Video Generation

Dit paper introduceert Test-Time Correction (TTC), een trainingsvrije methode die autoregressieve lange video-generatie verbetert door het gebruik van het eerste frame als stabiel anker om drift te corrigeren, waardoor hoge kwaliteit op lange duur wordt bereikt zonder de kosten van training.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Deze paper introduceert een energiebewust spike-budgeteringskader voor continue learning in spiking neural networks dat, door ervaringen te herhalen en neuronparameters aan te passen, zowel de nauwkeurigheid verbetert als het energieverbruik verlaagt voor zowel frame-gebaseerde als event-gebaseerde neuromorfe visiesystemen.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

Het artikel introduceert OrthoAI, een neurosymbolisch raamwerk dat door middel van segmentatie met schaarse supervisie, kennisgebaseerde constraint-inferentie en een multicriteria-evaluatiemodel de brug slaat tussen 3D-geometrische waarneming en klinisch biomechanisch redeneren voor de automatische ondersteuning van beslissingen bij orthodontie met transparante aligners.

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

Dit paper introduceert DOCFORGE-BENCH, het eerste zero-shot benchmark voor documentvervalsing, en onthult dat bestaande methoden door een gebrek aan kalibratie en een extreem onevenwichtige verdeling van vervalsde pixels in plaats van door representatiefalen onbetrouwbaar zijn voor praktische toepassing.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Pri4R is een effectieve methode die Vision-Language-Action-modellen een impliciet begrip van werelddynamiek bijbrengt door tijdens het trainen gebruik te maken van bevoorrechte 4D-informatie via een lichtgewicht punt-track-head, wat leidt tot aanzienlijk betere prestaties in complexe manipulatietaken zonder extra rekenlast tijdens het gebruik.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Het paper introduceert Granulon, een nieuw multimodaal groot taalmodel dat DINOv3 combineert met een adaptieve multi-granulariteitsarchitectuur om zowel pixel- als grootschalige semantische redenering te verenigen, wat resulteert in een aanzienlijke verbetering van de nauwkeurigheid en een vermindering van hallucinaties.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Het paper introduceert VisionCreator-R1, een native agent voor visuele creatie met een expliciet reflectiemechanisme en een RPCO-trainingsmethode die, ondanks een asymmetrie in beloningstoewijzing tussen planning en reflectie, betere prestaties behaalt dan Gemini2.5Pro op zowel eendaagse als meerdaagse visuele taken.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs