ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Dit rapport presenteert de ICDAR 2025 competitie voor end-to-end machinevertaling van documentafbeeldingen met complexe lay-outs, waarbij 69 teams deelnamen aan twee tracks (OCR-vrij en OCR-gebaseerd) en de resultaten aantonen dat grote modellen een veelbelovend paradigma vormen voor dit domein.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

Dit paper introduceert RiO-DETR, de eerste real-time DETR-architectuur voor georiënteerde objectdetectie die specifieke uitdagingen zoals hoekperiodiciteit en convergentie oplost door middel van nieuwe ontwerpen zoals content-gedreven hoekschatting en ontkoppelde periodieke verfijning, waardoor een nieuwe snelheid-nauwkeurigheidswisselwerking wordt bereikt.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

Open-World Motion Forecasting

Dit paper introduceert 'open-world motion forecasting', een nieuw kader dat autonome voertuigen in staat stelt om continu nieuwe objectklassen te leren en hun bewegingen te voorspellen vanuit camera-beelden zonder vergeten van eerder geleerde kennis, door middel van een end-to-end class-incremental framework met pseudo-labeling en een innovatieve replay-samplingstrategie.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Dit paper introduceert OncoAgent, een nieuw AI-agentkader dat klinische richtlijnen direct omzet in 3D-stralingsvolumes zonder training, waardoor het in een zero-shot setting presteert die vergelijkbaar is met toezichtmodellen en door artsen wordt geprefereerd vanwege zijn superioriteit in richtlijncompliance en aanpasbaarheid.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

EvoDriveVLA is een nieuw kader voor autonoom rijden dat de prestaties van Vision-Language-Action-modellen verbetert door een collaboratieve distillatie van waarneming en planning te gebruiken, wat leidt tot state-of-the-art resultaten in zowel open- als gesloten-lus evaluaties.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Dit artikel introduceert het Patrologia Graeca Corpus, een groot openbaar bron met geoptimaliseerde OCR- en taalkundige annotaties voor de overige ongedigitaliseerde negentiende-eeuwse edities van het Patrologia Graeca, waarbij een nieuwe pipeline met YOLO en CRNN een recordlaag foutpercentage voor polytonisch Grieks bereikt.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Deze paper introduceert een componentbewust, zelfrefinerend raamwerk voor het genereren van fotorealistische afbeeldingen uit schetsen, dat via een tweestapsarchitectuur met zelfaandacht-codering en coördinatiebehoudende fusie aanzienlijk betere resultaten boekt dan bestaande GAN- en diffusiemodellen op diverse datasets.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Dit paper introduceert SurgFed, een taalgeleid multi-task federated learning-framework dat de uitdagingen van weefsel- en taakdiversiteit in chirurgische video's aanpakt via taalgestuurde kanaalselectie en hyperaggregatie, wat resulteert in superieure prestaties voor segmentatie en diepteschatten op meerdere datasets.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs