ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Dieser Bericht stellt den ICDAR-2025-Wettbewerb zur End-to-End-Übersetzung von Dokumentenbildern mit komplexen Layouts vor, bei dem 69 Teams zwei Tracks (OCR-frei und OCR-basiert) für kleine und große Modelle bestritten haben, wobei die Ergebnisse zeigen, dass große Modelle einen vielversprechenden neuen Paradigmenwechsel für diese Aufgabe darstellen.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

Die Arbeit stellt RiO-DETR vor, den ersten Echtzeit-Transformer für die Detektion orientierter Objekte, der durch innovative Ansätze wie content-gesteuerte Winkelabschätzung, entkoppelte periodische Verfeinerung und dichte O2O-Überwachung die Herausforderungen der Winkelperiodizität und des erweiterten Suchraums überwindet, um einen neuen Kompromiss zwischen Geschwindigkeit und Genauigkeit zu erreichen.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Die Arbeit stellt PromptDLA vor, ein domainspezifisches Prompting-Framework für die Dokumentenlayoutanalyse, das deskriptives Wissen nutzt, um Domänenwissen effektiv zu integrieren und so durch maßgeschneiderte Prompts die Generalisierungsfähigkeit über verschiedene Datensätze hinweg zu verbessern und state-of-the-art-Ergebnisse zu erzielen.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

Das Paper stellt GIIM vor, einen neuartigen graphbasierten Ansatz für die computergestützte medizinische Diagnose, der durch die gleichzeitige Modellierung von Abhängigkeiten innerhalb und zwischen verschiedenen Bildansichten sowie durch die robuste Handhabung unvollständiger Daten die Diagnosegenauigkeit und -zuverlässigkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Die Studie stellt OncoAgent vor, ein neuartiges, guideline-bewusstes KI-Framework, das klinische Leitlinien ohne Neutrainieren direkt in dreidimensionale Zielvolumen für die Strahlentherapie umwandelt und dabei in einer blinden klinischen Bewertung von Ärzten eine höhere Leitlinienkonformität sowie Akzeptanz als ein überwachtes nnU-Net-Modell erreicht.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Das Paper stellt EvoDriveVLA vor, ein neuartiges Framework zur kollaborativen Destillation von Wahrnehmung und Planung, das durch selbstverankerte visuelle Einschränkungen und oracle-gesteuerte Trajektorienoptimierung die Stabilität und Leistung von autonomen Fahrzeugen in Vision-Language-Action-Modellen verbessert.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

Das Papier stellt TopoOR vor, ein neuartiges Paradigma, das chirurgische Umgebungen durch eine höherordentliche topologische Repräsentation modelliert, um komplexe multimodale Beziehungen und geometrische Strukturen besser zu erhalten als bestehende Szenengraphen und so die Genauigkeit bei sicherheitskritischen Aufgaben wie der Sterilitätsverletzungserkennung und der Robotikphasenvorhersage zu verbessern.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Die Studie stellt das Patrologia Graeca Corpus vor, eine groß angelegte, offene Ressource mit OCR- und linguistischen Annotationen für die verbleibenden und nicht digitalisierten Bände der Patrologia Graeca, die durch eine spezialisierte Pipeline mit einem außergewöhnlich niedrigen Fehlerwert von 1,05 % für polytonisches Griechisch erschlossen wurde.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Das Paper stellt PruneSID vor, einen trainingsfreien Ansatz zur effizienten Kompression von Vision-Token in Vision-Language-Modellen, der durch eine synergistische Kombination aus semantischer Clustering und intra-gruppalem Non-Maximum-Suppression sowie einer dynamischen Kompressionsrate einen neuen State-of-the-Art bei gleichzeitiger drastischer Beschleunigung und minimalem Genauigkeitsverlust erreicht.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Die vorgestellte Arbeit stellt einen neuartigen, komponentenbewussten Zwei-Stufen-Rahmen zur Umwandlung von Skizzen in fotorealistische Bilder vor, der durch die Kombination eines selbstaufmerksamkeitsbasierten Autoencoders, einer koordinatenbewahrenden Gated-Fusion und einer räumlich adaptiven Verfeinerung die Bildqualität und semantische Genauigkeit gegenüber bestehenden GAN- und Diffusionsmodellen signifikant verbessert.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Die vorgestellte Arbeit stellt „Diagonal Distillation" vor, eine effiziente Methode zur Echtzeit-Streaming-Videogenerierung, die durch eine asymmetrische Schrittstrategie und die explizite Berücksichtigung temporaler Abhängigkeiten die Latenz drastisch reduziert und gleichzeitig die Bewegungskohärenz sowie die Fehlerakkumulation in langen Sequenzen verbessert.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Evolving Prompt Adaptation for Vision-Language Models

Das Paper stellt EvoPrompt vor, ein neuartiges Framework für Vision-Language-Modelle, das durch einen modality-geteilten Prompt-Projektor, eine evolutionäre Trainingsstrategie zur Entkopplung von Richtungs- und Magnituden-Updates sowie eine geometrische Feature-Regularisierung eine stabile Anpassung an Downstream-Aufgaben mit wenigen gelabelten Daten ermöglicht, ohne dabei das vorgelernte Wissen zu vergessen.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li2026-03-11🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Die Arbeit stellt SurgFed vor, ein sprachgesteuertes Multi-Task-Federated-Learning-Framework, das durch sprachgesteuerte Kanal-Auswahl und Hyper-Aggregation die Herausforderungen der Gewebe- und Aufgabenvielfalt bei der chirurgischen Videoanalyse über verschiedene Standorte hinweg löst und damit die Segmentierung und Tiefenschätzung in roboterassistierten minimal-invasiven Eingriffen verbessert.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs