Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

Die Studie stellt EPPINN vor, einen evidenzbasierten physikinformierten neuronalen Netzwerk-Ansatz zur zuverlässigen und unsicherheitsbewussten Schätzung von Perfusionsparametern in der CT-Perfusionsbildgebung bei Schlaganfällen, der durch die Modellierung von physikalischen Restfehlern mittels Normal-Inverse-Gamma-Verteilungen sowohl die Genauigkeit als auch die Zuverlässigkeit der Diagnose verbessert.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung ChoiWed, 11 Ma💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Die Arbeit stellt M3GCLR vor, ein spieltheoretisches kontrastives Lernframework für die skelettbasierte Aktionserkennung, das durch die Modellierung einer unendlichen Skelettdaten-Spieltheorie, adversarische Multi-View-Augmentierung und einen dualen Verlust-Optimierer die Grenzen bestehender selbstüberwachter Methoden überwindet und state-of-the-art-Ergebnisse auf gängigen Datensätzen erzielt.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

Die Arbeit stellt EventVGGT vor, ein neuartiges Framework, das durch die erstmalige distillation von räumlich-zeitlichen und multi-view geometrischen Priors aus dem Visual Geometry Grounded Transformer (VGGT) in den Event-Bereich eine konsistente und präzise ereignisbasierte Tiefenschätzung ermöglicht, indem es die inhärente zeitliche Kontinuität von Event-Daten explizit modelliert.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui XiongWed, 11 Ma💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Dieser Bericht stellt den ICDAR-2025-Wettbewerb zur End-to-End-Übersetzung von Dokumentenbildern mit komplexen Layouts vor, bei dem 69 Teams zwei Tracks (OCR-frei und OCR-basiert) für kleine und große Modelle bestritten haben, wobei die Ergebnisse zeigen, dass große Modelle einen vielversprechenden neuen Paradigmenwechsel für diese Aufgabe darstellen.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

Die Arbeit stellt RiO-DETR vor, den ersten Echtzeit-Transformer für die Detektion orientierter Objekte, der durch innovative Ansätze wie content-gesteuerte Winkelabschätzung, entkoppelte periodische Verfeinerung und dichte O2O-Überwachung die Herausforderungen der Winkelperiodizität und des erweiterten Suchraums überwindet, um einen neuen Kompromiss zwischen Geschwindigkeit und Genauigkeit zu erreichen.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan SunWed, 11 Ma💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Die Arbeit stellt PromptDLA vor, ein domainspezifisches Prompting-Framework für die Dokumentenlayoutanalyse, das deskriptives Wissen nutzt, um Domänenwissen effektiv zu integrieren und so durch maßgeschneiderte Prompts die Generalisierungsfähigkeit über verschiedene Datensätze hinweg zu verbessern und state-of-the-art-Ergebnisse zu erzielen.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

Das Paper stellt GIIM vor, einen neuartigen graphbasierten Ansatz für die computergestützte medizinische Diagnose, der durch die gleichzeitige Modellierung von Abhängigkeiten innerhalb und zwischen verschiedenen Bildansichten sowie durch die robuste Handhabung unvollständiger Daten die Diagnosegenauigkeit und -zuverlässigkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven TruongWed, 11 Ma💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Die Studie stellt OncoAgent vor, ein neuartiges, guideline-bewusstes KI-Framework, das klinische Leitlinien ohne Neutrainieren direkt in dreidimensionale Zielvolumen für die Strahlentherapie umwandelt und dabei in einer blinden klinischen Bewertung von Ärzten eine höhere Leitlinienkonformität sowie Akzeptanz als ein überwachtes nnU-Net-Modell erreicht.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung KimWed, 11 Ma🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Das Paper stellt EvoDriveVLA vor, ein neuartiges Framework zur kollaborativen Destillation von Wahrnehmung und Planung, das durch selbstverankerte visuelle Einschränkungen und oracle-gesteuerte Trajektorienoptimierung die Stabilität und Leistung von autonomen Fahrzeugen in Vision-Language-Action-Modellen verbessert.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang ZhangWed, 11 Ma🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

Das Papier stellt TopoOR vor, ein neuartiges Paradigma, das chirurgische Umgebungen durch eine höherordentliche topologische Repräsentation modelliert, um komplexe multimodale Beziehungen und geometrische Strukturen besser zu erhalten als bestehende Szenengraphen und so die Genauigkeit bei sicherheitskritischen Aufgaben wie der Sterilitätsverletzungserkennung und der Robotikphasenvorhersage zu verbessern.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart BastianWed, 11 Ma💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Die Studie stellt das Patrologia Graeca Corpus vor, eine groß angelegte, offene Ressource mit OCR- und linguistischen Annotationen für die verbleibenden und nicht digitalisierten Bände der Patrologia Graeca, die durch eine spezialisierte Pipeline mit einem außergewöhnlich niedrigen Fehlerwert von 1,05 % für polytonisches Griechisch erschlossen wurde.

Chahan Vidal-Gorène (CJM, LIPN), Bastien KindtWed, 11 Ma💻 cs