RiO-DETR: DETR for Real-time Oriented Object Detection

Die Arbeit stellt RiO-DETR vor, den ersten Echtzeit-Transformer für die Detektion orientierter Objekte, der durch innovative Ansätze wie content-gesteuerte Winkelabschätzung, entkoppelte periodische Verfeinerung und dichte O2O-Überwachung die Herausforderungen der Winkelperiodizität und des erweiterten Suchraums überwindet, um einen neuen Kompromiss zwischen Geschwindigkeit und Genauigkeit zu erreichen.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

First Steps towards Categorical Algebraic Artificial Chemistry

Dieser Artikel stellt einen Funktor vor, der einem algebraischen Modell interagierender Komponenten eine Dynamik verleiht und dabei das künstliche Leben-Modell AlChemy von Fontana und Buss verallgemeinert, um die Verbindung zwischen algebraischen und dynamischen Aspekten mittels Kategorientheorie zu formalisieren.

Joe Pratt-Johns (Edinburgh Napier University), Toby St. Clere Smithe (Kodamai Ltd), Chris Guiver (Edinburgh Napier University), Kevin Hughes (Edinburgh Napier University), Peter Andras (Edinburgh Napier University)2026-03-11💻 cs

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

Das Paper stellt GIIM vor, einen neuartigen graphbasierten Ansatz für die computergestützte medizinische Diagnose, der durch die gleichzeitige Modellierung von Abhängigkeiten innerhalb und zwischen verschiedenen Bildansichten sowie durch die robuste Handhabung unvollständiger Daten die Diagnosegenauigkeit und -zuverlässigkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

ShapeMark: Robust and Diversity-Preserving Watermarking for Diffusion Models

Die Arbeit stellt ShapeMark vor, eine robuste und diversitätserhaltende Wasserzeichenmethode für Diffusionsmodelle, die durch die Kodierung von Wasserzeichenbits in strukturierte Rauschmuster anstelle einzelner Werte sowie durch eine spezielle Randomisierung die Nachteile bestehender Ansätze überwindet und gleichzeitig hohe Stabilität gegenüber Verlusten sowie eine hohe Bildqualität gewährleistet.

Yuqi Qian, Yun Cao, Haocheng Fu, Meiyang Lv, Meineng Zhu2026-03-11💻 cs

SEA-Nav: Efficient Policy Learning for Safe and Agile Quadruped Navigation in Cluttered Environments

Das Papier stellt SEA-Nav vor, einen Reinforcement-Learning-Rahmen für vierbeinige Roboter, der durch differentiable Barrieren-Funktionen, adaptive Replay-Mechanismen und kinematische Constraints eine sichere und agile Navigation in dicht bepackten Umgebungen mit nur wenigen Minuten Trainingszeit in der realen Welt ermöglicht.

Shiyi Chen, Mingye Yang, Haiyan Mao, Jiaqi Zhang, Haiyi Liu, Shuheng He, Debing Zhang, Zihao Qiu, Chun Zhang2026-03-11💻 cs

TopoOR: A Unified Topological Scene Representation for the Operating Room

Das Papier stellt TopoOR vor, ein neuartiges Paradigma, das chirurgische Umgebungen durch eine höherordentliche topologische Repräsentation modelliert, um komplexe multimodale Beziehungen und geometrische Strukturen besser zu erhalten als bestehende Szenengraphen und so die Genauigkeit bei sicherheitskritischen Aufgaben wie der Sterilitätsverletzungserkennung und der Robotikphasenvorhersage zu verbessern.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

Experience Report on the Adaptable Integration of Requirements Engineering Courses into Curricula for Professionals

Dieser Erfahrungsbericht beschreibt die systematische Integration von Anforderungen an die Requirements-Engineering-Lehrinhalte in dynamische Software-Engineering-Lehrpläne für Berufstätige und leitet dabei grundlegende Prinzipien sowie einen Ansatz zur curricularen Abbildung ab.

Oleksandr Kosenkov, Konstantin Blaschke, Tony Gorschek, Michael Unterkalmsteiner, Oleksandr Adamov, Davide Fucci2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Die Studie stellt das Patrologia Graeca Corpus vor, eine groß angelegte, offene Ressource mit OCR- und linguistischen Annotationen für die verbleibenden und nicht digitalisierten Bände der Patrologia Graeca, die durch eine spezialisierte Pipeline mit einem außergewöhnlich niedrigen Fehlerwert von 1,05 % für polytonisches Griechisch erschlossen wurde.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Die Arbeit stellt MORE-R1 vor, ein neues Modell, das Large Vision-Language Models durch einen zweistufigen Trainingsprozess mit überwachtem Feinabstimmen und verstärkendem Lernen für eine schrittweise, transparente und skalierbare multimodale Extraktion von Objekt-Entitäts-Beziehungen optimiert.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong Mo2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Das Paper stellt PruneSID vor, einen trainingsfreien Ansatz zur effizienten Kompression von Vision-Token in Vision-Language-Modellen, der durch eine synergistische Kombination aus semantischer Clustering und intra-gruppalem Non-Maximum-Suppression sowie einer dynamischen Kompressionsrate einen neuen State-of-the-Art bei gleichzeitiger drastischer Beschleunigung und minimalem Genauigkeitsverlust erreicht.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Die Arbeit stellt StyleVLA vor, ein physikinformiertes Vision-Language-Action-Modell auf Basis von Qwen3-VL-4B, das durch einen hybriden Verlust und einen umfangreichen Datensatz mit 1,2k Szenarien diverse, physikalisch plausible Fahrmanöver in verschiedenen Fahrstilen generiert und dabei proprietäre Modelle wie Gemini-3-Pro deutlich übertrifft.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Die vorgestellte Arbeit stellt einen neuartigen, komponentenbewussten Zwei-Stufen-Rahmen zur Umwandlung von Skizzen in fotorealistische Bilder vor, der durch die Kombination eines selbstaufmerksamkeitsbasierten Autoencoders, einer koordinatenbewahrenden Gated-Fusion und einer räumlich adaptiven Verfeinerung die Bildqualität und semantische Genauigkeit gegenüber bestehenden GAN- und Diffusionsmodellen signifikant verbessert.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Die vorgestellte Arbeit stellt „Diagonal Distillation" vor, eine effiziente Methode zur Echtzeit-Streaming-Videogenerierung, die durch eine asymmetrische Schrittstrategie und die explizite Berücksichtigung temporaler Abhängigkeiten die Latenz drastisch reduziert und gleichzeitig die Bewegungskohärenz sowie die Fehlerakkumulation in langen Sequenzen verbessert.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs