Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Die Arbeit stellt Graph-of-Mark (GoM) vor, eine neuartige pixelbasierte visuelle Prompting-Technik, die durch das Überlagern von Szenengraphen auf Eingabebilder die räumliche Schlussfolgerung multimodaler Sprachmodelle signifikant verbessert und dabei die Genauigkeit bei Null-Shot-Aufgaben um bis zu 11 Prozentpunkte steigert.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Diese Arbeit stellt ein systemweites Inferenz-Optimierungskonzept für DiT-basierte Videogenerierungsmodelle vor, das durch die Einführung einer sequenzparallelen Variante der kausalen Rotary-Positional-Embeddings (Causal-RoPE SP) sowie durch Operator-Fusion und Vorberechnung den Speicherbedarf und die Latenz drastisch reduziert und damit Echtzeit-Anwendungen ermöglicht.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Die Studie zeigt, dass Chain-of-Thought-Prompting bei medizinischen visuellen Fragestellungen häufig schlechter abschneidet als direkte Antworten, da ein medizinischer Wahrnehmungsengpass die visuelle Verankerung schwächt, was durch trainingsfreie Eingriffe wie „Perception Anchoring" und „Description Grounding" effektiv behoben werden kann.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Die Arbeit stellt SJD-PV vor, ein trainingsfreies Beschleunigungsframework für autoregressive Bildgenerierung, das durch die phrasenweise Verifikation häufig zusammen auftretender visueller Tokens die Inferenzgeschwindigkeit um bis zu 30 % steigert, ohne die Bildqualität zu beeinträchtigen.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Die Studie stellt eine unüberwachte CNN-Autoencoder-Methode mit einem neuartigen, gewichteten spektralen Winkelabstands-Verlust vor, um hyperspektrale ATR-μFTIR-Bilder von historischen Ölgemälde-Querschnitten, wie denen des Genter Altars, automatisch und objektiv in ihre spektralen Endmember und deren räumliche Verteilung zu zerlegen.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Das Paper stellt ECHO vor, ein Multi-Agenten-Framework, das durch die iterative Verfeinerung einer gemeinsamen Multimedia-Ereignis-Hypergraph-Struktur und eine Link-then-Bind-Strategie die Fehlerfortpflanzung bei der multimodalen Ereignisextraktion reduziert und damit den aktuellen Stand der Technik deutlich übertrifft.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Diese Studie stellt einen innovativen 3D-Bildgebungsansatz vor, der Structure-from-Motion-Techniken und mobile Endgeräte nutzt, um aus Videos von Aggregat-Deponien eine dreidimensionale Rekonstruktion zu erstellen und einzelne Körner zu segmentieren, um so deren Größe und Form für die Vor-Ort-Qualitätssicherung in der Straßenbauindustrie zu analysieren.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Die Arbeit stellt TimeSpot vor, einen Benchmark mit 1.455 Bildern aus 80 Ländern, der zeigt, dass aktuelle Vision-Language-Modelle bei der rein visuellen Inferenz von geografischen und zeitlichen Merkmalen sowie bei der räumlich-zeitlichen Schlussfolgerung in realen Szenarien erhebliche Defizite aufweisen.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Das Paper stellt "Narrative Weaver" vor, ein neuartiges Framework, das durch die Integration eines multimodalen Sprachmodells für die narrative Planung und eines dynamischen Speichers für die visuelle Konsistenz erstmals eine kontrollierte, langstreckige und multimodal gesteuerte Generierung von visuellen Inhalten ermöglicht, wobei gleichzeitig ein neues Benchmark-Dataset für E-Commerce-Werbung veröffentlicht wird.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Diese Arbeit stellt ein neuartiges, unüberwachtes Lernverfahren vor, das durch den Einsatz von Faltungsfiltern und neuronalen Netzen mit optimierter Frühstopp-Strategie auch bei stark verrauschten Daten eine hochauflösende Rekonstruktion von Strahlhalo-Strukturen in Teilchenbeschleunigern ermöglicht, ohne dass Trainingsdatensätze erforderlich sind.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Diese Studie untersucht die Anpassungsfähigkeit des Geospatial-Foundation-Modells TerraMind an hyperspektrale Downstream-Aufgaben ohne spezifisches Vor-Training, zeigt zwar moderate Erfolge durch Bandselektion, unterstreicht jedoch die überlegene Leistung nativer hyperspektraler Modelle und begründet damit die Notwendigkeit zukünftiger Architekturen mit spektraler Tokenisierung.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs