SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Die Arbeit stellt SJD-PV vor, ein trainingsfreies Beschleunigungsframework für autoregressive Bildgenerierung, das durch die phrasenweise Verifikation häufig zusammen auftretender visueller Tokens die Inferenzgeschwindigkeit um bis zu 30 % steigert, ohne die Bildqualität zu beeinträchtigen.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Die Studie stellt eine unüberwachte CNN-Autoencoder-Methode mit einem neuartigen, gewichteten spektralen Winkelabstands-Verlust vor, um hyperspektrale ATR-μFTIR-Bilder von historischen Ölgemälde-Querschnitten, wie denen des Genter Altars, automatisch und objektiv in ihre spektralen Endmember und deren räumliche Verteilung zu zerlegen.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Das Paper stellt ECHO vor, ein Multi-Agenten-Framework, das durch die iterative Verfeinerung einer gemeinsamen Multimedia-Ereignis-Hypergraph-Struktur und eine Link-then-Bind-Strategie die Fehlerfortpflanzung bei der multimodalen Ereignisextraktion reduziert und damit den aktuellen Stand der Technik deutlich übertrifft.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Diese Studie stellt einen innovativen 3D-Bildgebungsansatz vor, der Structure-from-Motion-Techniken und mobile Endgeräte nutzt, um aus Videos von Aggregat-Deponien eine dreidimensionale Rekonstruktion zu erstellen und einzelne Körner zu segmentieren, um so deren Größe und Form für die Vor-Ort-Qualitätssicherung in der Straßenbauindustrie zu analysieren.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Die Arbeit stellt TimeSpot vor, einen Benchmark mit 1.455 Bildern aus 80 Ländern, der zeigt, dass aktuelle Vision-Language-Modelle bei der rein visuellen Inferenz von geografischen und zeitlichen Merkmalen sowie bei der räumlich-zeitlichen Schlussfolgerung in realen Szenarien erhebliche Defizite aufweisen.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Das Paper stellt "Narrative Weaver" vor, ein neuartiges Framework, das durch die Integration eines multimodalen Sprachmodells für die narrative Planung und eines dynamischen Speichers für die visuelle Konsistenz erstmals eine kontrollierte, langstreckige und multimodal gesteuerte Generierung von visuellen Inhalten ermöglicht, wobei gleichzeitig ein neues Benchmark-Dataset für E-Commerce-Werbung veröffentlicht wird.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Diese Arbeit stellt ein neuartiges, unüberwachtes Lernverfahren vor, das durch den Einsatz von Faltungsfiltern und neuronalen Netzen mit optimierter Frühstopp-Strategie auch bei stark verrauschten Daten eine hochauflösende Rekonstruktion von Strahlhalo-Strukturen in Teilchenbeschleunigern ermöglicht, ohne dass Trainingsdatensätze erforderlich sind.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Diese Studie untersucht die Anpassungsfähigkeit des Geospatial-Foundation-Modells TerraMind an hyperspektrale Downstream-Aufgaben ohne spezifisches Vor-Training, zeigt zwar moderate Erfolge durch Bandselektion, unterstreicht jedoch die überlegene Leistung nativer hyperspektraler Modelle und begründet damit die Notwendigkeit zukünftiger Architekturen mit spektraler Tokenisierung.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

Soft Equivariance Regularization for Invariant Self-Supervised Learning

Die Arbeit stellt „Soft Equivariance Regularization" (SER) vor, einen effizienten Regularisierer, der durch die Entkopplung von Invarianz und Äquivarianz auf verschiedenen Netzwerkschichten die Repräsentationsqualität für Selbstüberwachtes Lernen verbessert, ohne dabei zusätzliche Vorhersageköpfe zu benötigen oder die Trainingskosten signifikant zu erhöhen.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

Die Studie stellt HARP vor, ein tiefes Lern-Framework zur Harmonisierung von in-vivo-Diffusions-MRT-Daten verschiedener Standorte, das ausschließlich auf einem leicht transportablen Phantom trainiert wird und somit den Bedarf an aufwendigen, multi-sitigen menschlichen Kohorten eliminiert.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Die Studie stellt eine Methode vor, bei der durch die Einführung spezieller Blick-Tokens, die menschliche Augenbewegungen nachahmen, Vision-Language-Modelle für medizinische Bildanalyse optimiert werden, was zu verbesserten Ergebnissen sowohl im Trainingsbereich als auch bei der Generalisierung auf neue Datensätze führt.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs