Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Diese Arbeit stellt das diagnostische Benchmark ICBench vor, um das Phänomen der „linguistischen Blindheit" in Vision-Language-Action-Modellen aufzudecken, und schlägt mit IGAR eine trainingsfreie Methode zur Nachkalibrierung der Aufmerksamkeit vor, die die Zuverlässigkeit bei widersprüchlichen Sprachanweisungen ohne Architekturänderungen wiederherstellt.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

Das Paper stellt EffectMaker vor, ein einheitliches Rahmenwerk, das multimodale Sprachmodelle für semantisches Reasoning und Diffusion-Transformer für visuelles In-Context-Learning kombiniert, um maßgeschneiderte visuelle Effekte ohne effektspezifisches Fine-Tuning zu erzeugen, unterstützt durch den neu erstellten, großen Datensatz EffectData.

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

Die Arbeit stellt MOSIV vor, ein neues Framework zur Identifizierung kontinuierlicher Materialparameter mehrerer Objekte aus Videos durch einen differenzierbaren Simulator, das auf einem neu vorgestellten synthetischen Benchmark signifikant bessere Ergebnisse als bestehende Methoden erzielt.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

Die Arbeit stellt StruVis vor, ein generator-unabhängiges Framework, das die textbasierte Bildgenerierung durch den Einsatz strukturierter visueller Repräsentationen als Zwischenschritte im Denkprozess verbessert und so die Leistung von MLLMs bei komplexen Prompt-Interpretationen ohne hohe Rechenkosten steigert.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

Diese Arbeit adressiert die Rechenkomplexität von Hypercolumns in der Bildsegmentierung durch stratifiziertes Subsampling und Ensemble-Learning und zeigt, dass insbesondere bei extrem kleinen Datensätzen (N ≤ 20) ein einfacher logischer Regressions-Classifier mit einer signifikant besseren Dice-Score-Leistung als ein UNet-Baseline übertrifft.

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Die Arbeit stellt GvU vor, einen selbstüberwachten Reinforcement-Learning-Ansatz, der die intrinsische Verständnisfähigkeit einheitlicher multimodaler Modelle nutzt, um durch token-level Belohnungssignale die Bildgenerierung zu verbessern und so die Lücke zwischen visuellem Verständnis und Generierung zu schließen.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Das Paper stellt GenHOI vor, eine leichte Erweiterung für vortrainierte Videogenerierungsmodelle, die durch eine zeitlich ausgewogene und räumlich selektive Objektinjektion physikalisch plausible und objektkonsistente Hand-Objekt-Interaktionen in komplexen, realen Szenen ermöglicht.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Die Arbeit stellt Curious-VLA vor, ein zweistufiges Framework, das durch Feasible Trajectory Expansion und Adaptive Diversity-Aware Sampling die Exploration in autonomen VLA-Modellen verbessert und so auf dem Navsim-Benchmark neue State-of-the-Art-Ergebnisse erzielt.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Diese Studie analysiert die inneren Aktivierungen von leichten Vision-Language-Modellen für den autonomen Fahrverkehr, um festzustellen, dass visuelle Konzepte wie Objektpräsenz linear kodiert sind, während räumliche Eigenschaften oft nur implizit vorliegen, und identifiziert dabei zwei Hauptfehlermodi: eine wahrgenommene Unfähigkeit, visuelle Informationen zu erfassen, sowie eine kognitive Unfähigkeit, diese mit Sprachsemantik korrekt abzugleichen.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Die Arbeit stellt TempoSyncDiff vor, einen effizienten, auf Wissenstransfer basierenden Latent-Diffusionsrahmen für audiogetriebene sprechende Köpfe, der durch Few-Step-Inferenz, Identitätsanker und zeitliche Regularisierung eine niedrige Latenz bei gleichzeitiger Verbesserung der temporalen Stabilität und Synchronisation ermöglicht.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

Die Arbeit stellt eine neue Aufgabe namens „Emotionally Continuous Talking Face Generation" (EC-TFG) und ein entsprechendes Modell (TIE-TFG) vor, die es ermöglichen, realistische sprechende Gesichter zu erzeugen, deren Mimik sich kontinuierlich und fließend an dynamische emotionale Veränderungen im Text anpasst.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Diese Arbeit stellt „Lyapunov Probes" vor, eine Methode zur Erkennung von Halluzinationen in großen Sprach- und multimodalen Modellen, die das Problem durch die Stabilitätstheorie dynamischer Systeme neu fasst und stabile Faktenbereiche von instabilen Halluzinationszonen mittels perturbationsbasierter Überwachungsnetzwerke unterscheidet.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

Das Paper stellt FedARKS vor, ein neues Framework für das föderierte Lernen zur Personenwiedererkennung, das durch die Auswahl robuster und diskriminierender lokaler Merkmale sowie eine gewichtete Aggregation die Generalisierungsfähigkeit in unsichtbaren Domänen verbessert und die Grenzen bestehender Methoden überwindet.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs