cs.CV Arbeiten | Gist.Science

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Diese Arbeit stellt das diagnostische Benchmark ICBench vor, um das Phänomen der „linguistischen Blindheit" in Vision-Language-Action-Modellen aufzudecken, und schlägt mit IGAR eine trainingsfreie Methode zur Nachkalibrierung der Aufmerksamkeit vor, die die Zuverlässigkeit bei widersprüchlichen Sprachanweisungen ohne Architekturänderungen wiederherstellt.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

Die Arbeit stellt RepKAN vor, eine neuartige Architektur, die die strukturelle Effizienz von CNNs mit der nichtlinearen Repräsentationskraft von KANs kombiniert, um für die Fernerkundungsbildklassifizierung sowohl überlegene Leistung als auch physikalisch interpretierbare Erkenntnisse zu erzielen.

Minjong Cheon2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

Das Paper stellt EffectMaker vor, ein einheitliches Rahmenwerk, das multimodale Sprachmodelle für semantisches Reasoning und Diffusion-Transformer für visuelles In-Context-Learning kombiniert, um maßgeschneiderte visuelle Effekte ohne effektspezifisches Fine-Tuning zu erzeugen, unterstützt durch den neu erstellten, großen Datensatz EffectData.

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

Die Arbeit stellt MOSIV vor, ein neues Framework zur Identifizierung kontinuierlicher Materialparameter mehrerer Objekte aus Videos durch einen differenzierbaren Simulator, das auf einem neu vorgestellten synthetischen Benchmark signifikant bessere Ergebnisse als bestehende Methoden erzielt.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Die Arbeit stellt ViewFusion vor, ein zweistufiges Framework, das durch explizite räumliche Vorverarbeitung und verstärktes Lernen die Leistung von Vision-Language-Modellen bei der mehransichtigen räumlichen Schlussfolgerung signifikant verbessert.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

Die Arbeit stellt StruVis vor, ein generator-unabhängiges Framework, das die textbasierte Bildgenerierung durch den Einsatz strukturierter visueller Repräsentationen als Zwischenschritte im Denkprozess verbessert und so die Leistung von MLLMs bei komplexen Prompt-Interpretationen ohne hohe Rechenkosten steigert.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

Die Arbeit stellt Occlusion-Aware SORT (OA-SORT) vor, ein trainingsfreies Plug-and-Play-Framework, das durch die Analyse von Okklusionszuständen und die Anwendung spezifischer Module wie OAM, OAO und BAM die Robustheit und Genauigkeit des Multi-Object-Trackings in Szenen mit Verdeckungen signifikant verbessert.

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

Diese Arbeit adressiert die Rechenkomplexität von Hypercolumns in der Bildsegmentierung durch stratifiziertes Subsampling und Ensemble-Learning und zeigt, dass insbesondere bei extrem kleinen Datensätzen (N ≤ 20) ein einfacher logischer Regressions-Classifier mit einer signifikant besseren Dice-Score-Leistung als ein UNet-Baseline übertrifft.

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

Die Arbeit stellt FontUse vor, einen datenzentrierten Ansatz, der durch eine annotierte Datensammlung von 70.000 Bildern mit stil- und anwendungsspezifischen Prompts die Kontrolle über die Typografie in Text-zu-Bild-Modellen verbessert, ohne deren Architektur zu verändern.

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Die Arbeit stellt GvU vor, einen selbstüberwachten Reinforcement-Learning-Ansatz, der die intrinsische Verständnisfähigkeit einheitlicher multimodaler Modelle nutzt, um durch token-level Belohnungssignale die Bildgenerierung zu verbessern und so die Lücke zwischen visuellem Verständnis und Generierung zu schließen.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Das Paper stellt GenHOI vor, eine leichte Erweiterung für vortrainierte Videogenerierungsmodelle, die durch eine zeitlich ausgewogene und räumlich selektive Objektinjektion physikalisch plausible und objektkonsistente Hand-Objekt-Interaktionen in komplexen, realen Szenen ermöglicht.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Die Arbeit stellt Curious-VLA vor, ein zweistufiges Framework, das durch Feasible Trajectory Expansion und Adaptive Diversity-Aware Sampling die Exploration in autonomen VLA-Modellen verbessert und so auf dem Navsim-Benchmark neue State-of-the-Art-Ergebnisse erzielt.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Diese Studie analysiert die inneren Aktivierungen von leichten Vision-Language-Modellen für den autonomen Fahrverkehr, um festzustellen, dass visuelle Konzepte wie Objektpräsenz linear kodiert sind, während räumliche Eigenschaften oft nur implizit vorliegen, und identifiziert dabei zwei Hauptfehlermodi: eine wahrgenommene Unfähigkeit, visuelle Informationen zu erfassen, sowie eine kognitive Unfähigkeit, diese mit Sprachsemantik korrekt abzugleichen.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Die Arbeit stellt TempoSyncDiff vor, einen effizienten, auf Wissenstransfer basierenden Latent-Diffusionsrahmen für audiogetriebene sprechende Köpfe, der durch Few-Step-Inferenz, Identitätsanker und zeitliche Regularisierung eine niedrige Latenz bei gleichzeitiger Verbesserung der temporalen Stabilität und Synchronisation ermöglicht.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

Diese Arbeit stellt eine Pipeline vor, die archivierte omnidirektionale RGB-LiDAR-Daten durch eine Kombination aus ERP-zu-Würfelkarte-Konvertierung, strategischem Downsampling und multi-modaler Registrierung in robuste Initialisierungsdaten für 3D-Gaussian-Splatting umwandelt, um kostengünstig hochwertige digitale Zwillinge zu erstellen.

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

Die Arbeit stellt eine neue Aufgabe namens „Emotionally Continuous Talking Face Generation" (EC-TFG) und ein entsprechendes Modell (TIE-TFG) vor, die es ermöglichen, realistische sprechende Gesichter zu erzeugen, deren Mimik sich kontinuierlich und fließend an dynamische emotionale Veränderungen im Text anpasst.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Diese Arbeit stellt „Lyapunov Probes" vor, eine Methode zur Erkennung von Halluzinationen in großen Sprach- und multimodalen Modellen, die das Problem durch die Stabilitätstheorie dynamischer Systeme neu fasst und stabile Faktenbereiche von instabilen Halluzinationszonen mittels perturbationsbasierter Überwachungsnetzwerke unterscheidet.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

Die Arbeit stellt DeepSight vor, das erste multimodale Sprachmodell, das speziell für das Verständnis von 3D-Szenen entwickelt wurde, indem es Tiefenkarten direkt mit Sprache verknüpft, neue Datensätze erstellt und den ViT-Encoder von CLIP modifiziert, um die räumliche Wahrnehmung und Leistung in nachgelagerten Aufgaben erheblich zu verbessern.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

Der vorgestellte Ansatz verbessert die neuronale Videokompression für statische Szenen durch die Einbeziehung von positiv-incentiviertem Rauschen, das kurzfristige Änderungen von persistenten Hintergründen trennt, um bei gleichbleibender Pixelgenauigkeit eine signifikante Bandbreitenreduktion zu erreichen.

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

Das Paper stellt FedARKS vor, ein neues Framework für das föderierte Lernen zur Personenwiedererkennung, das durch die Auswahl robuster und diskriminierender lokaler Merkmale sowie eine gewichtete Aggregation die Generalisierungsfähigkeit in unsichtbaren Domänen verbessert und die Grenzen bestehender Methoden überwindet.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

← Zurück Weiter →