cs.CV papers | Gist.Science

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Dit paper introduceert IGAR, een train-vrije methode die de 'taalkundige blindheid' in Vision-Language-Action-modellen oplost door de aandacht tijdens de inferentie te herkalibreren, zodat robots instructies correct volgen zelfs bij tegenstrijdige visuele prikkels.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

Dit paper introduceert RepKAN, een nieuw architectuurconcept dat de structurele efficiëntie van CNNs combineert met de niet-lineaire representatiekracht van KANs om interpreteerbare en superieure prestaties te bereiken bij de classificatie van aardobservatiebeelden.

Minjong Cheon2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

EffectMaker is een unificerend raamwerk dat een multimodaal taalmodel en een diffusiemodel combineert om aangepaste visuele effecten te genereren zonder per-effect fine-tuning, ondersteund door een nieuw, groot synthetisch dataset genaamd EffectData.

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

Deze paper introduceert MOSIV, een nieuw raamwerk dat video's gebruikt om continue materiaaleigenschappen van meerdere objecten tegelijkertijd te identificeren via een differentieerbare simulator en een nieuw synthetisch benchmark, wat aanzienlijk betere resultaten oplevert dan bestaande methoden.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

ViewFusion is een tweestapsframework dat multi-view ruimtelijke redenering verbetert door expliciete kruisbeeldvoorberekening te scheiden van de uiteindelijke vraagbeantwoording, wat leidt tot een significant hogere nauwkeurigheid op MMSI-Bench.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

StruVis is een nieuw framework dat de tekst-naar-beeldgeneratie verbetert door complexe prompts te analyseren via gestructureerde visuele representaties in plaats van tussenliggende afbeeldingen, waardoor het rekenvermogen van multimodale modellen wordt geoptimaliseerd zonder de hoge kosten van bestaande methoden.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

Dit paper introduceert OA-SORT, een trainingsvrij en plug-and-play framework dat door middel van een Occlusion-Aware Module, Occlusion-Aware Offset en Bias-Aware Momentum de prestaties van multi-object tracking verbetert door verwarrende kosten door gedeeltelijke occlusie te verminderen.

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

Dit onderzoek toont aan dat stratified subsampling op hyperkolommen, gecombineerd met ensemble learning, de prestaties van beeldsegmentatie aanzienlijk verbetert, vooral in situaties met zeer weinig trainingsdata waar een eenvoudige logistische regressie de beste resultaten levert.

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

Dit paper introduceert FontUse, een data-gedreven aanpak die een groot, geannoteerd typografiedataset gebruikt om bestaande tekst-naar-beeldmodellen te finetunen, waardoor ze teksten in afbeeldingen consistent kunnen genereren op basis van specifieke lettertypestijlen en gebruiksscenario's.

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Dit paper introduceert GvU, een zelftoezichtend versterkingsleerframework dat de generatiekwaliteit van uniforme multimodale modellen verbetert door gebruik te maken van hun eigen visuele begrijpingscapaciteit als intrinsieke beloning, waardoor de kloof tussen visueel begrijpen en genereren wordt overbrugd.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

GenHOI is een lichtgewicht uitbreiding voor bestaande videomodellen die door middel van tijdelijk gebalanceerde en ruimtelijk selectieve objectinjectie fysiek plausibele en object-consistente hand-object-interacties genereert, zelfs in complexe, onbekende scènes.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Dit paper introduceert Curious-VLA, een tweestapsframework dat de beperkende 'smalle beleid'-problematiek in autonome VLA-modellen aanpakt door middel van Feasible Trajectory Expansion en Adaptive Diversity-Aware Sampling, wat leidt tot state-of-the-art prestaties op de Navsim-benchmark door de exploratiecapaciteit te maximaliseren.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Deze studie analyseert de interne activaties van Vision-Language Models voor autonoom rijden en identificeert twee faalmodi—perceptueel en cognitief—waarbij blijkt dat hoewel objectaanwezigheid lineair gecodeerd is, ruimtelijke concepten zoals oriëntatie slechts impliciet worden vertegenwoordigd en dat prestaties snel verslechteren naarmate objecten verder weg zijn.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Dit paper introduceert TempoSyncDiff, een lichtgewicht latent diffusion-framework dat via kennisdistillatie en tijdsregulatie realistische, stabiele en spraakgestuurde praatkop-generatie mogelijk maakt met een zeer lage latentie, zelfs op randapparatuur.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

Dit artikel presenteert een robuust verwerkingskader dat bestaande omnidirectionele RGB-LiDAR-logbestanden omzet in hoogwaardige initialisatiebestanden voor 3D Gaussian Splatting, waardoor kostenefficiënte en nauwkeurige digitale tweelingen kunnen worden gegenereerd zonder de noodzaak van dure, doelgerichte datacollectie.

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

Dit paper introduceert de nieuwe taak Emotionally Continuous Talking Face Generation (EC-TFG) en het bijbehorende TIE-TFG-model, dat realistische praatende gezichten genereert met vloeiende, tekstgedreven emotionele overgangen in plaats van statische emoties.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Dit artikel introduceert Lyapunov-probes, een methode die hallucinaties in grote taal- en multimodelmodellen detecteert door het probleem te benaderen via stabiliteitstheorie van dynamische systemen, waarbij hallucinaties worden geïdentificeerd als onstabiele gebieden in de representatieruimte.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

In dit paper presenteren de auteurs DeepSight, het eerste multimodale taalmodel dat specifiek is ontworpen om driedimensionale scene-interpretatie te verbeteren door dieptekaarten direct te koppelen aan taal, ondersteund door een nieuw dataset en een aangepaste ViT-encoder.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

Dit paper introduceert een methode voor neurale video-compressie van statische scènes die positieve-incentive ruis gebruikt om tijdelijke variaties te ontkoppelen van de achtergrond, waardoor de bandbreedte met 73% wordt gereduceerd terwijl de pixel-accuraatheid behouden blijft.

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

FedARKS is een nieuw federatief leerframework voor personenheridentificatie dat de generalisatie in onbekende domeinen verbetert door lokale, domein-invariante details te benutten en via robuuste kennisselectie en -integratie bijdragen van hoogwaardige clients te maximaliseren in plaats van te vertrouwen op simpele globale middeling.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

← Vorige Volgende →