cs.CV papers | Gist.Science

VLCE: A Knowledge-Enhanced Framework for Image Description in Disaster Assessment

Het paper introduceert VLCE, een kennisverrijkt raamwerk dat ConceptNet en WordNet integreert om generieke visueel-taalmodellen te verbeteren bij het genereren van actievere en domeinspecifieke beschrijvingen van rampenbeelden, wat resulteert in een aanzienlijke prestatieverbetering op benchmarks zoals xBD en RescueNet.

Md. Mahfuzur Rahman, Kishor Datta Gupta, Marufa Kamal + 5 more2026-03-11🤖 cs.LG

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Deze paper introduceert een onbewaakte methode om de latente coderings- en decoderingsrichtingen in diepe visuele netwerken te herstellen, waardoor concepten van invloed onthuld kunnen worden voor betere interpretatie, foutopsporing en ingrepen in het model.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios Zarpalas2026-03-11💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Dit artikel introduceert VSSFlow, een verenigd flow-matching framework dat video-geconditioneerde geluids- en spraakgeneratie succesvol combineert door middel van een ontward condition-aggregatiemechanisme binnen een Diffusion Transformer-architectuur.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Dit paper introduceert v-HUB, een nieuw benchmark voor het begrijpen van videohumor dat de beperkingen van multimodale modellen blootlegt en aantoont dat het integreren van geluid de prestaties verbetert.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

Dit paper introduceert LLaVAShield, een veiligheidsframework dat multimodale multi-turn dialogen in Vision-Language Models beschermt door een nieuw dataset en een geautomatiseerd red-teaming-framework te ontwikkelen, waarmee het aanzienlijk beter presteert dan bestaande modulatietools.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun Shen2026-03-11💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Deze studie presenteert een schaalbaar deep learning-pipeline die voor het eerst een landelijk digitaal dataset van stedelijke oppervlakken in Frankrijk uit de periode 1925-1950 genereert door middel van een innovatieve tweestaps U-Net-methode die historische kaarten analyseert om de uitbreiding van steden voor de jaren 70 kwantitatief te onderzoeken.

Walid Rabehi, Marion Le Texier, Rémi Lemoy2026-03-11💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Dit paper introduceert NavSpace, een benchmark voor het evalueren van ruimtelijke intelligentie in navigatieagenten, en presenteert SNav, een nieuw model dat op deze benchmark en met echte robots superieure prestaties levert.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Deze paper introduceert het nieuwe taakgebied DGLSS-NL voor LiDAR-segmentatie met onvolmaakte labels, presenteert een eerste benchmark en stelt DuNe voor, een dubbelzicht-architectuur die de prestaties aanzienlijk verbetert door consistentie tussen sterke en zwakke weergaven te forceren en vertrouwen-gebaseerde filtering toe te passen.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Het paper introduceert RECODE, een agentisch framework dat multimodale redenering verbetert door visuele elementen zoals grafieken en diagrammen om te zetten in verifieerbare uitvoerbare code via een proces van afbeelding naar code en terug.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Deze paper introduceert een real-time neurale videocompressieframework dat intra- en intercodering verenigt binnen één model en een simultane tweeframe-compressie toepast om de compressie-efficiëntie aanzienlijk te verbeteren ten opzichte van bestaande methoden zoals DCVC-RT, terwijl het bovendien problemen met disocclusie en foutpropagatie oplost.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Dit paper introduceert FALCON, een nieuw paradigma dat rijke 3D-ruimtelijke tokens afgeleid van RGB-beelden injecteert in de actiehead van Vision-Language-Action-modellen om de ruimtelijke redenering te verbeteren en state-of-the-art prestaties te bereiken in zowel simulatie als real-world taken.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Dit artikel toont aan dat een zorgvuldig geselecteerd subset van lichaamslandmarken, gecombineerd met spline-gebaseerde imputatie, de herkenning van geïsoleerde LIBRAS-gebaren niet alleen even accuraat maakt als geavanceerde methoden, maar ook meer dan vijf keer sneller verwerkt.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Dit paper introduceert SynHLMA, een nieuw raamwerk dat natuurlijke taalinstructies omzet in realistische handbewegingen voor het manipuleren van gearticuleerde objecten door middel van een discrete interactierepresentatie en een taalmodel, wat leidt tot superieure prestaties in het genereren, voorspellen en interpoleren van grijpsequenties voor toepassingen in robotica en virtuele realiteit.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

Dit paper introduceert FRIDA, een lichtgewicht raamwerk dat vooraf getrainde Stable Diffusion-features gebruikt om AI-genereren afbeeldingen zowel te detecteren als de bronmodel te attribueren, zelfs bij onbekende generatoren en met beperkte data.

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Dit paper introduceert SPAN, een methode die de geometrische consistentie en prestaties van monokulaire 3D-objectdetectie verbetert door decoupled regressie aan te vullen met ruimtelijke projectie-uitlijning en hiërarchisch taakleren.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Dit paper introduceert MediRound, een model en dataset voor multi-rond medische segmentatie met entiteitsgebaseerd redenering, dat foutenpropagatie aanpakt en beter presteert dan bestaande methoden in medische educatieve scenario's.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Deze paper introduceert de Adaptive Diversity Cache (ADC), een trainingsvrije en plug-and-play module die de langstaartbias in mens-objectinteractie-detectie vermindert door tijdens de inferentie adaptieve, diverse kenmerken op te slaan, waardoor zeldzame interacties op de HICO-DET en V-COCO-datasets aanzienlijk worden verbeterd zonder extra rekencapaciteit.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Deze paper introduceert V-Attack, een nieuwe methode die de vaak verwaarloosde 'value features' in transformer-modellen target om semantisch verstrengelde beeldrepresentaties te omzeilen en zo nauwkeurig beheersbare adversariële aanvallen op Large Vision-Language Models mogelijk te maken.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Dit artikel introduceert UPA-RFAS, een uniek raamwerk voor universele en overdraagbare adversariële patch-aanvallen op Vision-Language-Action-modellen die effectief zijn over verschillende architecturen, taken en fysieke uitvoeringen heen.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Dit paper introduceert AFRO, een zelftoezichtend framework dat dynamische 3D-voorstellingen leert door generatieve diffusie en omgekeerde dynamica te combineren, waardoor robuustere robotmanipulatie wordt bereikt zonder expliciete reconstructie- of actielabels.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

← Vorige Volgende →