cs.CV Arbeiten | Gist.Science

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Die Studie stellt v-HUB vor, ein neues Benchmark für das Verständnis von Videohumor, das zeigt, dass multimodale Sprachmodelle durch die Einbeziehung von Umgebungsgeräuschen ihre Fähigkeit verbessern können, Humor in visuellen Szenarien zu erfassen.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

Das Paper stellt LLaVAShield vor, ein Sicherheitsframework für multimodale Mehrdialoge, das zusammen mit dem MMDS-Datensatz und dem MMRT-Red-Teaming-Ansatz entwickelt wurde, um die Grenzen bestehender Inhaltsmoderation zu überwinden und VLMs effektiver vor komplexen, kontextabhängigen Risiken zu schützen.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun Shen2026-03-11💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Diese Studie überwindet die Datenlücke für den französischen Stadtflächenwandel vor den 1970er-Jahren, indem sie eine skalierbare Deep-Learning-Pipeline mit einem zweistufigen U-Net-Ansatz entwickelt, um aus historischen Karten (1925–1950) erstmals einen flächendeckenden, offenen Datensatz urbaner Strukturen für ganz Frankreich zu erstellen.

Walid Rabehi, Marion Le Texier, Rémi Lemoy2026-03-11💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Die Arbeit stellt mit NavSpace ein neues Benchmark-System zur systematischen Evaluierung der räumlichen Intelligenz von Navigationsagenten vor und führt das überlegene Modell SNav ein, das sowohl auf diesem Benchmark als auch in realen Robotertests neue Maßstäbe setzt.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Die Arbeit stellt das neue Forschungsgebiet der Domänengeneralisierung für LiDAR-basierte semantische Segmentierung unter verrauschten Labels vor, führt einen Benchmark ein und schlägt mit DuNe ein dual-sichtiges Framework vor, das durch konsistente Feature-Lernung und konfidenzbasiertes Filtern robuste Ergebnisse unter Domänenverschiebungen und Labelrauschen erzielt.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Das Paper stellt RECODE vor, einen agentenbasierten Rahmen, der durch das Reverse-Engineering von visuellen Eingaben in ausführbaren Code (Derendering) eine verifizierbare und präzise multimodale Reasoning-Fähigkeit für strukturierte Grafiken wie Diagramme und Schaubilder ermöglicht.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Die vorgestellte Arbeit stellt ein Echtzeit-Neurales-Videokompressions-Framework mit vereinheitlichter Intra- und Inter-Codierung vor, das durch die adaptive Verarbeitung jedes Einzelbildes in einem einzigen Modell sowie eine simultane Zwei-Bild-Kompression Probleme wie Disokklusion und Fehlerfortpflanzung löst und dabei eine signifikant bessere Kompressionseffizienz als DCVC-RT bei gleichzeitiger Wahrung der Echtzeitfähigkeit erreicht.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Die Arbeit stellt FALCON vor, ein neues Paradigma für Vision-Language-Action-Modelle, das durch die Integration von räumlichen Grundwissen aus 3D-Spatial-Foundation-Modellen in den Aktionskopf die Lücke zwischen 2D-Vision und 3D-Aktion schließt und damit in Simulationen sowie realen Umgebungen neue Maßstäbe in Bezug auf Generalisierung und Robustheit setzt.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Diese Studie zeigt, dass die Auswahl eines geeigneten Teilsets von Körpermarkierungen in Kombination mit einer Spline-basierten Imputation die Genauigkeit der Erkennung isolierter Gebärden der brasilianischen Gebärdensprache (LIBRAS) auf das Niveau modernster Methoden hebt und gleichzeitig die Verarbeitungszeit im Vergleich zu früheren Ansätzen um das Fünffache reduziert.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Die Arbeit stellt SynHLMA vor, ein neuartiges Framework, das mithilfe einer diskreten Darstellung und eines sprachbasierten Modells Hand-Manipulationssequenzen für artikulierte Objekte generiert, um natürliche Sprachanweisungen in realistische Greifbewegungen zu übersetzen.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

Die Arbeit stellt FRIDA vor, ein leichtgewichtiges Framework, das Merkmale eines vortrainierten Stable-Diffusion-Modells nutzt, um KI-generierte Bilder ohne Training zu erkennen und deren Ursprungsmodell zuzuordnen.

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Die Arbeit stellt SPAN vor, eine Methode zur monokularen 3D-Objekterkennung, die durch räumliche Punkt- und 3D-2D-Projektionsausrichtung die geometrische Inkonsistenz decoupled-basierter Ansätze behebt und so die Leistung bestehender Detektoren signifikant verbessert.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Das Paper stellt MediRound vor, ein neues Framework mit einem zugehörigen Datensatz (MR-MedSeg) und einem Korrekturmechanismus, das die mehrstufige, entitätsbasierte medizinische Bildsegmentierung durch dialogbasiertes Schlussfolgern ermöglicht und damit bestehende Ein-Runden-Methoden für medizinische Lernszenarien übertrifft.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Die vorgestellte Arbeit führt den modularen, trainingsfreien „Adaptive Diversity Cache" (ADC) ein, der durch die dynamische Ansammlung und Anpassung vielfältiger Merkmalsdarstellungen während der Inferenz die langschwänzige Verzerrung bei der Erkennung von Mensch-Objekt-Interaktionen (HOI) effektiv reduziert und dabei die Leistung seltener Kategorien auf etablierten Datensätzen signifikant verbessert.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Die Arbeit stellt V-Attack vor, eine neue Methode zur gezielten adversarialen Manipulation von Large Vision-Language Models (LVLMs), die durch die Ausnutzung entwirrter Wertmerkmale (Value Features) statt verknüpfter Patch-Tokens eine bisher unerreichte Kontrolle über lokale Bildsemantik ermöglicht und die Angriffserfolgsrate im Vergleich zu bestehenden Methoden um durchschnittlich 36 % steigert.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Die Studie stellt UPA-RFAS vor, ein universelles und übertragbares Angriffsframework für Vision-Language-Action-Modelle, das durch eine physikalische Patch-Attacke in der Lage ist, Roboter unter verschiedenen Architekturen und Umgebungen zu manipulieren, indem es Repräsentationsverschiebungen und spezifische VLA-Schwachstellen ausnutzt.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Das Paper stellt AFRO vor, ein selbstüberwachtes Framework, das durch die Modellierung von Zustands-Aktions-Dynamiken in einem gemeinsamen latenten Raum ohne explizite geometrische Rekonstruktion oder Aktionsüberwachung dynamische Bewusstsein 3D-Repräsentationen lernt und so die Manipulationserfolgsraten von Robotern in simulierten und realen Umgebungen erheblich verbessert.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Diese Arbeit stellt mit AV-CDiT und dem AVW-4k-Datensatz das erste formale Rahmenwerk für audiovisuelle Weltmodelle vor, das synchronisierte binaurale Audio- und Visuelle-Dynamiken unter Aktionskontrolle simuliert und so die Leistung von Agenten bei der Navigation verbessert.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Die Arbeit stellt AVGGT vor, eine trainingsfreie Zwei-Schritt-Strategie, die durch die Umwandlung früher globaler Aufmerksamkeitsschichten in Frame-Attention und ein Subsampling von K/V-Tokens die Inferenzgeschwindigkeit von VGGT und $\pi^3$ um das 2- bis 10-fache steigert, ohne dabei die Genauigkeit in dichten Multi-View-Szenarien zu beeinträchtigen.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Die Arbeit stellt LiM-YOLO vor, einen optimierten Schiffserkennungs-Algorithmus für optische Fernerkundungsbilder, der durch eine Verschiebung der Pyramiden-Ebenen von P3-P5 auf P2-P4 sowie den Einsatz von GN-CBLinear die Detektionsgenauigkeit bei deutlich reduzierter Parameteranzahl und verbesserter Stabilität bei kleinen Schiffen erreicht.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

← Zurück Weiter →