cs.CV papers | Gist.Science

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

Dit paper introduceert AutoReg3D, een autoregressieve 3D-objectdetector die LiDAR-detectie omzet in een sequentiële generatietaak zonder ankers of NMS, waardoor training wordt vereenvoudigd en de integratie van geavanceerde taalmodeltechnieken voor 3D-perceptie mogelijk wordt.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

TeamHOI is een framework dat een enkele decentrale policy gebruikt, gebaseerd op een Transformer-architectuur en een gemaskerde Adversarial Motion Prior-strategie, om realistische en schaalbare samenwerking tussen mensachtige robots bij het dragen van objecten mogelijk te maken, ongeacht het aantal teamleden of de vorm van het object.

Stefan Lionar, Gim Hee Lee2026-03-10💻 cs

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

Het paper introduceert AutoTraces, een autoregressief vision-language-trajectmodel dat de redeneercapaciteiten van grote taalmodellen combineert met een innovatieve tokenisatie van trajecten en automatische chain-of-thought-generatie om nauwkeurige en generaliseerbare voorspellingen van menselijke bewegingen in complexe omgevingen te maken.

Teng Wang, Yanting Lu, Ruize Wang2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Dit paper introduceert ViSA, een framework dat Vision-Language Models versterkt met visueel-ruimtelijk redeneren om de beperkingen van bestaande methoden voor navigatie vanuit de lucht te overwinnen en zo de succesratio op de CityNav-benchmark met 70,3% te verbeteren.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Deze paper introduceert het realistische dataset TickTockVQA en het fine-tuning-framework Swap-DPO om de zwakke prestaties van vision-language modellen bij het lezen van analoge klokken in complexe, echte omgevingen aanzienlijk te verbeteren.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

Dit artikel introduceert een dictionary-gestuurd raamwerk dat ontbrekende infraroodbeelden overbrugt door visuele informatie in een coëfficiënt-domein te vertalen en te fusioneren, waardoor interpreteerbare en kwalitatief betere resultaten worden bereikt zonder oncontroleerbare pixelgeneratie.

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

Dit paper introduceert VSDiffusion, een tweestapsframework dat zichtbaarheidsvoorafgaande kennis gebruikt om de ill-geposeerde aard van schaduwgeneratie aan te pakken en zo realistische, geometrisch consistente schaduwen voor ingevoegde objecten te creëren.

Jing Li, Jing Zhang2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

AffordGrasp is een diffusion-gebaseerd framework dat fysiek stabiele en semantisch nauwkeurige menselijke grijpposities genereert door een schaalbaar annotatieproces en een dubbel-conditioneringsproces te integreren om de kloof tussen 3D-objectrepresentaties en tekstuele instructies te overbruggen.

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Deze paper introduceert MambaDance, een nieuwe aanpak voor het genereren van dansbewegingen die een op Mamba gebaseerd diffusiemodel en een Gaussische beat-representatie combineert om langere, ritmisch coherente en muziekgesynchroniseerde dansen te creëren die de beperkingen van bestaande Transformer-methoden overwinnen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Deze paper introduceert een tweestapskaskader dat natuurlijke taal omzet in skeletsequentieën en vervolgens naar realistische video's, waarbij het tekort aan openbare datasets voor complexe menselijke bewegingen oplost met een synthetisch dataset en verbeterde prestaties boekt op zowel bewegingsdiversiteit als tijdsconsistentie.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

Dit paper introduceert QualiTeacher, een nieuw raamwerk dat de kwaliteit van pseudo-labels gebruikt als conditioneel toezichtsignaal om realistische beeldherstelmodellen te trainen die kunstmatige artefacten vermijden en resultaten kunnen genereren die beter zijn dan de oorspronkelijke pseudo-labels.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Dit paper presenteert een robuust multimodaal raamwerk met veilige cross-attention en modality dropout dat de uitdagingen van de 10e ABAW-uitdaging voor expressierecognitie, zoals gedeeltelijke verduistering en ontbrekende modaliteiten, effectief aanpakt en een nauwkeurigheid van 60,79% bereikt op de Aff-Wild2-validatieset.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Speed3R is een nieuw, doeltreffend 3D-reconstructiemodel dat de kwadratische complexiteit van bestaande methoden overwint door een dual-branch-attentiemechanisme te gebruiken dat zich richt op de meest informatieve beeldtokens, waardoor een 12,4-voudige versnelling van de inferentie wordt bereikt met slechts een minimale afname in geometrische nauwkeurigheid.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

Dit paper introduceert "See & Switch", een interactief robot-programmeerframework dat visuele feedback gebruikt om conditionele taakbomen dynamisch te vertakken en afwijkende situaties te detecteren, waardoor robuust en intuïtief leren door demonstratie voor complexe manipulatie taken mogelijk wordt.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Het paper introduceert ImageEdit-R1, een multi-agent framework dat versterkt leren gebruikt om gespecialiseerde agents te coördineren voor het uitvoeren van complexe en contextbewuste beeldbewerkingen die beter presteren dan bestaande monolithische modellen.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Deze paper introduceert een plug-and-play architectuur die Large Vision-Language Models (LVLMs) en een relationele verliesfunctie gebruikt om de nauwkeurigheid van UAV-geolocalisatie door satellietbeelden te verbeteren via expliciete visueel-semantische correlaties.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

Evaluating Generative Models via One-Dimensional Code Distributions

Deze paper introduceert nieuwe, trainingsvrije kwaliteitsmetrieken voor generatieve modellen die werken in de ruimte van discrete visuele tokens in plaats van continue kenmerken, en valideert deze met een uitgebreid benchmarkdataset (VisForm) om een sterkere correlatie met menselijke oordelen te bereiken.

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

Dit paper introduceert een methode om synthetische defectbeelden van hoogspanningsisolatoren te genereren met behulp van multimodale grote taalmodellen, waardoor de prestaties van defectdetectiemodellen aanzienlijk verbeteren in scenario's met beperkte realistische trainingsdata.

Xuesong Wang, Caisheng Wang2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

Het paper introduceert TALON, een adaptief leerframework dat de beperkingen van bestaande hash-gebaseerde methoden voor on-the-fly categorieontdekking overwint door testtijd-adaptatie en semantische prototype-updates te gebruiken, waardoor het model dynamisch nieuwe kennis kan verwerven zonder last te hebben van categorie-explosie.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Dit paper introduceert een nieuwe 'Map-Based AI'-benadering voor object-navigatie die een lokaal, op LoRA gefinetuned Llama-2-model combineert met een hybride topologisch-roosterkaart om semantische zones te infereren en systematische verkenning te optimaliseren, wat leidt tot aanzienlijk betere prestaties dan traditionele reactieve methoden in de AI2-THOR-simulatie.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

← Vorige Volgende →