cs.CV papers | Gist.Science

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Dit paper introduceert SGG-R³, een gestructureerd redeneringskader dat chain-of-thought-gestuurde supervisie en versterkende leer met een groepssequenti-beleid optimalisatie combineert om onbevooroordeelde en complete scene graph generation te realiseren door de uitdagingen van relationele sparsiteit en lange-staartverdelingen aan te pakken.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Dit paper introduceert EcoG-Bench, een diagnostisch benchmark voor egocentrische co-spraakgrounding dat aantoont dat er een groot prestatiekloof bestaat tussen menselijke en modelprestaties, voornamelijk veroorzaakt door beperkingen in multimodale interfaces die de waarneming van temporale uitlijning tussen spraak en gebaren belemmeren.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

Dit artikel introduceert een apparaat-onafhankelijk raamwerk voor het volgen van chirurgische instrumenten in augmented reality, dat door het fuseren van meerdere sensormodi binnen een dynamische scènegrafiek de robuustheid van de navigatie verbetert ondanks frequente obstructies in de operatiekamer.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

Dit paper introduceert AutoReg3D, een autoregressieve 3D-objectdetector die LiDAR-detectie omzet in een sequentiële generatietaak zonder ankers of NMS, waardoor training wordt vereenvoudigd en de integratie van geavanceerde taalmodeltechnieken voor 3D-perceptie mogelijk wordt.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

TeamHOI is een framework dat een enkele decentrale policy gebruikt, gebaseerd op een Transformer-architectuur en een gemaskerde Adversarial Motion Prior-strategie, om realistische en schaalbare samenwerking tussen mensachtige robots bij het dragen van objecten mogelijk te maken, ongeacht het aantal teamleden of de vorm van het object.

Stefan Lionar, Gim Hee Lee2026-03-10💻 cs

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

Het paper introduceert AutoTraces, een autoregressief vision-language-trajectmodel dat de redeneercapaciteiten van grote taalmodellen combineert met een innovatieve tokenisatie van trajecten en automatische chain-of-thought-generatie om nauwkeurige en generaliseerbare voorspellingen van menselijke bewegingen in complexe omgevingen te maken.

Teng Wang, Yanting Lu, Ruize Wang2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Dit paper introduceert ViSA, een framework dat Vision-Language Models versterkt met visueel-ruimtelijk redeneren om de beperkingen van bestaande methoden voor navigatie vanuit de lucht te overwinnen en zo de succesratio op de CityNav-benchmark met 70,3% te verbeteren.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Deze paper introduceert het realistische dataset TickTockVQA en het fine-tuning-framework Swap-DPO om de zwakke prestaties van vision-language modellen bij het lezen van analoge klokken in complexe, echte omgevingen aanzienlijk te verbeteren.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

Dit artikel introduceert een dictionary-gestuurd raamwerk dat ontbrekende infraroodbeelden overbrugt door visuele informatie in een coëfficiënt-domein te vertalen en te fusioneren, waardoor interpreteerbare en kwalitatief betere resultaten worden bereikt zonder oncontroleerbare pixelgeneratie.

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

Dit paper introduceert VSDiffusion, een tweestapsframework dat zichtbaarheidsvoorafgaande kennis gebruikt om de ill-geposeerde aard van schaduwgeneratie aan te pakken en zo realistische, geometrisch consistente schaduwen voor ingevoegde objecten te creëren.

Jing Li, Jing Zhang2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

AffordGrasp is een diffusion-gebaseerd framework dat fysiek stabiele en semantisch nauwkeurige menselijke grijpposities genereert door een schaalbaar annotatieproces en een dubbel-conditioneringsproces te integreren om de kloof tussen 3D-objectrepresentaties en tekstuele instructies te overbruggen.

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Deze paper introduceert MambaDance, een nieuwe aanpak voor het genereren van dansbewegingen die een op Mamba gebaseerd diffusiemodel en een Gaussische beat-representatie combineert om langere, ritmisch coherente en muziekgesynchroniseerde dansen te creëren die de beperkingen van bestaande Transformer-methoden overwinnen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Deze paper introduceert een tweestapskaskader dat natuurlijke taal omzet in skeletsequentieën en vervolgens naar realistische video's, waarbij het tekort aan openbare datasets voor complexe menselijke bewegingen oplost met een synthetisch dataset en verbeterde prestaties boekt op zowel bewegingsdiversiteit als tijdsconsistentie.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

Dit paper introduceert QualiTeacher, een nieuw raamwerk dat de kwaliteit van pseudo-labels gebruikt als conditioneel toezichtsignaal om realistische beeldherstelmodellen te trainen die kunstmatige artefacten vermijden en resultaten kunnen genereren die beter zijn dan de oorspronkelijke pseudo-labels.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Dit paper presenteert een robuust multimodaal raamwerk met veilige cross-attention en modality dropout dat de uitdagingen van de 10e ABAW-uitdaging voor expressierecognitie, zoals gedeeltelijke verduistering en ontbrekende modaliteiten, effectief aanpakt en een nauwkeurigheid van 60,79% bereikt op de Aff-Wild2-validatieset.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Speed3R is een nieuw, doeltreffend 3D-reconstructiemodel dat de kwadratische complexiteit van bestaande methoden overwint door een dual-branch-attentiemechanisme te gebruiken dat zich richt op de meest informatieve beeldtokens, waardoor een 12,4-voudige versnelling van de inferentie wordt bereikt met slechts een minimale afname in geometrische nauwkeurigheid.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

Dit paper introduceert "See & Switch", een interactief robot-programmeerframework dat visuele feedback gebruikt om conditionele taakbomen dynamisch te vertakken en afwijkende situaties te detecteren, waardoor robuust en intuïtief leren door demonstratie voor complexe manipulatie taken mogelijk wordt.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Het paper introduceert ImageEdit-R1, een multi-agent framework dat versterkt leren gebruikt om gespecialiseerde agents te coördineren voor het uitvoeren van complexe en contextbewuste beeldbewerkingen die beter presteren dan bestaande monolithische modellen.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Deze paper introduceert een plug-and-play architectuur die Large Vision-Language Models (LVLMs) en een relationele verliesfunctie gebruikt om de nauwkeurigheid van UAV-geolocalisatie door satellietbeelden te verbeteren via expliciete visueel-semantische correlaties.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

Evaluating Generative Models via One-Dimensional Code Distributions

Deze paper introduceert nieuwe, trainingsvrije kwaliteitsmetrieken voor generatieve modellen die werken in de ruimte van discrete visuele tokens in plaats van continue kenmerken, en valideert deze met een uitgebreid benchmarkdataset (VisForm) om een sterkere correlatie met menselijke oordelen te bereiken.

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs

← Vorige Volgende →

cs.CV

SGG-R3^{\rm 3}3: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation