cs.CV papers | Gist.Science

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Deze paper introduceert FootMR, een methode die de nauwkeurigheid van 3D-voetbeweging in markerloze monoscopische menselijke bewegingsherstel verbetert door 2D-voetkeypoints te verfijnen met behulp van bestaande motion capture-data, en introduceert bovendien het MOOF-dataset voor evaluatie.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Dit paper introduceert AutoViVQA, een groot automatisch gegenereerd dataset voor Vietnamese visuele vraagbeantwoording, en onderzoekt transformer-architecturen en geautomatiseerde evaluatiemetrics in een meertalige context.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Het artikel introduceert DRIFT, een transformer-model dat door middel van een dubbel-pad architectuur lokale en globale context uit 4D-radar-puntenwolkdata fuseert om de prestaties bij objectdetectie en vrije-rijbaan-schatting voor autonoom rijden aanzienlijk te verbeteren.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Deze paper introduceert TemporalDoRA, een parameter-efficiënte fijnafstemmingsmethode die tijdsbewuste Multi-Head Attention in het low-rank bottleneck van een visuele encoder integreert om de robuustheid en prestaties van chirurgische video-VQA-systemen, getest op het nieuwe REAL-Colon-VQA-dataset, aanzienlijk te verbeteren.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Dit artikel introduceert TriFusion-SR, een golflet-gestuurd conditioneel diffusieframework dat medische beeldfusie en superresolutie voor drie modaliteiten gelijktijdig uitvoert door frequentiebewuste interactie en adaptieve ruimtelijk-frequentie fusie, wat leidt tot significante verbeteringen in beeldkwaliteit en diagnoseondersteuning.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

Dit paper introduceert ProGS, een nieuwe codec die 3D Gaussian Splatting-data via een octree-structuur en wederzijdse informatieversterking comprimeert, waardoor een 45-voudige verkleining van opslagruimte wordt bereikt met een verbeterde visuele kwaliteit en ondersteuning voor progressieve codering.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

In dit artikel wordt GSStream gepresenteerd, een nieuw volumetrisch streaming-systeem voor 3D Gaussian Splatting dat collaboratieve viewportvoorspelling en deep reinforcement learning combineert om de hoge bandbreedte-eisen van real-time 3D-scènes efficiënt op te lossen en zo superieure beeldkwaliteit en netwerknuttigheid te bereiken.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

Het artikel introduceert FrameDiT, een nieuw video-generatiemodel dat Matrix Attention gebruikt om de efficiëntie van lokale factoren en de kwaliteitsvolle ruimtetijd-coherentie van volledige 3D-attentie te combineren, wat leidt tot state-of-the-art resultaten.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Dit paper introduceert EXPLORE-Bench, een benchmark voor het evalueren van het vermogen van multimodale grote taalmodellen tot lang-horizon redenering in egocentrische omgevingen, en toont aan dat deze modellen significant achterblijven bij menselijke prestaties ondanks verbeteringen door stapsgewijze redenering.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

FetalAgents is het eerste multi-agent systeem dat door middel van een lichtgewicht coördinatieframework gespecialiseerde visuele experts dynamisch coördineert om een robuuste, end-to-end oplossing te bieden voor analyse, meting en rapportage van foetale echografiebeelden en -video's.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Dit paper introduceert $M^2$ -Occ, een robuust framework voor 3D semantische bezettingsvoorspelling dat onvolledige meercamera-invoer verwerkt door het herstel van ontbrekende weergaven en het gebruik van een geheugenmodule voor semantische consistentie, wat leidt tot aanzienlijk betere prestaties bij camera-uitval zonder in te leveren op volledige weergaven.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Dit paper introduceert SACA, een nieuw raamwerk voor Vision-Language Navigation in continue omgevingen dat stap-voor-stap contrastieve uitlijning toepast om de beperkingen van bestaande trainingsparadigma's te overwinnen en zo state-of-the-art prestaties te bereiken.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Deze paper introduceert ENIGMA-360, een nieuw dataset met gesynchroniseerde egocentrische en exocentrische video's uit een echte industriële omgeving, die is gelabeld voor het bestuderen van menselijk gedrag en het evalueren van bestaande modellen voor taken zoals tijdelijke actiesegmentatie en mens-object-interactie.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Dit paper introduceert LAP, een taalbewust planningsmodel dat visuele waarnemingen vertaalt naar tekstbeschrijvingen om de ambiguïteit in instructievideo's te overwinnen en zo nieuwe state-of-the-art resultaten te behalen voor het plannen van acties.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser is een trainingsvrije methode die meertalige logo's genereert en styliseert door doeltekens als afbeeldingen in te voeren en via letterbewuste attentiecontrole de karakterstructuur te behouden.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Dit artikel introduceert PanoAffordanceNet, een nieuw end-to-end framework en bijbehorend dataset (360-AGD) voor holistische affordance-grounding in 360°-interieurs, dat uitdagingen zoals geometrische vervorming en semantische dispersie aanpakt om de waarneming voor embodied agents te verbeteren.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

Deze paper introduceert Ego, een efficiënte methode voor het personaliseren van vision-language modellen door interne attention-mechanismen te gebruiken om visuele tokens als conceptgeheugen te extraheren, waardoor geavanceerde aanpassing mogelijk is zonder extra trainingsfasen of externe modules.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Dit paper toont aan dat bestaande verdedigingen tegen backdoors ontoereikend zijn omdat ze zich uitsluitend op de invoer-trigger richten, terwijl alternatieve triggers dezelfde kwetsbaarheid in de feature-ruimte kunnen activeren, wat een verschuiving vereist naar verdedigingen die zich richten op de backdoor-richting in de representatieruimte.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Deze paper toont aan dat mainstream XAI-methoden vaak vergeten dat neurale netwerken ook geactiveerd worden door het ontbreken van concepten, en stelt twee eenvoudige uitbreidingen voor om deze 'gecodeerde afwezigheden' in beeld te brengen en te gebruiken voor betere uitleg en debiasing.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Deze paper introduceert DCPGN, een nieuwe methode voor testtijd-adaptatie die via multi-label prototypen en dual-clue consistentie (visueel en tekstueel) modellen getraind op egocentrische beelden aanpast aan exocentrische beelden voor actie-anticipatie zonder extra trainingsdata.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

← Vorige Volgende →

cs.CV