cs.CV papers | Gist.Science

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

Dit paper introduceert ProGS, een nieuwe codec die 3D Gaussian Splatting-data via een octree-structuur en wederzijdse informatieversterking comprimeert, waardoor een 45-voudige verkleining van opslagruimte wordt bereikt met een verbeterde visuele kwaliteit en ondersteuning voor progressieve codering.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

In dit artikel wordt GSStream gepresenteerd, een nieuw volumetrisch streaming-systeem voor 3D Gaussian Splatting dat collaboratieve viewportvoorspelling en deep reinforcement learning combineert om de hoge bandbreedte-eisen van real-time 3D-scènes efficiënt op te lossen en zo superieure beeldkwaliteit en netwerknuttigheid te bereiken.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

Het artikel introduceert FrameDiT, een nieuw video-generatiemodel dat Matrix Attention gebruikt om de efficiëntie van lokale factoren en de kwaliteitsvolle ruimtetijd-coherentie van volledige 3D-attentie te combineren, wat leidt tot state-of-the-art resultaten.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Dit paper introduceert EXPLORE-Bench, een benchmark voor het evalueren van het vermogen van multimodale grote taalmodellen tot lang-horizon redenering in egocentrische omgevingen, en toont aan dat deze modellen significant achterblijven bij menselijke prestaties ondanks verbeteringen door stapsgewijze redenering.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

FetalAgents is het eerste multi-agent systeem dat door middel van een lichtgewicht coördinatieframework gespecialiseerde visuele experts dynamisch coördineert om een robuuste, end-to-end oplossing te bieden voor analyse, meting en rapportage van foetale echografiebeelden en -video's.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Dit paper introduceert $M^2$ -Occ, een robuust framework voor 3D semantische bezettingsvoorspelling dat onvolledige meercamera-invoer verwerkt door het herstel van ontbrekende weergaven en het gebruik van een geheugenmodule voor semantische consistentie, wat leidt tot aanzienlijk betere prestaties bij camera-uitval zonder in te leveren op volledige weergaven.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Dit paper introduceert SACA, een nieuw raamwerk voor Vision-Language Navigation in continue omgevingen dat stap-voor-stap contrastieve uitlijning toepast om de beperkingen van bestaande trainingsparadigma's te overwinnen en zo state-of-the-art prestaties te bereiken.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Deze paper introduceert ENIGMA-360, een nieuw dataset met gesynchroniseerde egocentrische en exocentrische video's uit een echte industriële omgeving, die is gelabeld voor het bestuderen van menselijk gedrag en het evalueren van bestaande modellen voor taken zoals tijdelijke actiesegmentatie en mens-object-interactie.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Dit paper introduceert LAP, een taalbewust planningsmodel dat visuele waarnemingen vertaalt naar tekstbeschrijvingen om de ambiguïteit in instructievideo's te overwinnen en zo nieuwe state-of-the-art resultaten te behalen voor het plannen van acties.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser is een trainingsvrije methode die meertalige logo's genereert en styliseert door doeltekens als afbeeldingen in te voeren en via letterbewuste attentiecontrole de karakterstructuur te behouden.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Dit artikel introduceert PanoAffordanceNet, een nieuw end-to-end framework en bijbehorend dataset (360-AGD) voor holistische affordance-grounding in 360°-interieurs, dat uitdagingen zoals geometrische vervorming en semantische dispersie aanpakt om de waarneming voor embodied agents te verbeteren.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

Deze paper introduceert Ego, een efficiënte methode voor het personaliseren van vision-language modellen door interne attention-mechanismen te gebruiken om visuele tokens als conceptgeheugen te extraheren, waardoor geavanceerde aanpassing mogelijk is zonder extra trainingsfasen of externe modules.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Dit paper toont aan dat bestaande verdedigingen tegen backdoors ontoereikend zijn omdat ze zich uitsluitend op de invoer-trigger richten, terwijl alternatieve triggers dezelfde kwetsbaarheid in de feature-ruimte kunnen activeren, wat een verschuiving vereist naar verdedigingen die zich richten op de backdoor-richting in de representatieruimte.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Deze paper toont aan dat mainstream XAI-methoden vaak vergeten dat neurale netwerken ook geactiveerd worden door het ontbreken van concepten, en stelt twee eenvoudige uitbreidingen voor om deze 'gecodeerde afwezigheden' in beeld te brengen en te gebruiken voor betere uitleg en debiasing.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Deze paper introduceert DCPGN, een nieuwe methode voor testtijd-adaptatie die via multi-label prototypen en dual-clue consistentie (visueel en tekstueel) modellen getraind op egocentrische beelden aanpast aan exocentrische beelden voor actie-anticipatie zonder extra trainingsdata.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Deze paper introduceert de fine-grained Audio-Visual Learning-taak RA-SSU, ondersteund door twee nieuwe datasets (f-Music en f-Lifescene) en het SSUFormer-model, om gebiedsgerichte, frame-per-frame geluidsbronsegmentatie en -beschrijving te bereiken.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl is een vertrouwenbewust video-interpolatiekader dat diffusiemodellen in staat stelt om bij grote perspectiefveranderingen nieuwe weergaven te genereren met behulp van een Kalman-geïnspireerd mechanisme dat betrouwbare projecties combineert met residucorrecties voor geometrisch consistente resultaten.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Dit paper introduceert BrainSTR, een raamwerk voor spatio-temporeel contrastief leren dat dynamische hersennetwerken interpreteerbaar modelleert door data-gedreven fase-indeling, aandacht voor diagnostisch kritieke momenten en een gestructureerde semantische ruimte te combineren voor een betere neuropsychiatrische diagnose.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Deze paper introduceert VLM-Loc, een raamwerk dat grote visueel-taalmodellen gebruikt voor nauwkeurige tekst-naar-puntwolk-locatiebepaling door puntwolken om te zetten in vogelvluchtafbeeldingen en sceneschema's, en presenteert het CityLoc-benchmark voor uitgebreide evaluatie.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Dit paper introduceert MA-EgoQA, een nieuw benchmark en probleemdefinitie voor het beantwoorden van vragen op basis van gelijktijdig opgenomen egocentrische video's van meerdere embodied agents, en presenteert het EgoMAS-basismodel om de huidige tekortkomingen in systeemniveau-interpretatie te adresseren.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

← Vorige Volgende →

cs.CV