cs.CV papers | Gist.Science

Agentic Very Long Video Understanding

Dit paper introduceert EGAgent, een agentisch raamwerk dat entiteitsscène-graafgebruikt om zeer lange, continue egocentrische video's te analyseren en zo state-of-the-art prestaties te leveren op complexe longitudinale begrijpingsopdrachten.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Dit artikel introduceert MiTA Attention, een efficiënt mechanisme dat de schaalbaarheid van Transformer-attention voor lange sequenties verbetert door een compressie-en-routing-strategie te gebruiken die een breed snel-gewicht MLP reduceert tot smaller deskundigen via een mengsel van top-k geactiveerde sleutel-waardeparen.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

Het artikel introduceert DDP-WM, een efficiënt wereldmodel dat door het ontkoppelen van primaire dynamica en secundaire achtergrondupdates de inferentiesnelheid en prestaties van robotplanning aanzienlijk verbetert ten opzichte van bestaande dichte Transformer-modellen.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Dit paper introduceert Rolling Sink, een trainingsvrije methode die de train-test kloof in autoregressieve videodiffusiemodellen overbrugt door cache-beheer te optimaliseren, waardoor het mogelijk wordt om stabiele en visueel consistente video's van 5 tot 30 minuten te genereren zonder extra training.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Dit paper introduceert een uitlegbare actieve leerframework voor medische beeldanalyse dat een dual-criteria selectiestrategie combineert—onvoorspelbaarheid en afwijking van radioloog-gedefinieerde aandachtspunten—om met een beperkt aantal voorbeelden modellen te trainen die zowel nauwkeurig als klinisch interpreteerbaar zijn.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

Dit artikel introduceert Pailitao-VL, een geavanceerd multi-modaal zoeksysteem voor industriële toepassingen dat door middel van een verschuiving naar absolute ID-herkenning en een geoptimaliseerde lijstwijze herordening, hoge precisie en real-time efficiëntie bereikt in complexe productieomgevingen.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

Deze paper introduceert DeltaGateNet, een nieuw raamwerk dat bidirectionele temporele dynamiek en asymmetrische neurale patronen expliciet modelleert om de robuustheid en generaliseerbaarheid van EEG-gebaseerde herkenning van vermoeidheid tijdens het rijden te verbeteren.

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

Dit paper introduceert EA-Swin, een embeddings-agnostische Swin Transformer die, ondersteund door een nieuw benchmark-dataset van 130.000 video's, AI-genereren video's met aanzienlijk hogere nauwkeurigheid en generalisatievermogen detecteert dan bestaande methoden.

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard is een privacy-bewust, grafgebaseerd transformer-framework dat door middel van verspreidingsadaptieve metrieke learning, ruimtelijk geconditioneerde attention en differentieel-private embedding maps een robuuste en schaalbare oplossing biedt voor de identiteitssuche van personen over stedelijke camera's, waarbij de balans tussen privacy en bruikbaarheid wordt gewaarborgd.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

CARE is een moleculair geleide foundation model voor pathologie dat door middel van adaptieve region modeling en kruismodale uitlijning met RNA- en eiwitprofielen heterogene weefselstructuren in whole slide images effectief analyseert en hiermee met slechts een fractie van de gebruikelijke trainingsdata superieure prestaties levert op diverse diagnostische taken.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

Dit paper introduceert MasqLoRA, het eerste systematische aanvalskader dat een onafhankelijke LoRA-module gebruikt om text-to-image modellen op een onopvallende manier te backdooren door een verborgen cross-modale mapping te injecteren die wordt geactiveerd door een specifieke teksttrigger.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

Dit paper introduceert RobustVisRAG, een causaliteitsbewust dual-path framework dat de robuustheid van vision-based retrieval-augmented generation verbetert onder visuele degradaties door semantiek en vervormingen effectief te scheiden, wat leidt tot aanzienlijke prestatieverbeteringen op het nieuwe Distortion-VisRAG-benchmark.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

Dit paper introduceert LFG, een labelvrij, leraar-gestuurd kader dat autonome rijrepresentaties leert uit ongeposeerde online video's door een voorspellende architectuur te gebruiken die 3D-geometrie, semantiek en beweging combineert, wat resulteert in superieure prestaties bij rijplanning en motion prediction zonder LiDAR of annotaties.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

Diffusion Probe is een model-onafhankelijk raamwerk dat door middel van een lichtgewicht CNN-analyse van vroege cross-attention-verdelingen in diffusion-modellen de uiteindelijke beeldkwaliteit nauwkeurig voorspelt, waardoor rekenkracht wordt bespaard en de efficiëntie van tekst-naar-afbeelding-generatie wordt verbeterd.

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

DiffusionHarmonizer is een online generatief framework dat onvolmaakte neurale reconstructies van autonome robotsimulaties omzet in fotorealistische en temporair consistente output door een enkelstaps diffusieversterker te gebruiken die is getraind op een speciaal samengestelde dataset voor harmonisatie en artefactcorrectie.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

UFO-4D is een unificerend feedforward-framework dat uit slechts twee ongepositioneerde beelden een dichte, expliciete 4D-reconstructie genereert door dynamische 3D-Gaussian Splats te schatten, waardoor geometrie, beweging en camerapositie gelijktijdig en consistent worden bepaald zonder testtijd-optimalisatie.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Dit paper introduceert Dr. Seg, een plug-and-play framework dat de GRPO-training voor visuele grote taalmodellen verbetert door de onjuiste aanname dat taalredeneringsparadigma's direct op visuele perceptie van toepassing zijn, te weerleggen en in te zetten op een bredere outputruimte en fijnkorrelige beloningen.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Dit paper introduceert AlignVAR, een nieuw visueel autoregressief framework voor beeldsuperresolutie dat door middel van ruimtelijke consistentie-autoregressie en hiërarchische consistentiebeperkingen de globale coherentie verbetert en tegelijkertijd een 10x snellere inferentie en bijna 50% minder parameters biedt dan bestaande diffusiemethoden.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

Dit paper introduceert SOLACE, een post-training framework dat tekst-naar-beeldgeneratie verbetert door interne zelfvertrouwenssignalen te gebruiken als beloning, waardoor prestaties in composities, tekstweergave en uitlijning worden verhoogd zonder externe datasets of annotatoren.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

Het paper introduceert Dr. Occ, een nieuw raamwerk voor 3D-bezettingsschatting dat dieptegestuurde en regio-gestuurde transformatoren combineert om geometrische uitlijning en semantische variatie te verbeteren, wat resulteert in een aanzienlijke prestatieverbetering op de Occ3D-nuScenes-benchmark.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

← Vorige Volgende →