cs.CV papers | Gist.Science

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Dit paper introduceert FlashCache, een frequentiedomein-gestuurde compressiemethode voor multimodale KV-cache die uitbijterparen behoudt om de inferentie-efficiëntie van multimodale grote taalmodellen aanzienlijk te verbeteren zonder prestatieverlies.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

Dit artikel introduceert MambaTAD, een nieuw end-to-end model voor tijdsgebonden actie-detectie dat Structured State-Space-modellen combineert met een diagonaal-gemaskeerde bidirectionele module en een globale feature-fusiehead om de beperkingen van bestaande methoden bij het detecteren van langdurige acties in ongesneden video's effectief aan te pakken.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

De auteurs presenteren ObAct, een innovatief raamwerk voor actieve visuele imitatielearning waarbij een waarnemende arm dynamisch de beste camerapositie kiest via 3D-Gaussian Splatting om een uitvoerende arm te helpen, wat resulteert in aanzienlijk robuustere robotbeheersing in vergelijking met statische camera-opstellingen.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar verbetert de reconstructie van monolere 3D-hoofd-avatars door een UV-adaptief zacht bindingskader en een tijdsgebonden dichtheidscontrolestrategie te introduceren, wat leidt tot superieure resultaten bij het vastleggen van fijne details en het reconstrueren van vaak verduisterde gebieden.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

Dit paper introduceert RadarVLM, een vision-language framework dat via gestructureerde ruimtelijke taal-supervisie en een nieuwe SG-CLIP-objective een verenigde representatie voor radarscènes leert, wat leidt tot aanzienlijke verbeteringen in ruimtelijke redenering en segmentatieprestaties vergeleken met bestaande methoden.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

PowerCLIP is een nieuw contrastief voortrainingsframework dat middels efficiënte niet-lineaire aggregatoren de exponentiële complexiteit van powerset-uitlijning overwint om compositiese semantics tussen meerdere beeldregio's en tekst te optimaliseren, wat leidt tot superieure zero-shot prestaties.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Dit paper introduceert DPAC, een methode voor diffusie-sampling die de adversariele gradiënten projecteert op de raakruimte van de generatieve score om zo de distributie te behouden en de kwaliteit van de gegenereerde beelden te maximaliseren zonder de aanvalsprestaties te verstoren.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Dit artikel introduceert een eerlijkheidsbewuste Low-Rank Adaptatie-methode voor visueel-taalmodellen die de diagnostische ongelijkheid bij glaucoomdiagnose aanzienlijk vermindert door middel van een differentieerbare MaxAccGap-verliesfunctie, terwijl slechts 0,24% van de parameters wordt getraind.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

Dit paper introduceert UniComp, een nieuw videocompressieframework dat de reconstructiefout minimaliseert door informatie-uniekheid te benutten voor semantische framegroepering, adaptieve resource-toewijzing en dynamische ruimtelijke compressie.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

Deze paper introduceert NeuralRemaster, een model-onafhankelijke methode die de fase van beelden behoudt tijdens het diffuusieproces om structureel consistente en ruimtelijk uitgelijnde generaties mogelijk te maken voor taken zoals herrendering en simulatie-naar-realiteit verbetering.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Deze paper introduceert TAP, een nieuw framework dat Large Language Models en evolutionaire zoekstrategieën combineert om zonder training of menselijke tussenkomst automatisch superieure proxies voor Mixed-Precision Quantization te ontdekken.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Dit artikel introduceert de EgoCampus-dataset en het bijbehorende EgoCampusNet-model, die gebruikmaken van Meta's Project Aria-brillen om oogbewegingen van voetgangers in realistische buitenomgevingen te analyseren en te voorspellen.

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Dit artikel introduceert DriverGaze360, een groot dataset met 360-graden blikrichtingdata van bestuurders en de bijbehorende DriverGaze360-Net-methode, die samen een state-of-the-art oplossing bieden voor het voorspellen van bestuurdersaandacht in een volledig omnidirectioneel rijomgeving.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

Dit paper introduceert ViRC, een framework dat multimodale wiskundige redenering verbetert door het menselijke probleemoplossingsproces na te bootsen via 'Reason Chunking' in kritieke redeneereenheden, ondersteund door het CRUX-dataset en een progressieve trainingsstrategie die leidt tot een aanzienlijke prestatieverbetering van het ViRC-7B-model.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

Dit artikel introduceert FluenceFormer, een transformer-gebaseerd framework dat via een twee-trapsontwerp en een fysiek geïnformeerde verliesfunctie nauwkeurige en fysisch realiseerbare fluëntiekaarten genereert voor geautomatiseerde radiotherapieplanning.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Deze paper introduceert de EPD-Solver, een nieuwe ODE-oplosser die de hoge latentie van diffusiemodellen verlaagt door parallelle gradientberekeningen en een tweestaps-optimatieframework met reinforcement learning te gebruiken om de beeldkwaliteit bij snelle generatie te behouden.

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Dit artikel introduceert PhyGDPO, een framework dat gebruikmaakt van een fysiek bewust groepswijze directe voorkeursoptimalisatie en een geautomatiseerd data-construktieproces om tekst-naar-video-generatie modellen te trainen die fysieke wetten nauwkeuriger volgen dan bestaande methoden.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

Het paper introduceert MorphAny3D, een trainingsvrij kader dat gebruikmaakt van gestructureerde latentrepresentaties en nieuwe attention-mechanismen om hoogwaardige, semantisch consistente en temporale gladde 3D-morphing te genereren, zelfs voor uitdagingen zoals cross-categorie-overgangen.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Het paper introduceert EmboTeam, een raamwerk dat de redeneercapaciteiten van grote taalmodellen combineert met formele planning en gedragsbomen om heterogene robotteams in staat te stellen complexe langdurige taken in huishoudelijke omgevingen succesvol en reactief uit te voeren.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Deze studie toont aan dat huidige multimodale foundation modellen moeite hebben om contextueel belangrijke momenten in voetbalvideo's te herkennen, omdat ze vaak te veel vertrouwen op één dominante modality in plaats van informatie uit meerdere bronnen effectief te synthetiseren.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

← Vorige Volgende →