cs.CV papers | Gist.Science

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Dit paper introduceert Penguin-VL, een efficiënt Vision Language Model dat een op tekst-only LLM gebaseerde visuele encoder gebruikt om de beperkingen van traditionele contrastieve pretraining te overwinnen en zo superieure prestaties te behalen in compacte, compute-beperkte scenario's.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Dit paper introduceert SUREON, een groot schaalbaar dataset en twee gespecialiseerde vision-language-modellen die chirurgische redeneervaardigheden verbeteren door gebruik te maken van narraties uit academische video's om vragen over veiligheidsbeoordeling, beslissingsrationalisatie en voorspelling te beantwoorden.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

SCOPE introduceert een plug-and-play framework dat bestaande 3D-segmentatiemethoden verbetert door ongelabelde achtergrondinformatie te benutten voor het verrijken van prototypes, waardoor nieuwe categorieën effectief kunnen worden geleerd met weinig annotaties en zonder vergeten van eerder geleerde kennis.

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

Het paper introduceert BEVLM, een raamwerk dat semantische kennis van grote taalmodellen distilleert naar Bird's-Eye View-representaties om de ruimtelijke coherentie te verbeteren en zo de prestaties van autonoom rijden aanzienlijk te verhogen.

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Omni-Diffusion introduceert het eerste multimodale taalmodel dat volledig is gebaseerd op een gemaskerde discrete diffusie-architectuur en zo het begrijpen en genereren van tekst, spraak en beelden in één unified model verenigt.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Deze studie toont aan dat de schijnbare onderprestatie van Multimodale Grootte Taalmodellen bij beeldclassificatie voornamelijk het gevolg is van gebrekkige evaluatieprotocollen en ruis in de grondwaarheid, en dat het corrigeren van deze factoren de kloof met toezichtmodellen aanzienlijk verkleint.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Motion Illusions Generated Using Predictive Neural Networks Also Fool Humans

Dit paper introduceert het EIGen-model, dat gebruikmaakt van voorspellende neurale netwerken om nieuwe visuele bewegingsillusies te genereren die ook mensen misleiden, en ondersteunt hiermee het idee dat illusies het gevolg zijn van de voorspellende mechanismen van de hersenen in plaats van directe visuele input.

Lana Sinapayen, Eiji Watanabe2026-03-06💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

Dit paper introduceert FEP-Nav, een biologisch geïnspireerd raamwerk dat robots in staat stelt om real-time perceptuele adaptatie te realiseren voor robuuste visuele navigatie onder onzekere omstandigheden door het minimaliseren van variationale vrije energie via een dual-mechanisme van top-down decoding en adaptieve normalisatie.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

In dit artikel wordt InstructHumans gepresenteerd, een innovatief kader voor instructiegedreven tekstuurbewerking van 3D-animaties die gebruikmaakt van een aangepaste SDS-methode (SDS-E) om hoge kwaliteit en consistentie met het origineel te garanderen.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Dit artikel introduceert EasyAnimate, een hoogpresterend videogeneratiekader dat gebruikmaakt van Diffusion Transformers, hybride venster-attention en beloningsbackpropagatie om zowel de snelheid als de kwaliteit van videoproductie te verbeteren.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Motion-Aware Animatable Gaussian Avatars Deblurring

Deze paper introduceert een nieuwe methode voor het direct reconstrueren van scherpe 3D-menselijke Gaussian-avatars uit onscherpe video's door een 3D-bewust, op fysica gebaseerd onscherpheidsmodel te combineren met een menselijk bewegingsmodel.

Muyao Niu, Yifan Zhan, Qingtian Zhu + 5 more2026-03-06💻 cs

Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

Dit paper introduceert TABE, een nieuwe zero-shot pipeline voor amodale videobjectsegmentatie die een getrainde videodiffusiemodel gebruikt om objecten te volgen en te reconstrueren achter verbergingen op basis van een enkele query-masker zonder voorafgaande klasselabels.

Finlay G. C. Hudson, William A. P. Smith2026-03-06💻 cs

Learnable Sparsity for Vision Generative Models

Deze paper introduceert een model-agnostisch, structureel pruning-framework voor diffusiemodellen dat via een leerbaar masker en een nieuwe end-to-end doelstelling tot 20% van de parameters verwijdert zonder hertraining, terwijl tijdstap-gradient checkpointing de hoge geheugeneisen van deze optimalisatie oplost.

Yang Zhang, Er Jin, Wenzhong Liang + 5 more2026-03-06💻 cs

Flatness Guided Test-Time Adaptation for Vision-Language Models

Dit artikel introduceert FGA, een nieuw raamwerk voor testtijd-adaptatie van visueel-taalmodellen dat training en testfases verenigt door gebruik te maken van vlakheidsgeleide prompts en selectie van testvoorbeelden, waardoor de prestaties aanzienlijk worden verbeterd zonder dure parameterupdates tijdens de testtijd.

Aodi Li, Liansheng Zhuang, Xiao Long + 2 more2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Dit artikel introduceert een 3D-dynamische bewust manipulatiewerkwijze die zelftoezichtlerende taken combineert met wereldmodelleren om beleidsmodellen van 3D-vooruitzicht te voorzien, waardoor de prestaties bij dieptegerichte taken aanzienlijk worden verbeterd zonder in te leveren op de inferentiesnelheid.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

Dit paper introduceert MedFuncta, een unificerend framework dat door middel van meta-lering en een gedeelde neurale veldrepresentatie efficiënte schaalbaarheid voor diverse medische datasets mogelijk maakt, terwijl het tegelijkertijd nieuwe inzichten biedt in activatiefuncties en een groot openbaar dataset (MedNF) beschikbaar stelt.

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

Dit paper introduceert RapidPoseTriangulation, een nieuw algoritme dat multi-view multi-persoon whole-body pose-schatting in milliseconden mogelijk maakt met uitstekende generalisatie en openbare beschikbaarheid.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

Dit artikel introduceert Noise2Ghost, een zelftoezichtende diepe leer-methode voor ghost imaging die ongeëvenaarde reconstructiekwaliteit biedt bij ruisige data zonder behoefte aan schone referentiebeelden, waardoor het ideaal is voor toepassingen in lage-lichtscenario's zoals röntgenfluorescentie-imaging van gevoelige biologische en batterijmonsters.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Collaborative Learning of Local 3D Occupancy Prediction and Versatile Global Occupancy Mapping

Dit paper introduceert LMPOcc, een plug-and-play raamwerk dat lokale 3D-occupancy-predictie voor autonoom rijden verbetert door adaptief gebruik te maken van globale prioriteiten uit langetermijngeheugen, terwijl het tegelijkertijd wereldwijde occupancy-kaarten bijwerkt voor schaalbare scenebegrip.

Shanshuai Yuan, Julong Wei, Muer Tie + 3 more2026-03-06💻 cs

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

Dit paper introduceert PhysLLM, een innovatief raamwerk dat Large Language Models combineert met domeinspecifieke rPPG-componenten via strategieën zoals Text Prototype Guidance en Dual-Domain Stationary, om nauwkeurige en robuuste niet-contact fysiologische metingen te realiseren ondanks uitdagingen zoals veranderingen in verlichting en bewegingsartefacten.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

← Vorige Volgende →