cs.CV papers | Gist.Science

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

PhysDrape is een hybride neurale-fysische solver die door het integreren van een differentieerbare krachtenoplosser en een projectie voor botsingsbeperkingen, realistische kledingdrapering mogelijk maakt met minimale interpenetratie en een lage vervormingsenergie.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

FlowAdapt is een parameter-efficiënt raamwerk dat optimale transporttheorie toepast om de prestaties van V2X-collaboratieve perceptie over verschillende domeinen te verbeteren door inter-frame redundantie te filteren en semantische degradatie tijdens de aanpassing te voorkomen.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Dit paper introduceert SToRM, een supervisie-gedreven raamwerk voor tokenreductie in multimodale LLM's dat de rekenefficiëntie van end-to-end autonoom rijden met tot 30x verbetert terwijl de prestaties van het gebruik van alle tokens behouden blijven.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Het artikel introduceert 3DMedAgent, een unificerend agent-systeem dat bestaande 2D-multimodale grote taalmodellen in staat stelt om complexe 3D-CT-scans stapsgewijs te analyseren door middel van toolgebruik en gestructureerd geheugen, zonder dat specifieke 3D-finetuning vereist is.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Dit artikel toont aan dat architecturen die equivariante operatoren in een latente ruimte leren, effectief kunnen worden ingezet voor robuuste objectherkenning bij zeldzame transformaties, maar waarschuwt ook voor de uitdagingen bij het schalen naar complexere datasets.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Dit paper introduceert OVerSeeC, een zero-shot modulair framework dat natuurlijke taal en satellietbeelden combineert om open-vocabulary kostenkaarten voor autonome navigatie te genereren door entiteiten te interpreteren, te lokaliseren en te synthetiseren.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Deze paper introduceert een nieuw onderzoeksgebied genaamd Open-Vocabulary Domain Generalization in Semantic Segmentation (OVDG-SS) voor autonome driving, inclusief een benchmark en een nieuwe methode (S2-Corr) die de robuustheid van segmentatiemodellen verbetert in onbekende omgevingen en voor onbekende objectcategorieën door tekst-beeld correlaties te verfijnen.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

UniMatch is een semantisch bewust, grof-naar-fijn framework dat door middel van taalgeleiding en contrastief leren dichte semantische correspondenties tussen sterk niet-isometrische 3D-vormen van willekeurige objectcategorieën tot stand brengt zonder vooraf gedefinieerde deelvoorstellen.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

InfScene-SR is een nieuwe diffusion-gebaseerde methode die willekeurige beeldgroottes super-resolutie mogelijk maakt door middel van een iteratief gezamenlijk ontdeningsproces met Variance-Corrected Fusion en Spatially-Decoupled Variance Correction, waardoor naadloze overgangen worden gegarandeerd en de rekencomplexiteit drastisch wordt verlaagd.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Deze paper introduceert een plug-and-play methode voor data-efficiënte monokulaire 3D-objectdetectie die trainingdata optimaliseert door objecten, scènes en cameraposities online te ontleden en opnieuw te combineren, waardoor overfitting wordt tegengegaan en de prestaties op diverse datasets aanzienlijk worden verbeterd.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Deze paper introduceert een cyclus-consistente afstemmingsframework dat grote diffusiemodellen gebruikt om logo's en hun achtergronden effectief te ontkoppelen door wederzijdse reconstructie en progressieve zelfverbetering.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Dit paper introduceert een trainingsvrij, plug-and-play raamwerk genaamd 'See It, Say It, Sorted' dat visuele hallucinaties in multimodale redenering van LVLMs aanpakt door elke redeneerstap dynamisch te valideren met visueel bewijs, wat leidt tot aanzienlijke verbeteringen in nauwkeurigheid en een reductie van hallucinaties zonder extra training.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Deze paper introduceert een nieuwe, verenigde aanpak voor semantische en panoptische segmentatie in afbeeldingen en video's, waarbij maskers worden omgezet in discrete tokens via run-length encoding (RLE) en vervolgens autoregressief worden gegenereerd met een aangepast taalmodel.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

WISER is een trainingsvrij framework voor Zero-Shot Composed Image Retrieval dat door middel van een adaptieve "retrieve-verify-refine"-pijplijn de complementaire sterkten van tekst- en beeldgebaseerde zoekopdrachten combineert om de prestaties aanzienlijk te verbeteren zonder extra training.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Het paper introduceert PackUV, een nieuwe 4D-volumetrische videorepresentatie die Gaussische attributen omzet in gestructureerde UV-atlassen voor compatibiliteit met bestaande video-codecs, ondersteund door de PackUV-GS-fittingmethode en het grote PackUV-2B-dataset om hoge kwaliteit en temporale consistentie te garanderen bij langdurige opnames.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Dit paper introduceert HART, een annotatievrij framework dat Large Multimodal Models via versterkingsleer in staat stelt om zonder menselijke labels effectief te redeneren over hoge-resolutie beelden door zelfkritische focus op relevante beeldregio's.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Dit paper introduceert Infinite Self-Attention (InfSA) en zijn lineaire variant Linear-InfSA, die de kwadratische complexiteit van traditionele attention-mechanismen doorbreken door attention te modelleren als een diffusieproces op een token-graf, waardoor schaalbare en energie-efficiënte Vision Transformers mogelijk worden die zelfs bij zeer hoge resoluties (tot 9216x9216) stabiel presteren en betere ImageNet-resultaten behalen dan bestaande softmax-baselines.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

Dit paper introduceert WildActor, een framework voor het genereren van video's met menselijke acteurs die hun volledige lichaamidentiteit behouden onder onbeperkte bewegingen en camerahoeken, ondersteund door de nieuwe grote dataset Actor-18M.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Dit standpuntspaper pleit ervoor dat de evaluatie van moderne visuele verwerkingssystemen minder gericht moet zijn op enkele objectieve beeldkwaliteitsmetrieken en meer op menselijke perceptie en context om innovatie te stimuleren en onderzoek te sturen.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

Het artikel introduceert DeAR, een raamwerk dat VLM-adaptatie verbetert door de rollen van individuele attention heads te ontleden en te isoleren, waardoor een betere balans wordt bereikt tussen taakspecifieke aanpassing en het behoud van de oorspronkelijke generalisatie.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

← Vorige Volgende →