cs.CV papers | Gist.Science

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Dit paper introduceert Dr. Seg, een plug-and-play framework dat de GRPO-training voor visuele grote taalmodellen verbetert door de onjuiste aanname dat taalredeneringsparadigma's direct op visuele perceptie van toepassing zijn, te weerleggen en in te zetten op een bredere outputruimte en fijnkorrelige beloningen.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Dit paper introduceert AlignVAR, een nieuw visueel autoregressief framework voor beeldsuperresolutie dat door middel van ruimtelijke consistentie-autoregressie en hiërarchische consistentiebeperkingen de globale coherentie verbetert en tegelijkertijd een 10x snellere inferentie en bijna 50% minder parameters biedt dan bestaande diffusiemethoden.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

Dit paper introduceert SOLACE, een post-training framework dat tekst-naar-beeldgeneratie verbetert door interne zelfvertrouwenssignalen te gebruiken als beloning, waardoor prestaties in composities, tekstweergave en uitlijning worden verhoogd zonder externe datasets of annotatoren.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

Het paper introduceert Dr. Occ, een nieuw raamwerk voor 3D-bezettingsschatting dat dieptegestuurde en regio-gestuurde transformatoren combineert om geometrische uitlijning en semantische variatie te verbeteren, wat resulteert in een aanzienlijke prestatieverbetering op de Occ3D-nuScenes-benchmark.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Dit paper introduceert FreeAct, een nieuw kwantisatiekader voor grote taalmodellen dat statische transformaties vervangt door dynamische, token-specifieke aanpassingen om de prestaties van diffusie- en multimodale modellen aanzienlijk te verbeteren.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Dit paper introduceert Kiwi-Edit, een geavanceerd systeem voor instructie- en referentiegebaseerde videobewerking dat een schaalbaar datapipeline en een nieuw dataset (RefVIE) gebruikt om de precisie en controle bij het aanpassen van video's aanzienlijk te verbeteren.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

Track4World is een feedforward-model dat efficiënte, wereldgerichte 3D-tracking van elke pixel in monoscopische video's mogelijk maakt door een nieuwe 3D-correlatiemethode te gebruiken die zowel 2D- als 3D-dense flow schat, waardoor het de bestaande methoden overtreft in nauwkeurigheid en snelheid.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

Deze paper introduceert PVT-GDLA, een decoder-gecentreerde Transformer met een nieuwe Gated Differential Linear Attention-mechanisme die lineaire tijdscomplexiteit combineert met scherpe anatomische randen en stabiel leren voor hoogwaardige medische beeldsegmentatie.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

Dit artikel introduceert MultiShadow, een methode die gebruikmaakt van een vooraf getrainde diffusion-modellen om realistische, geometrisch consistente schaduwen voor meerdere objecten tegelijkertijd te genereren, waardoor de beperkingen van bestaande technieken die zich voornamelijk op enkele objecten richten, worden overwonnen.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

Dit paper introduceert IoUCert, een nieuw formeel verificatiekader dat de robuustheid van anker-gebaseerde objectdetectiemodellen zoals SSD en YOLO verifieert door een coördinatentransformatie te gebruiken om de complexe niet-lineaire IoU-berekeningen direct en nauwkeurig te optimaliseren.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Deze studie introduceert een DMD-augmenteerde, ongepaarde neurale Schrödinger-brug met multi-stap verfijning en anatomische structuurbehoud om de beeldkwaliteit van ultra-laagveld (64 mT) hersen-MRI-scans te verbeteren door ze te vertalen naar 3 T-kwaliteit zonder de noodzaak van gepaarde data.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

Dit paper introduceert TumorFlow, een generatief framework dat biofysisch geleide longitudinale MRI-synthese mogelijk maakt voor het visualiseren van realistische en gecontroleerde groeitrajecten van glioblastoom bij individuele patiënten.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

NOVA3R is een effectieve feed-forward methode voor amodale 3D-reconstructie uit ongeposeerde afbeeldingen die, in tegenstelling tot pixel-gealigneerde benaderingen, een globaal, view-agnostisch scene-representatie leert om zowel zichtbare als onzichtbare punten te herstellen en fysiek plausibele geometrie te genereren zonder gedupliceerde structuren.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Deze paper introduceert een unificerend raamwerk dat morfologie-gedecoupleerde aandacht en biologische consistentie combineert om de gezamenlijke detectie van lacunes en vergrote perivasculaire ruimtes bij cerebrale kleine vaatziekten te verbeteren, wat resulteert in state-of-the-art prestaties op zowel de VALDO- als EPAD-cohorten.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

Dit paper introduceert "Gaussian Wardrobe", een nieuw framework dat composiete 3D-Gaussian-avatars creëert door kledinglagen te ontkoppelen van het lichaam, waardoor fotorealistische dynamiek en vrij overdraagbare virtuele pasproeven voor verschillende personen mogelijk worden.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Deze studie toont aan dat het introduceren van 'Semantic Anchoring' de semantische ineenstorting van visuele modellen bij overdracht tussen soorten voorkomt en door taalgebaseerde heroriëntatie de prestaties bij kankerdetectie in zowel menselijke als canine weefsels significant verbetert.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Dit paper introduceert het Dual Tuning-framework om de 'Denk-Grens' te kwantificeren, waarmee wordt bepaald wanneer redenering nuttig is voor multimodale taken en zo de inefficiënte 'redeneren-voor-alles'-benadering wordt uitgedaagd ten gunste van adaptieve, resource-efficiënte systemen.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

SkillNet is een open infrastructuur die AI-vaardigheden systematisch creëert, evalueert en koppelt via een uniek ontologie, waardoor agenten hun prestaties aanzienlijk verbeteren door herhaling van oplossingen te voorkomen en eerder verworven kennis effectief te benutten.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Dit paper introduceert een multi-modale deep learning-architectuur die videobeelden, 3D-houding en objectdetectie combineert via cross-attention om dagelijkse activiteiten van ouderen in Ambient Assisted Living-situaties nauwkeurig te herkennen.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Dit paper introduceert InverseNet, het eerste cross-modale benchmark voor operator-mismatch in compressieve beeldvorming, en toont aan dat diepe leermethoden zonder operator-conditionering hun voordeel verliezen bij afwijkingen van de fysieke realiteit, terwijl blinde kalibratie deze verliezen grotendeels kan herstellen.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

← Vorige Volgende →