cs.CV papers | Gist.Science

Beyond Flat Unknown Labels in Open-World Object Detection

Dit paper introduceert BOUND, een open-wereld objectdetector die niet alleen onbekende objecten detecteert, maar ook hun grofkorrelige categorieën infereert om semantische granulariteit te behouden en betere besluitvorming mogelijk te maken zonder de prestaties op bekende klassen te verlagen.

Yuchen Zhang, Yao Lu, Johannes Betz2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Dit paper introduceert LikePhys, een trainingsvrije methode die intuïtieve fysica in videodiffusiemodellen evalueert door het onderscheid te maken tussen fysiek geldige en onmogelijke video's, en toont aan dat deze aanpak sterk overeenkomt met menselijke voorkeur terwijl het een duidelijke verbetering in fysiekbegrip bij grotere modellen aantoont.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

Het artikel introduceert CanvasMAR, een nieuw autoregressief videopredictiemodel dat gebruikmaakt van een 'canvas' als globale structuur en een bewegingsgevoelige trainingsmethode om met weinig steppes hoogwaardige en coherente video's te genereren die concurreren met geavanceerde diffusiemethoden.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Dit paper introduceert 3DThinker, een innovatief raamwerk dat het ruimtelijk redeneren van vision-language modellen verbetert door tijdens het redeneren 3D-mentale beelden te genereren zonder voorafgaande 3D-invoer of gelabelde 3D-data.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

Dit artikel introduceert AURASeg, een op ResNet gebaseerd segmentatiekader dat middels een Residual Boundary Refinement Module en een Attention Progressive Upsampling Decoder de precisie van randen en regio's verbetert voor het detecteren van berijdbare gebieden door robots, met succesvolle validatie op een Jetson Nano.

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

Culture in Action: Evaluating Text-to-Image Models through Social Activities

Dit paper introduceert CULTIVate, een benchmark met duizenden afbeeldingen en nieuwe metrics om de culturele eerlijkheid van tekst-naar-beeldmodellen te evalueren op basis van dagelijkse sociale activiteiten, waarbij blijkt dat deze modellen systematisch beter presteren voor landen in het Noordelijk Halfrond dan voor die in het Zuidelijk Halfrond.

Sina Malakouti, Boqing Gong, Adriana Kovashka2026-03-09💻 cs

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

Dit paper introduceert een synergistisch optimalisatiekader voor deepfake-detectie dat structurele bias-dekoppeling en globale distributie-afstemming combineert om de eerlijkheid tussen en binnen demografische groepen te verbeteren zonder in te leveren op de algehele detectienauwkeurigheid.

Feng Ding, Wenhui Yi, Yunpeng Zhou, Xinan He, Hong Rao, Shu Hu2026-03-09💻 cs

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

LaxMotion is een nieuw raamwerk dat de generalisatie van 3D menselijke bewegingsgeneratie verbetert door te stoppen met het gebruik van exacte 3D-coördinaten als supervisie en in plaats daarvan te leren op basis van consistente structurele relaties tussen globale trajecten en monokulaire 2D-kinetische aanwijzingen.

Sheng Liu, Yuanzhi Liang, Sidan Du2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Dit artikel introduceert een nieuw evaluatiekader met de Cultural Reference Transformation-metriek om te analyseren hoe diffusion-modellen culturele iconische referenties herkennen en realiseren, waarbij wordt aangetoond dat dit gedrag niet alleen afhankelijk is van datafrequentie maar ook van unieke tekstuele en culturele factoren.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

Dit artikel presenteert Co-Layout, een nieuw raamwerk dat grote taalmodellen combineert met roostergebaseerde integer-programmering en een grof-naar-fijn optimalisatiestrategie om binneninrichtingen en meubelplaatsing gezamenlijk te optimaliseren op basis van tekstuele prompts.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

Het artikel introduceert SPARK, een jailbreak-framework dat T2V-modellen omzeilt door veilige prompts te combineren met neutrale scènes, sluwe auditieve triggers en cinematografische richtlijnen om verborgen onveilige video's te genereren.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

Deze paper introduceert MRIQT, een fysica-bewust 3D-diffusiemodel dat de beeldkwaliteit van draagbare ultra-lage-veld MRI-scans bij neonaten significant verbetert door deze te vertalen naar hoogwaardige beelden met behoud van anatomische details en pathologie.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

Dit paper introduceert FunnyNodules, een volledig aanpasbaar synthetisch dataset met gedetailleerde annotaties van visuele kenmerken en diagnoseredenering, dat is ontworpen om de betrouwbaarheid en verklaringen van medische AI-modellen systematisch te evalueren.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Dit paper introduceert FireScope, een VLM-gebaseerd raamwerk dat chain-of-thought redenering combineert met visuele supervisie om op Sentinel-2-beelden en klimaatdata gebaseerde, interpreteerbare en cross-continentaal generaliserende wildvuurrisicokaarten te genereren.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Dit paper introduceert VeilGen, een generatief model dat ongesuperviseerd latent transmissie- en glanskaarten leert om realistische veilingglans te simuleren, en DeVeiler, een restauratienetwerk dat deze kaarten gebruikt om beeldkwaliteit in vereenvoudigde optische systemen te herstellen.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

Dit paper introduceert UAM, een unificerend Attention-Mamba-achterframe voor multimodale frameworks dat door flexibele integratie van deze technologieën zonder handmatige afstemming state-of-the-art resultaten behaalt voor tumorcelclassificatie en -segmentatie.

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs

EgoCogNav: Cognition-aware Human Egocentric Navigation

Deze paper introduceert EgoCogNav, een multimodaal raamwerk voor egocentrische navigatie dat cognitieve factoren zoals waargenomen onzekerheid integreert om menselijk gedrag beter te voorspellen, vergezeld van een nieuw dataset genaamd CEN.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

Het artikel introduceert SyncMV4D, een baanbrekend model dat voor het eerst gesynchroniseerde multi-view video's en 4D-bewegingen van hand-object-interacties genereert door een gesloten lus te creëren tussen visuele priors, bewegingsdynamica en multi-view geometrie, waardoor zowel realisme als consistentie aanzienlijk worden verbeterd.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

Reversible Inversion for Training-Free Exemplar-guided Image Editing

Deze paper introduceert ReInversion, een trainingsvrije methode voor exemplaar-gestuurde beeldbewerking die via een omkeerbaar twee-staps proces en een maskergestuurde selectieve denoising-strategie state-of-the-art resultaten bereikt met minimale rekenkosten.

Yuke Li, Lianli Gao, Ji Zhang, Pengpeng Zeng, Lichuan Xiang, Hongkai Wen, Heng Tao Shen, Jingkuan Song2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

Deze studie presenteert een methode voor weefselmasker-ondersteunde registratie van volledige lichaams-MRI-beelden in de UK Biobank die, door gebruik te maken van subcutane vet- en spiermaskers, significant betere registratieprestaties en anatomische uitlijning bereikt dan bestaande intensiteitsgebaseerde methoden.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

← Vorige Volgende →