cs.CV papers | Gist.Science

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

Dit paper introduceert SKETCHGAIT, een robuust framework voor gait-herkenning dat gebruikmaakt van het label-vrije 'SKETCH'-modale om structurele randinformatie direct uit RGB-afbeeldingen te halen en zo de beperkingen van bestaande silhouet- en parsing-methoden overwint.

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

Dit artikel presenteert een digitale-tweelinggestuurde V2X-baanvoorspellingspipeline voor stedelijke kruispunten die, door middel van een innovatieve 'twin loss' naast de standaard MSE-loss, de voorspellingen van multi-agent bewegingen significant veiliger maakt door verkeersregels en botsingsvermijding te integreren zonder de nauwkeurigheid of real-time prestaties te compromitteren.

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

Het paper introduceert AutoThinkRAG, een framework dat de prestaties van Vision-Language Models bij complexe documentvraag-antwoordtaken verbetert door query-complexiteit te routeren en visuele interpretatie te ontkoppelen van logische redenering, wat leidt tot state-of-the-art resultaten tegen lagere kosten.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Dit paper introduceert BISE, een strategie die bestaande, vooroordeelvrije subnetwerken uit standaard getrainde modellen haalt door pruning, waardoor bias-effectieve mitigatie mogelijk is zonder extra data of hertraining.

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

Thinking with Spatial Code for Physical-World Video Reasoning

Deze paper introduceert "Thinking with Spatial Code", een kader dat RGB-video's omzet in expliciete 3D-ruimtelijke representaties om grote taalmodellen in staat te stellen fysieke redeneringen uit te voeren en zo nieuwe state-of-the-art resultaten te behalen op VSI-Bench.

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

Deze paper introduceert het eerste gekoppelde robuustheidsverificatiekader voor heatmaps gebaseerde sleutelpuntdetectie dat, in tegenstelling tot eerdere onafhankelijke benaderingen, de gezamenlijke afwijking van alle sleutelpunten garandeert door het verificatieprobleem te formuleren als een falsificatieopdracht met behulp van gemengd-geheelgetallige lineaire programmering.

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

DreamCAD is een multi-modale generatieve framework dat schaalbaar en bewerkbare CAD-modellen (BRep) produceert vanuit punt-supervisie zonder specifieke CAD-annotaties, door parametrische oppervlakken te combineren met differentieerbare tessellatie en het nieuwe CADCap-1M dataset.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

Dit paper introduceert ABRA, een nieuwe methode voor batchcorrectie in high-content screening die bio-batch-effecten aanpakt als een domein-generalisatieprobleem door middel van een adversariaal trainingsframework dat statistische fluctuaties simuleert en zo de generalisatie van diepe leermodellen op onzichtbare data verbetert.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

Dit paper introduceert de Post Fusion Stabilizer (PFS), een lichtgewicht module die de robuustheid van bestaande multimodale 3D-detectiesystemen verbetert door de stabiliteit van vogelvluchtperspectief-kenmerken te waarborgen bij domeinverschuivingen en sensorstoringen, zonder de bestaande architectuur te hoeven aanpassen.

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

Dit artikel introduceert CBM-Suite, een methodologisch kader dat de fundamentele beperkingen van Concept Bottleneck Models aanpakt door een entropie-maatstaf voor conceptrelevantie, een niet-lineaire laag om het 'lineariteitsprobleem' op te lossen, en distillatie voor nauwkeurigheidsverbetering, waardoor nauwkeurigere en interpreteerbaarder modellen ontstaan.

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

Dit paper introduceert de geïnterpoleerde FID (iFID), een nieuwe metiek die door interpolatie van latente representaties een sterke correlatie aantoont met de generatieve FID van diffusiemodellen, waardoor het een betrouwbaarder voorspeller wordt dan de traditionele reconstructie-FID.

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Dit paper introduceert Implicit Error Counting (IEC), een referentievrije beloningsmethode voor reinforcement learning die in plaats van een rubric fouten telt met gewichten, wat leidt tot superieure resultaten bij virtuele pasproeven waar geen enkel ideaal antwoord bestaat.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

Het artikel introduceert SemVID, een trainingsvrij raamwerk voor semantische toewijzing van bewijsmateriaal dat door het behoud van object-, bewegings- en contexttokens de nauwkeurigheid van video-temporale gronding behoudt terwijl het het aantal visuele tokens drastisch reduceert en de verwerkingssnelheid aanzienlijk verbetert.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Dit artikel introduceert Gabor-primitieven voor versnelde reconstructie van cardiale cine-MRI, die door het moduleren van Gaussische enveloppen met complexe exponentiële functies en het ontleden van spatiotemporele redundantie, een compacte en fysisch interpreteerbare representatie bieden die bestaande methoden zoals Compressed Sensing en Implicit Neural Representations overtreft.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

Dit paper introduceert OWL, een nieuwe analytische methode voor 3D-perceptie tijdens beweging die schaalbare 3D-scèneherconstructie en camera-heading berekent uitsluitend op basis van visuele bewegingsinformatie, zonder voorafgaande kennis van de omgeving of beweging te vereisen.

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Deze paper introduceert een nieuw pseudo-3D longitudinaal inpainting-framework voor hersen-MRI's op basis van 3D-regiebewuste diffusiemodellen, dat pathologische laesies effectief wegneemt terwijl het de anatomische continuïteit behoudt en aanzienlijk sneller en nauwkeuriger presteert dan bestaande methoden.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

Het paper introduceert MultiHaystack, een nieuw benchmark met meer dan 46.000 multimodale documenten, afbeeldingen en video's om de prestaties van multimodale grote taalmodellen te evalueren bij het ophalen van relevante bewijsstukken uit grote verzamelingen en het redeneren daarover, waarbij blijkt dat de huidige modellen sterk presteren bij gegeven bewijs maar aanzienlijk falen bij het zelf vinden van dat bewijs.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

Deze paper introduceert een interpreteerbaar framework voor audiovisuele geografische locatie dat een nieuw wereldwijd videobenchmark (AVG) combineert met een driedelige aanpak van perceptie, redenering en precisievoorspelling om de ambiguïteit van visuele landschappen te overwinnen door geluidssignalen effectief te benutten.

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Het paper introduceert Any2Full, een efficiënt en robuust één-staps framework dat bestaande monokulaire dieptemodellen aanpast via schaalbewuste prompts om nauwkeurige en dichte dieptekaarten te genereren vanuit onvolledige metingen zonder de beperkingen van eerdere twee-staps methoden.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

Deze paper introduceert een lichtgewicht en interpreteerbaar framework dat 2D- en 3D-DHoGM-kenmerken combineert voor het nauwkeurig detecteren van bewegingsartefacten in T1-gewogen hersen-MRI-scans, wat leidt tot een robuuste en computerefficiënte oplossing voor geautomatiseerde kwaliteitscontrole in zowel bekende als onbekende klinische settings.

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

← Vorige Volgende →