cs.CV papers | Gist.Science

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

Het artikel introduceert SemVID, een trainingsvrij raamwerk voor semantische toewijzing van bewijsmateriaal dat door het behoud van object-, bewegings- en contexttokens de nauwkeurigheid van video-temporale gronding behoudt terwijl het het aantal visuele tokens drastisch reduceert en de verwerkingssnelheid aanzienlijk verbetert.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Dit artikel introduceert Gabor-primitieven voor versnelde reconstructie van cardiale cine-MRI, die door het moduleren van Gaussische enveloppen met complexe exponentiële functies en het ontleden van spatiotemporele redundantie, een compacte en fysisch interpreteerbare representatie bieden die bestaande methoden zoals Compressed Sensing en Implicit Neural Representations overtreft.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

Dit paper introduceert OWL, een nieuwe analytische methode voor 3D-perceptie tijdens beweging die schaalbare 3D-scèneherconstructie en camera-heading berekent uitsluitend op basis van visuele bewegingsinformatie, zonder voorafgaande kennis van de omgeving of beweging te vereisen.

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Deze paper introduceert een nieuw pseudo-3D longitudinaal inpainting-framework voor hersen-MRI's op basis van 3D-regiebewuste diffusiemodellen, dat pathologische laesies effectief wegneemt terwijl het de anatomische continuïteit behoudt en aanzienlijk sneller en nauwkeuriger presteert dan bestaande methoden.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

Het paper introduceert MultiHaystack, een nieuw benchmark met meer dan 46.000 multimodale documenten, afbeeldingen en video's om de prestaties van multimodale grote taalmodellen te evalueren bij het ophalen van relevante bewijsstukken uit grote verzamelingen en het redeneren daarover, waarbij blijkt dat de huidige modellen sterk presteren bij gegeven bewijs maar aanzienlijk falen bij het zelf vinden van dat bewijs.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

Deze paper introduceert een interpreteerbaar framework voor audiovisuele geografische locatie dat een nieuw wereldwijd videobenchmark (AVG) combineert met een driedelige aanpak van perceptie, redenering en precisievoorspelling om de ambiguïteit van visuele landschappen te overwinnen door geluidssignalen effectief te benutten.

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Het paper introduceert Any2Full, een efficiënt en robuust één-staps framework dat bestaande monokulaire dieptemodellen aanpast via schaalbewuste prompts om nauwkeurige en dichte dieptekaarten te genereren vanuit onvolledige metingen zonder de beperkingen van eerdere twee-staps methoden.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

Deze paper introduceert een lichtgewicht en interpreteerbaar framework dat 2D- en 3D-DHoGM-kenmerken combineert voor het nauwkeurig detecteren van bewegingsartefacten in T1-gewogen hersen-MRI-scans, wat leidt tot een robuuste en computerefficiënte oplossing voor geautomatiseerde kwaliteitscontrole in zowel bekende als onbekende klinische settings.

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

Dit artikel introduceert een geautomatiseerd, mensvrij proces dat de ImageNet-trainingset omzet naar een meervoudige-labeldataset met behulp van zelftoezichtende Vision Transformers, wat leidt tot robuustere modelrepresentaties en aanzienlijke prestatieverbeteringen op diverse benchmarks.

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs

From Phase Grounding to Intelligent Surgical Narratives

Dit paper presenteert een CLIP-gebaseerd multimodaal kader dat chirurgische video's automatisch omzet in gestructureerde tijdlijnen en narratieven, waardoor de noodzaak van tijdrovende handmatige annotatie of vage postoperatieve rapporten wordt verminderd.

Ethan Peterson, Huixin Zhan2026-03-09💻 cs

Uni-LVC: A Unified Method for Intra- and Inter-Mode Learned Video Compression

Uni-LVC is een geünificeerde methode voor geleerde videocompressie die binnen één model zowel intra- als inter-codering ondersteunt door inter-codering te modelleren als aan tijdsinformatie voorafgaande intra-codering, waardoor robuustheid bij onbetrouwbare referenties en superieure prestaties worden bereikt.

Yichi Zhang, Ruoyu Yang, Fengqing Zhu2026-03-09💻 cs

Full Dynamic Range Sky-Modelling For Image Based Lighting

In dit paper presenteren de auteurs Icarus, een all-weather hemelmodel dat via deep learning full dynamic range omgevingenkaarten genereert met ongeëvenaarde nauwkeurigheid, fotorealisme en controle over zon- en wolkenformaties voor Image Based Lighting.

Ian J. Maquignaz2026-03-09🤖 cs.LG

Bridging Domains through Subspace-Aware Model Merging

Dit paper introduceert SCORE, een methode die subruimte-conflicten tussen modellen op verschillende domeinen oplost door een gedeelde orthogonale basis te vinden en diagonale componenten te verwijderen, waardoor de domein-generalisatie aanzienlijk wordt verbeterd ten opzichte van bestaande modelmerging-technieken.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

Het paper introduceert LayerBind, een trainingsvrije methode voor Diffusion Transformers die door het modelleren van regionale generatie als distincte lagen en het binden daarvan tijdens het generatieproces, nauwkeurige controle biedt over de lay-out en het occlusie-ordening van afbeeldingen zonder kwaliteitsverlies.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Het paper introduceert BM25-V, een methode die Okapi BM25-scoring toepast op visuele woorden gegenereerd door een Sparse Auto-Encoder om een interpreteerbare en efficiënte eerste-fase beeldretrieval te realiseren die na herschikking bijna dezelfde nauwkeurigheid bereikt als dichte methoden.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

Dit paper introduceert een spectraal diagnostisch raamwerk om te laten zien dat bij 2D-naar-3D-scèneherconstructie het behoud van spectrale consistentie in feature-upsamplers belangrijker is voor reconstructiekwaliteit dan het verbeteren van ruimtelijke details.

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

Dit artikel introduceert EventGeM, een state-of-the-art systeem voor plaatsherkenning op basis van event-camera's dat globale en lokale kenmerken combineert met diepteanalyse om real-time, robuuste lokalisatie te bereiken in diverse omstandigheden.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

Dit paper introduceert LIPAR, een trainingsvrij kader dat de rekentijd voor videogeneratie verlaagt door tijdsredundantie in latente patches te omzeilen en een nieuwe Attention Recovery-mechanisme te gebruiken om visuele artefacten te voorkomen, waardoor de doorvoer met 1,45 keer toeneemt zonder kwaliteitsverlies.

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Dit paper introduceert MaCS, een eenvoudige en architectuuronafhankelijke regularisatiemethode die de kalibratie en robuustheid van diepe visiemodellen verbetert door logit-marges te vergroten en voorspellingconsistentie onder lichte verstoringen te handhaven, zonder extra data of architecturale wijzigingen.

Salim Khazem2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Dit artikel introduceert een unificerend architecturaal raamwerk dat door middel van enkelvoudige, fysisch consistente beeld-Stokes-verwerking state-of-the-art prestaties bereikt bij het herstellen van gepolariseerde beelden die lijden aan diverse degradaties zoals ruis, bewegingsonscherpte en mosaïekartefacten.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs

← Vorige Volgende →