cs.CV papers | Gist.Science

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

Dit artikel introduceert een geautomatiseerd, mensvrij proces dat de ImageNet-trainingset omzet naar een meervoudige-labeldataset met behulp van zelftoezichtende Vision Transformers, wat leidt tot robuustere modelrepresentaties en aanzienlijke prestatieverbeteringen op diverse benchmarks.

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs

From Phase Grounding to Intelligent Surgical Narratives

Dit paper presenteert een CLIP-gebaseerd multimodaal kader dat chirurgische video's automatisch omzet in gestructureerde tijdlijnen en narratieven, waardoor de noodzaak van tijdrovende handmatige annotatie of vage postoperatieve rapporten wordt verminderd.

Ethan Peterson, Huixin Zhan2026-03-09💻 cs

Uni-LVC: A Unified Method for Intra- and Inter-Mode Learned Video Compression

Uni-LVC is een geünificeerde methode voor geleerde videocompressie die binnen één model zowel intra- als inter-codering ondersteunt door inter-codering te modelleren als aan tijdsinformatie voorafgaande intra-codering, waardoor robuustheid bij onbetrouwbare referenties en superieure prestaties worden bereikt.

Yichi Zhang, Ruoyu Yang, Fengqing Zhu2026-03-09💻 cs

Full Dynamic Range Sky-Modelling For Image Based Lighting

In dit paper presenteren de auteurs Icarus, een all-weather hemelmodel dat via deep learning full dynamic range omgevingenkaarten genereert met ongeëvenaarde nauwkeurigheid, fotorealisme en controle over zon- en wolkenformaties voor Image Based Lighting.

Ian J. Maquignaz2026-03-09🤖 cs.LG

Bridging Domains through Subspace-Aware Model Merging

Dit paper introduceert SCORE, een methode die subruimte-conflicten tussen modellen op verschillende domeinen oplost door een gedeelde orthogonale basis te vinden en diagonale componenten te verwijderen, waardoor de domein-generalisatie aanzienlijk wordt verbeterd ten opzichte van bestaande modelmerging-technieken.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

Het paper introduceert LayerBind, een trainingsvrije methode voor Diffusion Transformers die door het modelleren van regionale generatie als distincte lagen en het binden daarvan tijdens het generatieproces, nauwkeurige controle biedt over de lay-out en het occlusie-ordening van afbeeldingen zonder kwaliteitsverlies.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Het paper introduceert BM25-V, een methode die Okapi BM25-scoring toepast op visuele woorden gegenereerd door een Sparse Auto-Encoder om een interpreteerbare en efficiënte eerste-fase beeldretrieval te realiseren die na herschikking bijna dezelfde nauwkeurigheid bereikt als dichte methoden.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

Dit paper introduceert een spectraal diagnostisch raamwerk om te laten zien dat bij 2D-naar-3D-scèneherconstructie het behoud van spectrale consistentie in feature-upsamplers belangrijker is voor reconstructiekwaliteit dan het verbeteren van ruimtelijke details.

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

Dit artikel introduceert EventGeM, een state-of-the-art systeem voor plaatsherkenning op basis van event-camera's dat globale en lokale kenmerken combineert met diepteanalyse om real-time, robuuste lokalisatie te bereiken in diverse omstandigheden.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

Dit paper introduceert LIPAR, een trainingsvrij kader dat de rekentijd voor videogeneratie verlaagt door tijdsredundantie in latente patches te omzeilen en een nieuwe Attention Recovery-mechanisme te gebruiken om visuele artefacten te voorkomen, waardoor de doorvoer met 1,45 keer toeneemt zonder kwaliteitsverlies.

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Dit paper introduceert MaCS, een eenvoudige en architectuuronafhankelijke regularisatiemethode die de kalibratie en robuustheid van diepe visiemodellen verbetert door logit-marges te vergroten en voorspellingconsistentie onder lichte verstoringen te handhaven, zonder extra data of architecturale wijzigingen.

Salim Khazem2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Dit artikel introduceert een unificerend architecturaal raamwerk dat door middel van enkelvoudige, fysisch consistente beeld-Stokes-verwerking state-of-the-art prestaties bereikt bij het herstellen van gepolariseerde beelden die lijden aan diverse degradaties zoals ruis, bewegingsonscherpte en mosaïekartefacten.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs

Remote Sensing Image Classification Using Deep Ensemble Learning

Deze studie presenteert een deep ensemble learning-methode die CNN's en Vision Transformers combineert via vier onafhankelijke fusiemodellen om de classificatie van remote sensing-beelden te verbeteren en tegelijkertijd een prestatieknelpunt door redundante kenmerken te overwinnen.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation

Het artikel introduceert Cog2Gen3D, een diffusion-framework dat semantische en absolute geometrische cognitie combineert via een cognitieve latent-grafiek om fysiek plausibele en structureel rationele 3D-generaties te realiseren die de bestaande methoden overtreffen.

Haonan Wang, Hanyu Zhou, Haoyue Liu, Tao Gu, Luxin Yan2026-03-09💻 cs

VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction

VS3R is een nieuw framework dat feed-forward 3D-reconstructie combineert met generatieve videodiffusie om robuuste, volledige-frame video-stabilisatie te bereiken die zowel geometrische stabiliteit als visuele consistentie garandeert.

Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao2026-03-09💻 cs

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

Dit paper introduceert MACRO, een zelfevoluerend medisch agent dat door ervaring gedreven zelfontdekking dynamisch nieuwe samengestelde hulpmiddelen creëert uit succesvolle uitvoeringstrajecten, waardoor de robuustheid en generalisatie van medische beeldinterpretatie aanzienlijk verbetert ten opzichte van statische systemen.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

Deze paper introduceert TumorChain, een multimodaal raamwerk met verweven redenering en een groot dataset genaamd TumorCoT, dat stap-voor-stap klinische tumoranalyse op basis van 3D CT-scans mogelijk maakt om de traceerbaarheid te vergroten en diagnostische fouten te verminderen.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

Dit paper introduceert PatchCue, een nieuw paradigma dat de redeneercapaciteiten van Vision-Language Models verbetert door visuele aanwijzingen op patch-niveau te gebruiken in plaats van tekstuele of pixel-gebaseerde methoden, wat leidt tot betere prestaties op diverse multimodale taken.

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

Dit paper introduceert MemSeg-Agent, een nieuw paradigma voor medische beeldsegmentatie dat adaptatie verschuift van gewichtsruimte naar geheugenruimte om via een geïntegreerde architectuur met dynamisch samengestelde geheugeneenheden few-shot learning, federated learning en test-tijd aanpassing mogelijk te maken zonder zware communicatiekosten of fine-tuning.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

Dit artikel presenteert een systematische evaluatie van synthetische nieuwe weergaven voor video-locatieherkenning, waarbij wordt geconcludeerd dat hoewel kleine toevoegingen de prestaties verbeteren, bij grotere toevoegingen het aantal toegevoegde beelden en het type dataset belangrijker zijn dan de grootte van het gezichtspuntverschil.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

← Vorige Volgende →