cs.CV papers | Gist.Science

Evaluating Generative Models via One-Dimensional Code Distributions

Deze paper introduceert nieuwe, trainingsvrije kwaliteitsmetrieken voor generatieve modellen die werken in de ruimte van discrete visuele tokens in plaats van continue kenmerken, en valideert deze met een uitgebreid benchmarkdataset (VisForm) om een sterkere correlatie met menselijke oordelen te bereiken.

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

Dit paper introduceert een methode om synthetische defectbeelden van hoogspanningsisolatoren te genereren met behulp van multimodale grote taalmodellen, waardoor de prestaties van defectdetectiemodellen aanzienlijk verbeteren in scenario's met beperkte realistische trainingsdata.

Xuesong Wang, Caisheng Wang2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

Het paper introduceert TALON, een adaptief leerframework dat de beperkingen van bestaande hash-gebaseerde methoden voor on-the-fly categorieontdekking overwint door testtijd-adaptatie en semantische prototype-updates te gebruiken, waardoor het model dynamisch nieuwe kennis kan verwerven zonder last te hebben van categorie-explosie.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Dit paper introduceert een nieuwe 'Map-Based AI'-benadering voor object-navigatie die een lokaal, op LoRA gefinetuned Llama-2-model combineert met een hybride topologisch-roosterkaart om semantische zones te infereren en systematische verkenning te optimaliseren, wat leidt tot aanzienlijk betere prestaties dan traditionele reactieve methoden in de AI2-THOR-simulatie.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Dit paper introduceert DSH-Bench, een uitgebreid benchmark met een hiërarchische taxonomie en een nieuwe consistentiemaatstaf (SICS) om subject-gedreven tekst-naar-beeldmodellen systematisch te evalueren op basis van moeilijkheidsgraad en scenario's, waardoor beperkingen van bestaande modellen worden blootgelegd en gerichte richtingen voor toekomstige verbetering worden geboden.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

TrianguLang is een voeding-voorwaartse, pose-vrije 3D-lokalisatiemethode die met behulp van geometrie-bewuste semantische aandacht (GASA) de nauwkeurigheid en geometrische consistentie van objecten en delen in 3D-ruimtes verbetert zonder camera-calibratie, waardoor het toepasbaar is voor interactieve robotica en AR-toepassingen.

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

Deze paper introduceert Adaptive MLP Pruning (AMP), een methode die de parameters en FLOPs van grote Vision Transformers met ongeveer 40% vermindert zonder merkbare prestatieverlies door het gebruik van een label-vrije entropie-criterium voor nauwkeurigere neuron-evaluatie en een adaptieve binaire zoekalgoritme voor het bepalen van de pruning-diepte.

Chengchao Shen2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

Dit artikel introduceert SAMoE-VLA, een autonoom rijmodel dat de instabiliteit van bestaande token-gebaseerde MoE-mechanismen oplost door expertselectie te baseren op gestructureerde verkeerscènes en een conditionele cross-modale causale aandachtmechanisme, waardoor het state-of-the-art prestaties bereikt met minder parameters.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

FoleyFlow introduceert een gecoördineerde video-naar-audio generatiemethode die via gemaskeerde audio-visuele uitlijning en dynamische conditionele flows zowel semantische als ritmische synchronisatie tussen video en gegenereerde audio verbetert.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

Dit paper introduceert UniGround, een training-vrije methode voor universele 3D-visual grounding die door middel van visuele en geometrische redenering objecten in willekeurige 3D-scènes lokaliseert zonder afhankelijk te zijn van vooraf getrainde modellen, waardoor robuustheid en generalisatie naar ongeziene ruimtelijke relaties en domeinen worden bereikt.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

FLED-GS is een nieuw, snel framework dat 3D-scènes met weinig licht, ruis en bewegingsonscherpte herstelt door een cyclisch proces van versterking en reconstructie te gebruiken, waardoor het aanzienlijk sneller is dan bestaande methoden zoals LuSh-NeRF.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

VesselFusion: Diffusion Models for Vessel Centerline Extraction from 3D CT Images

Dit paper introduceert VesselFusion, een diffusiemodel dat 3D CT-beelden gebruikt om op een natuurlijke en stabiele manier bloedvatcentrumlijnen te extraheren via een ruw-naar-fijn representatie en stemmingsgebaseerde aggregatie, wat leidt tot hogere nauwkeurigheid dan traditionele methoden.

Soichi Mita, Shumpei Takezaki, Ryoma Bise2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

Dit paper introduceert MV-Fashion, een groot meerkijkend video-dataset met 3.273 sequenties en gedetailleerde annotaties, dat is ontworpen om de kloof te overbruggen tussen synthetische en realistische data voor taken zoals virtueel passen en kledinggrootte-schatting.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

Dit paper introduceert Edged USLAM, een hybride visueel-inertiaal systeem dat gebeurtenisgebaseerde camera's combineert met een randgevoelige front-end en een leergerichte dieptemodule om robuuste localisatie en mapping te realiseren onder uitdagende omstandigheden zoals snelle beweging en extreme verlichting.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

Dit paper introduceert MERLIN, een robuust multimodaal groot taalmodel voor elektromagnetische signalen dat de uitdagingen van data-schaarste, benchmark-tekort en lage signaal-ruisverhoudingen aanpakt door middel van de nieuwe datasets EM-100k, de benchmark EM-Bench en een geavanceerd trainingsframework.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

Dit paper introduceert ALOOD, een nieuwe methode die taalrepresentaties van een vision-language model gebruikt om LiDAR-gebaseerde 3D-objectdetectiesystemen in staat te stellen onbekende (out-of-distribution) objecten te herkennen als een zero-shot classificatietask, waardoor de veiligheidsrisico's van verkeerd vertrouwen in autonome rijsystemen worden verminderd.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

Fusion-Poly is een nieuw polyhedraal raamwerk dat asynchrone LiDAR- en cameradata integreert via ruimtelijk-temporale fusie om de 3D multi-object tracking op het nuScenes-benchmark te verbeteren tot een state-of-the-art AMOTA van 76,5%.

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Dit paper introduceert MM-TS, een methode voor multi-modale contrastieve learning die dynamische temperatuur- en margeschema's gebruikt om de prestaties op langstaartdata te verbeteren en InfoNCE-loss met max-margin-objectieven te verenigen, wat leidt tot nieuwe state-of-the-art resultaten op diverse beeld- en video-taalkundige datasets.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Deze studie introduceert twee nieuwe fusiestrategieën, RGIF en RGMAF, die registratiebewustzijn en betrouwbaarheidsgebaseerde aandacht gebruiken om de prestaties van UAV-detectie in heterogene thermische en visuele sensoren aanzienlijk te verbeteren.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

Video2LoRA is een schaalbaar en efficiënt framework dat een lichtgewicht hypernetwerk gebruikt om gepersonaliseerde LoRA-weights te genereren voor referentievideo's, waardoor semantisch gecontroleerde videoproduktie mogelijk is zonder per-conditie training en met een modelgrootte van minder dan 150MB.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

← Vorige Volgende →