cs.CV papers | Gist.Science

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

Dit paper introduceert UniGround, een training-vrije methode voor universele 3D-visual grounding die door middel van visuele en geometrische redenering objecten in willekeurige 3D-scènes lokaliseert zonder afhankelijk te zijn van vooraf getrainde modellen, waardoor robuustheid en generalisatie naar ongeziene ruimtelijke relaties en domeinen worden bereikt.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

FLED-GS is een nieuw, snel framework dat 3D-scènes met weinig licht, ruis en bewegingsonscherpte herstelt door een cyclisch proces van versterking en reconstructie te gebruiken, waardoor het aanzienlijk sneller is dan bestaande methoden zoals LuSh-NeRF.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

VesselFusion: Diffusion Models for Vessel Centerline Extraction from 3D CT Images

Dit paper introduceert VesselFusion, een diffusiemodel dat 3D CT-beelden gebruikt om op een natuurlijke en stabiele manier bloedvatcentrumlijnen te extraheren via een ruw-naar-fijn representatie en stemmingsgebaseerde aggregatie, wat leidt tot hogere nauwkeurigheid dan traditionele methoden.

Soichi Mita, Shumpei Takezaki, Ryoma Bise2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

Dit paper introduceert MV-Fashion, een groot meerkijkend video-dataset met 3.273 sequenties en gedetailleerde annotaties, dat is ontworpen om de kloof te overbruggen tussen synthetische en realistische data voor taken zoals virtueel passen en kledinggrootte-schatting.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

Dit paper introduceert Edged USLAM, een hybride visueel-inertiaal systeem dat gebeurtenisgebaseerde camera's combineert met een randgevoelige front-end en een leergerichte dieptemodule om robuuste localisatie en mapping te realiseren onder uitdagende omstandigheden zoals snelle beweging en extreme verlichting.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

Dit paper introduceert MERLIN, een robuust multimodaal groot taalmodel voor elektromagnetische signalen dat de uitdagingen van data-schaarste, benchmark-tekort en lage signaal-ruisverhoudingen aanpakt door middel van de nieuwe datasets EM-100k, de benchmark EM-Bench en een geavanceerd trainingsframework.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

Dit paper introduceert ALOOD, een nieuwe methode die taalrepresentaties van een vision-language model gebruikt om LiDAR-gebaseerde 3D-objectdetectiesystemen in staat te stellen onbekende (out-of-distribution) objecten te herkennen als een zero-shot classificatietask, waardoor de veiligheidsrisico's van verkeerd vertrouwen in autonome rijsystemen worden verminderd.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

Fusion-Poly is een nieuw polyhedraal raamwerk dat asynchrone LiDAR- en cameradata integreert via ruimtelijk-temporale fusie om de 3D multi-object tracking op het nuScenes-benchmark te verbeteren tot een state-of-the-art AMOTA van 76,5%.

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Dit paper introduceert MM-TS, een methode voor multi-modale contrastieve learning die dynamische temperatuur- en margeschema's gebruikt om de prestaties op langstaartdata te verbeteren en InfoNCE-loss met max-margin-objectieven te verenigen, wat leidt tot nieuwe state-of-the-art resultaten op diverse beeld- en video-taalkundige datasets.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Deze studie introduceert twee nieuwe fusiestrategieën, RGIF en RGMAF, die registratiebewustzijn en betrouwbaarheidsgebaseerde aandacht gebruiken om de prestaties van UAV-detectie in heterogene thermische en visuele sensoren aanzienlijk te verbeteren.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

Video2LoRA is een schaalbaar en efficiënt framework dat een lichtgewicht hypernetwerk gebruikt om gepersonaliseerde LoRA-weights te genereren voor referentievideo's, waardoor semantisch gecontroleerde videoproduktie mogelijk is zonder per-conditie training en met een modelgrootte van minder dan 150MB.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

Het paper introduceert SAVE, een nieuwe methode voor video-tekstretrieval die de prestaties van de huidige staat van de kunst (AVIGATE) significant verbetert door een speciale spraaktak en een zachte vroege visueel-audiatieve uitlijning (soft-ALBEF) te gebruiken om de vaak genegeerde audio-informatie effectiever te benutten.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

Deze paper introduceert SRNeRV, een nieuw recursief raamwerk voor neurale videorepresentatie dat door middel van een hybride delingsschema de parameterredundantie van bestaande multi-schaalgeneratoren oplost en zo de prestaties aanzienlijk verbetert.

Jia Wang, Jun Zhu, Xinfeng Zhang2026-03-10💻 cs

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

GarmentPainter is een efficiënt raamwerk dat een karaktergeleid diffusiemodel en UV-positiekaarten gebruikt om hoogwaardige, 3D-consistente textuurpatronen voor kleding te genereren zonder strikte ruimtelijke uitlijning tussen referentieafbeeldingen en 3D-meshes.

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Dit onderzoek toont aan dat state-of-the-art deep learning-modellen, waaronder vision transformers en foundation modellen, in combinatie met ultra-widefield imaging en frequentiedomeinrepresentaties, zeer effectief zijn voor het beoordelen van beeldkwaliteit, het detecteren van referabele diabetische retinopathie en diabetisch maculair oedeem, waarbij feature-level fusion en Grad-CAM-analyse de robuustheid en uitlegbaarheid verder verbeteren.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Dit paper introduceert SiMO, een nieuw systeem voor collaboratieve waarneming dat door middel van Length-Adaptive Multi-Modal Fusion (LAMMA) en een unieke trainingsstrategie modale uitval effectief opvangt en semantische consistentie behoudt, waardoor het prestaties optimaliseert ongeacht welke sensoren beschikbaar zijn.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

Topologically Stable Hough Transform

Deze paper introduceert een topologisch stabiele variant van de Hough-transformatie die, in plaats van een gediscrétiseerde stemming, een continue scorefunctie en persistente homologie gebruikt om lijnen in puntwolken te detecteren, vergezeld van een efficiënt algoritme voor de berekening van deze kandidaatlijnen.

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

Dit paper introduceert DynamicVGGT, een uniek feed-forward framework dat VGGT uitbreidt tot dynamische 4D-scèneherconstructie voor autonoom rijden door het gezamenlijk voorspellen van puntkaarten en het gebruik van motion-aware temporal attention en dynamische 3D Gaussian Splatting voor nauwkeurige bewegingsmodellering.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Dit paper introduceert WaDi, een efficiënt distillatiekader dat gebruikmaakt van LoRaD om richtingsveranderingen in de gewichten van diffusion-modellen te modelleren, waardoor state-of-the-art één-staps beeldsynthese wordt bereikt met slechts 10% van de trainbare parameters.

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Deze paper introduceert een leervrije methode voor het volgen van 6D objectposities met behulp van event-camera's, die door het fuseren van optische stroom voor voortplanting en een sjabloongebaseerde correctiestrategie superieure prestaties boekt bij snel bewegende objecten in vergelijking met bestaande RGB-D-camera-algoritmen.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

← Vorige Volgende →