cs.CV articoli | Gist.Science

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

Questo articolo propone un metodo privo di addestramento che utilizza modelli linguistici multimodali per generare immagini sintetiche di difetti degli isolatori delle linee elettriche, migliorando significativamente l'accuratezza della classificazione in scenari con dati reali limitati.

Xuesong Wang, Caisheng Wang2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

Il paper propone TALON, un framework di adattamento al test che supera i limiti dei metodi basati su hash per la scoperta di categorie on-the-fly, introducendo aggiornamenti dinamici dei prototipi e dell'encoder per migliorare l'accuratezza delle nuove classi e prevenire l'esplosione delle categorie.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Questo lavoro propone un approccio di navigazione basato su mappe che integra un modello LLM fine-tuned per l'inferenza semantica delle zone con un sistema di mappatura ibrido, permettendo un'esplorazione sistematica e ottimizzata che supera le prestazioni dei metodi reattivi tradizionali nella ricerca di oggetti in ambienti sconosciuti.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Il paper presenta DSH-Bench, un benchmark innovativo per la generazione di immagini testo-su-oggetto che supera le limitazioni degli approcci esistenti attraverso una tassonomia gerarchica, una classificazione granulare della difficoltà e dei scenari, e una nuova metrica di coerenza dell'identità (SICS) per fornire analisi diagnostiche approfondite e guidare il futuro sviluppo dei modelli.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

TrianguLang è un framework feed-forward per la localizzazione 3D basato sul linguaggio che, grazie al meccanismo di attenzione semantica consapevole della geometria (GASA), raggiunge uno stato dell'arte nella segmentazione e localizzazione senza richiedere calibrazione della camera o ottimizzazione per scena, garantendo al contempo coerenza geometrica e un'alta velocità di inferenza.

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

Il paper propone un metodo di potatura adattiva dei multilayer perceptron (AMP) per i grandi vision transformer, che utilizza un criterio di entropia informativa senza etichette e una ricerca binaria per ridurre di circa il 40% i parametri e le operazioni computazionali mantenendo prestazioni quasi invariate.

Chengchao Shen2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

Il paper propone SAMoE-VLA, un modello Vision-Language-Action per la guida autonoma che supera le limitazioni dei meccanismi MoE tradizionali selezionando gli esperti in base a rappresentazioni strutturate della scena (BEV) e integrando un'attenzione causale cross-modale, ottenendo così prestazioni all'avanguardia con un minor numero di parametri.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Il paper presenta FoleyFlow, un nuovo metodo che allinea encoder audio-visivi tramite modellazione mascherata e utilizza un flusso condizionale dinamico per generare audio sincronizzato semanticamente e ritmicamente con i video di input, superando le prestazioni dei metodi precedenti.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

Il paper presenta UniGround, un metodo di grounding visivo 3D universale e senza addestramento che supera i limiti dei modelli pre-addestrati attraverso un ragionamento visivo e geometrico in due fasi, ottenendo risultati state-of-the-art su benchmark come ScanRefer ed EmbodiedScan e dimostrando una robusta generalizzazione in ambienti reali non controllati.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

Il paper presenta FLED-GS, un framework rapido che risolve il problema della sintesi di nuove viste in scene 3D scure, rumorose e mosse riformulando il recupero come un ciclo alternato di miglioramento e ricostruzione, superando gli stati dell'arte in termini di velocità e qualità.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

VesselFusion: Diffusion Models for Vessel Centerline Extraction from 3D CT Images

Il paper presenta VesselFusion, un modello di diffusione che estrae le linee centrali dei vasi da immagini TC 3D utilizzando una rappresentazione da grezzo a fine e un'aggregazione basata sul voto per ottenere risultati più naturali e accurati rispetto ai metodi convenzionali.

Soichi Mita, Shumpei Takezaki, Ryoma Bise2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

Il paper introduce MV-Fashion, un ampio dataset video multi-vista con annotazioni semantiche, proprietà dei materiali e dati accoppiati (indossati e piatti) progettato per colmare il divario tra dati sintetici e reali, abilitando ricerche avanzate su provini virtuali, stima delle taglie e sintesi di nuove viste nell'ambito della moda.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

Il paper presenta Edged USLAM, un sistema ibrido visivo-inerziale che combina una front-end consapevole dei bordi e un modulo di profondità basato sull'apprendimento per migliorare la stabilità e la precisione del SLAM in condizioni di illuminazione estrema e movimento rapido, superando i limiti delle soluzioni puramente basate su eventi o di apprendimento profondo in scenari strutturati.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

Il paper presenta MERLIN, un nuovo framework di addestramento per modelli linguistici multimodali nel dominio dei segnali elettromagnetici che, supportato dal dataset EM-100k e dal benchmark EM-Bench, risolve le sfide della scarsità di dati e della fragilità in ambienti a basso rapporto segnale-rumore (SNR), ottenendo prestazioni all'avanguardia.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

Il paper presenta ALOOD, un nuovo metodo che sfrutta le rappresentazioni linguistiche di un modello visione-linguaggio per allineare le caratteristiche LiDAR e trattare il rilevamento di oggetti fuori distribuzione come un compito di classificazione zero-shot, migliorando così la sicurezza nei sistemi di guida autonoma.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

Il paper presenta Fusion-Poly, un nuovo framework per il tracciamento 3D multi-oggetto che supera i limiti delle attuali pipeline di sincronizzazione fissa integrando dati LiDAR e camera asincroni attraverso una fusione spaziotemporale, ottenendo così il nuovo stato dell'arte (76,5% AMOTA) sul dataset nuScenes.

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Il paper propone MM-TS, un metodo che estende la programmazione della temperatura e dei margini all'apprendimento contrastivo multimodale adattandoli dinamicamente alla distribuzione dei dati a coda lunga, unificando così gli approcci InfoNCE e max-margin per ottenere risultati all'avanguardia su diversi dataset immagine-testo e video-testo.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Questo studio presenta due strategie di fusione multimodale, RGIF e RGMAF, che integrano allineamento spaziale e gate di affidabilità per migliorare significativamente la rilevazione di droni su dataset eterogenei termico-visivi, raggiungendo un mAP del 97,65% e una recall del 98,64%.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

Il paper presenta Video2LoRA, un framework scalabile e generalizzabile che utilizza un iper-rete leggera per generare pesi LoRA personalizzati da un video di riferimento, permettendo una generazione video semantica coerente e adattabile senza necessità di riaddestramento e con un ingombro di modello inferiore a 150MB.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

Il paper presenta SAVE, un metodo di apprendimento delle rappresentazioni video che supera i limiti degli approcci basati su CLIP integrando un ramo dedicato all'analisi del parlato e un allineamento precoce visione-audio, ottenendo risultati superiori rispetto allo stato dell'arte su cinque benchmark per il recupero video-testo.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs

← Precedente Successivo →