cs.CV articoli | Gist.Science

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

Il paper presenta FLAIR-HUB, il più ampio dataset multimodale annotato ad altissima risoluzione sviluppato dall'IGN per il monitoraggio della copertura del suolo e delle colture, che integra sei diverse fonti di dati satellitari e aerei per ottimizzare modelli di deep learning e fusion multimodale.

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Il paper introduce HSG-12M, un dataset su larga scala di 16,7 milioni di grafi multigrafo spaziali derivati dagli spettri energetici di cristalli non hermitiani, generato tramite il nuovo strumento automatizzato Poly2Graph per colmare il divario tra fisica della materia condensata e apprendimento automatico geometrico.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

Il paper presenta InterActHuman, un nuovo framework che supera i limiti delle animazioni umane esistenti permettendo la generazione end-to-end di video con più soggetti e interazioni, garantendo un controllo preciso e allineato al layout attraverso l'associazione di condizioni multimodali (testo, immagine, audio) a specifiche regioni spaziali e temporali.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

Il paper presenta AutoV, un framework leggero che supera i limiti del prompt engineering visivo singolo recuperando istantaneamente il prompt ottimale per ogni immagine tramite un ranking basato sulla perdita di un LVLM pre-addestrato, migliorando così significativamente le prestazioni di vari modelli in compiti di comprensione visiva senza necessità di annotazioni manuali.

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Questo lavoro introduce TreeBench, un benchmark diagnostico per valutare il ragionamento visivo fondato su prove tracciabili, e TreeVGR, un paradigma di addestramento basato sul reinforcement learning che migliora significativamente le capacità di localizzazione e ragionamento dei modelli visivi.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

Il paper presenta GMLN-BTS, una rete neurale leggera basata su grafi per la segmentazione adattiva dei tumori cerebrali che, grazie a un codificatore modale adattivo, un modulo di interazione collaborativa multi-modale e un meccanismo di raffinamento dei voxel, raggiunge prestazioni all'avanguardia con un numero di parametri ridotto del 98% rispetto ai modelli 3D Transformer.

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Il paper propone EDA, un nuovo quadro teorico che unifica i modelli di diffusione basati su rumore arbitrario per migliorare le prestazioni nel ripristino delle immagini, superando i limiti dell'approccio EDM legato al rumore gaussiano fisso e dimostrando efficacia in compiti medici e naturali con un numero ridotto di passaggi di campionamento.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

Il paper introduce SAMPO, un nuovo framework di ottimizzazione delle preferenze che allinea i modelli fondazione per la segmentazione di immagini istopatologiche con l'intento clinico, migliorando l'accuratezza e la robustezza anche in presenza di prompt imperfetti.

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Optimizing Multi-Modality Trackers via Significance-Regularized Tuning

Questo articolo propone SRTrack, un nuovo framework di fine-tuning regolarizzato dalla significatività che ottimizza i tracker multi-modali adattando i modelli pre-addestrati per i dati RGB, risolvendo il compromesso tra plasticità e stabilità e superando le tecniche attuali su vari benchmark.

Zhiwen Chen, Jinjian Wu, Zhiyu Zhu + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Questo articolo presenta un metodo di navigazione per quadricotteri basato sull'apprendimento per rinforzo che, sfruttando informazioni privilegiate come le mappe del tempo di arrivo e una funzione di perdita specifica, supera le limitazioni delle tecniche precedenti nel superare grandi ostacoli, ottenendo un tasso di successo dell'86% in simulazione e validando il sistema in 20 voli reali senza collisioni.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

Questo articolo presenta un sistema affidabile per la localizzazione 3D di oggetti distanti, basato su triangolazione multivista o filtri particellari applicati a sequenze di segmentazione immagini da droni, che risulta particolarmente efficace per il monitoraggio degli incendi boschivi in contesti con risorse computazionali limitate.

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

Il paper presenta BridgeDrive, una nuova politica di pianificazione basata su un ponte di diffusione guidato da ancoraggi che garantisce coerenza teorica e prestazioni all'avanguardia nella guida autonoma a ciclo chiuso trasformando traiettorie grezze in piani contestuali in tempo reale.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

Il paper introduce SphereAR, un modello autoregressivo che vincola i latenti su un'ipersfera per stabilizzare la generazione di immagini e raggiungere prestazioni superiori rispetto ai modelli di diffusione e a quelli mascherati, stabilendo un nuovo stato dell'arte per la generazione autoregressiva pura.

Guolin Ke, Hui Xue2026-03-06💻 cs

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

Il paper presenta un nuovo metodo per la super-risoluzione video continuo spazio-temporale basato su un Campo di Fourier Video 3D (VFF) che, superando la necessità di warping esplicito, permette un campionamento flessibile e un'analisi anti-aliasing, ottenendo risultati superiori e più efficienti rispetto agli approcci esistenti.

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

Il paper presenta EgoTraj-Bench, il primo benchmark real-world che allinea osservazioni storiche rumorose in prima persona con traiettorie future pulite, e propone BiFlow, un modello a doppio flusso che supera lo stato dell'arte nella previsione di traiettorie robuste in ambienti umani.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

Questo articolo propone SpecMCD, un metodo di rilevamento delle nuvole debolmente supervisionato che combina caratteristiche spettrali e una rete profonda multi-scala per generare maschere pixel-level ad alta precisione, dimostrando un miglioramento significativo del F1-score rispetto ai metodi esistenti su immagini satellitari multispettrali.

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

Il paper introduce VidGuard-R1, il primo rilevatore di video generati da IA che utilizza l'ottimizzazione della politica relativa di gruppo (GRPO) e modelli di ricompensa specializzati per superare i limiti dei dataset statici, offrendo prestazioni state-of-the-art e spiegazioni forensi basate sul ragionamento.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Questo lavoro presenta SpineMed, un ecosistema co-progettato con chirurghi che include il dataset SpineMed-450k e il benchmark SpineBench, sviluppando un modello che supera le attuali limitazioni nel ragionamento livello-specifico per la diagnosi e la pianificazione chirurgica delle patologie spinali.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Questo paper presenta l'ExposureEngine, un sistema end-to-end che utilizza bounding box orientati e un'interfaccia basata su agenti linguistici per fornire un'analisi precisa, scalabile e automatizzata della visibilità degli sponsor nelle trasmissioni sportive, superando i limiti dei metodi tradizionali basati su box allineati agli assi.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

Il paper introduce TerraCodec, una famiglia di codec neurali preaddestrati su dati Sentinel-2 che supera i metodi classici nella compressione di immagini multispettrali terrestri e abilita l'inpainting delle nuvole sfruttando le dipendenze temporali attraverso un modello Transformer innovativo.

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

← Precedente Successivo →