cs.CV articoli | Gist.Science

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

Il paper introduce VidGuard-R1, il primo rilevatore di video generati da IA che utilizza l'ottimizzazione della politica relativa di gruppo (GRPO) e modelli di ricompensa specializzati per superare i limiti dei dataset statici, offrendo prestazioni state-of-the-art e spiegazioni forensi basate sul ragionamento.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Questo lavoro presenta SpineMed, un ecosistema co-progettato con chirurghi che include il dataset SpineMed-450k e il benchmark SpineBench, sviluppando un modello che supera le attuali limitazioni nel ragionamento livello-specifico per la diagnosi e la pianificazione chirurgica delle patologie spinali.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Questo paper presenta l'ExposureEngine, un sistema end-to-end che utilizza bounding box orientati e un'interfaccia basata su agenti linguistici per fornire un'analisi precisa, scalabile e automatizzata della visibilità degli sponsor nelle trasmissioni sportive, superando i limiti dei metodi tradizionali basati su box allineati agli assi.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

Il paper introduce TerraCodec, una famiglia di codec neurali preaddestrati su dati Sentinel-2 che supera i metodi classici nella compressione di immagini multispettrali terrestri e abilita l'inpainting delle nuvole sfruttando le dipendenze temporali attraverso un modello Transformer innovativo.

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Il paper presenta XFactor, il primo modello auto-supervisionato senza geometria in grado di sintetizzare nuove visuali con vera trasferibilità, dimostrando che è possibile disaccoppiare la posa della telecamera dal contenuto della scena e ottenere risultati superiori rispetto ai metodi precedenti senza utilizzare induttivi 3D o concetti di geometria multi-vista.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

Il paper introduce VIST3A, un framework che combina modelli di generazione video e di ricostruzione 3D tramite tecniche di "stitching" e allineamento per reward, permettendo la generazione di scene 3D coerenti e di alta qualità a partire da descrizioni testuali.

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

Il paper propone DRBD-Mamba, un modello efficiente e robusto per la segmentazione dei tumori cerebrali che combina un Mamba bidirezionale a doppia risoluzione con curve di riempimento dello spazio e fusione gating per migliorare l'accuratezza e ridurre i costi computazionali, superando le tecniche esistenti su diverse partizioni dei dati BraTS2023.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

Il paper presenta MSSR, un framework a due agenti che migliora il ragionamento spaziale nei modelli visione-linguaggio costruendo un insieme minimo e sufficiente di informazioni 3D per eliminare ridondanze e colmare lacune, ottenendo così prestazioni all'avanguardia su benchmark complessi.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Questo lavoro presenta SceneCOT, un nuovo framework che introduce il ragionamento a catena di pensiero (CoT) ancorato per i modelli linguistici su scene 3D, supportato dal primo dataset su larga scala specifico (SceneCOT-185K), ottenendo risultati superiori nel question answering con un ragionamento passo-passo simile a quello umano.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Il paper introduce Grasp Any Region (GAR), un modello che supera i limiti delle precedenti MLLM regionali integrando il contesto globale e il replay delle caratteristiche per ottenere una comprensione visiva precisa, interattiva e capace di ragionamento compositivo su qualsiasi regione, come dimostrato dalle sue prestazioni superiori su benchmark specifici e sulla capacità di generalizzazione ai video.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Il paper presenta FLoC, un framework di compressione efficiente e senza addestramento per i token visivi nei modelli multimodali su video lunghi, che utilizza una funzione di localizzazione delle strutture per selezionare in modo rapido e ottimale un sottoinsieme rappresentativo di token, migliorando significativamente le prestazioni su vari benchmark.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream è un sistema di generazione video in tempo reale che, attraverso la distillazione di un modello bidirezionale in uno causale e l'uso di un'attenzione a finestra scorrevole, permette di creare video di lunghezza illimitata con controlli di movimento interattivi e una latenza sub-secondo, risolvendo i problemi di accumulo di errori e costi computazionali crescenti.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

Il paper propone SASG-DA, un metodo di aumento dei dati basato sulla diffusione che, integrando una guida semantica e un campionamento consapevole della sparsità, genera campioni sEMG sia fedeli che diversificati per migliorare il riconoscimento dei gesti miopotenziali e la generalizzazione dei modelli.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

Il paper presenta DeiTFake, un modello di rilevamento dei deepfake basato su DeiT che, grazie a una strategia di training progressivo in due fasi con aumentazioni crescenti, raggiunge un'accuratezza del 99,22% e un AUROC di 0,9997 sul dataset OpenForensics, superando le prestazioni delle soluzioni attuali.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

Il paper propone un metodo completamente automatico per generare dati etichettati e un pipeline che estrae e raddrizza le immagini ecografiche dalle foto dello schermo, eliminando la dipendenza dal formato DICOM e permettendo l'addestramento di modelli con un'accuratezza di classificazione delle viste cardiache di 0,79 rispetto alle immagini native.

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Il paper presenta DAP, un pianificatore autoregressivo basato su token discreti che, con un budget di soli 160 milioni di parametri, ottiene prestazioni all'avanguardia nel benchmark NAVSIM prevedendo congiuntamente la semantica BEV e le traiettorie del veicolo, integrando inoltre un affinamento tramite apprendimento per rinforzo.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

Il paper propone CCSD, un nuovo framework di auto-distillazione cross-modale che, attraverso un'architettura condivisa-specifica e strategie di distillazione gerarchica e progressiva, garantisce una segmentazione robusta e generalizzabile dei tumori cerebrali anche in presenza di modalità MRI mancanti.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Il lavoro propone FlashCache, un nuovo framework di compressione della cache KV per modelli linguistici multimodali che, guidato dall'analisi delle frequenze e dalla preservazione dei "KV outlier", riduce drasticamente l'uso di memoria e accelera il decoding mantenendo le prestazioni.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

Il paper presenta MambaTAD, un modello innovativo per la rilevazione temporale delle azioni che integra modelli a spazio di stato strutturato con un modulo DMBSS e una testina di fusione globale per superare le limitazioni nella modellazione a lungo raggio e nel contesto visivo globale, ottenendo prestazioni superiori su diversi benchmark.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

Il paper propone ObAct, un nuovo framework per l'apprendimento per imitazione con visione attiva in cui un braccio robotico funge da osservatore per costruire una rappresentazione 3DGS e posizionare la telecamera in modo ottimale, permettendo all'altro braccio (attore) di eseguire compiti con maggiore robustezza e riducendo le occlusioni rispetto alle configurazioni statiche.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

← Precedente Successivo →