cs.CV articoli | Gist.Science

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

Il paper presenta XStreamVGGT, un approccio senza necessità di riaddestramento che ottimizza l'inferenza streaming per la ricostruzione 3D tramite la compressione della cache KV mediante pruning e quantizzazione, riducendo drasticamente l'uso di memoria e la latenza senza compromettere le prestazioni.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry

Il paper propone GeoMotion, un approccio completamente basato sull'apprendimento che supera le limitazioni dei metodi tradizionali di segmentazione del movimento eliminando la stima esplicita delle corrispondenze e sfruttando invece la geometria 4D latente e meccanismi di attenzione per ottenere prestazioni all'avanguardia in modo efficiente e end-to-end.

Xiankang He, Peile Lin, Ying Cui + 3 more2026-02-26💻 cs

StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles

Il paper introduce StoryMovie, un dataset di 1.757 storie allineate a script e sottotitoli cinematografici che, utilizzato per addestrare il modello Qwen Storyteller3, dimostra come l'allineamento semantico migliori significativamente l'attribuzione dei dialoghi e la coerenza narrativa rispetto alla sola grounding visiva.

Daniel Oliveira, David Martins de Matos2026-02-26🤖 cs.AI

Meta-FC: Meta-Learning with Feature Consistency for Robust and Generalizable Watermarking

Il paper propone Meta-FC, un nuovo approccio di meta-apprendimento con coerenza delle caratteristiche che supera i limiti della strategia SRD nel watermarking profondo, migliorando significativamente la robustezza e la generalizzabilità del modello attraverso l'identificazione di attivazioni neuronali stabili e la riduzione dei conflitti di ottimizzazione causati dalle distorsioni.

Yuheng Li, Weitong Chen, Chengcheng Zhu + 4 more2026-02-26💻 cs

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Questo articolo presenta un framework chiamato Learning-to-Re-Prompt (L2RP) che studia la propagazione degli errori di annotazione nella segmentazione video di Barrett e impara una politica adattiva per intervenire strategicamente con l'esperto, bilanciando così il costo umano e la precisione nella segmentazione.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

Il paper presenta DynamicGTR, un framework che potenzia le capacità dei Modelli Linguistici Visivi nel rispondere a domande su grafi selezionando dinamicamente la rappresentazione topologica ottimale per ogni query, migliorando così accuratezza, efficienza e trasferibilità su compiti reali senza necessità di ulteriore addestramento.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

Il paper propone GFPL, un nuovo framework di apprendimento federato che utilizza la generazione di prototipi basata su GMM e una strategia di aggregazione tramite distanza di Bhattacharyya per migliorare l'accuratezza nei task visivi con dati sbilanciati e risorse limitate, riducendo al contempo il sovraccarico di comunicazione.

Shiwei Lu, Yuhang He, Jiashuo Li + 2 more2026-02-26🤖 cs.LG

UNet-Based Keypoint Regression for 3D Cone Localization in Autonomous Racing

Questo lavoro presenta un approccio basato su una rete neurale UNet per la regressione dei punti chiave e la localizzazione 3D dei coni nel contesto delle corse autonome, dimostrando prestazioni superiori rispetto ai metodi tradizionali grazie all'utilizzo di un ampio dataset personalizzato e una valutazione end-to-end del sistema di percezione.

Mariia Baidachna, James Carty, Aidan Ferguson + 7 more2026-02-26💻 cs

Learning in the Null Space: Small Singular Values for Continual Learning

Il paper introduce NESS, un metodo per l'apprendimento continuo che mitiga la catastrofe dell'oblio applicando aggiornamenti dei pesi nello spazio nullo stimato dai valori singolari più piccoli, garantendo così l'adattamento ai nuovi compiti senza interferire con le conoscenze precedenti.

Cuong Anh Pham, Praneeth Vepakomma, Samuel Horváth2026-02-26🤖 cs.LG

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

Il paper presenta "Geometry-as-context", un nuovo metodo che modula la generazione video 3D coerente con la scena utilizzando un modello autoregressivo controllato dalla camera per stimare iterativamente la geometria e ricostruire le immagini, superando i limiti di errore accumulato e di non differenziabilità delle tecniche precedenti.

JiaKui Hu, Jialun Liu, Liying Yang + 7 more2026-02-26💻 cs

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Questo studio presenta CARD-ViT, un framework basato su un Vision Transformer auto-supervisionato addestrato esclusivamente su TC cardiache sincronizzate, che permette di eseguire con successo la valutazione del calcio coronarico anche su scansioni TC non sincronizzate, facilitando così lo screening cardiovascolare su larga scala senza necessità di esami aggiuntivi.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

Directed Ordinal Diffusion Regularization for Progression-Aware Diabetic Retinopathy Grading

Il paper propone la regolarizzazione D-ODR, un approccio che modella la progressione della retinopatia diabetica come un flusso diretto vincolato per evitare transizioni biologicamente implausibili e migliorare l'accuratezza della classificazione rispetto ai metodi esistenti.

Huangwei Chen, Junhao Jia, Ruocheng Li + 7 more2026-02-26💻 cs

Mobile-Ready Automated Triage of Diabetic Retinopathy Using Digital Fundus Images

Questo articolo presenta un framework di deep learning leggero basato su MobileNetV3 e CORAL, ottimizzato per dispositivi mobili, che raggiunge un'elevata accuratezza nella valutazione automatica della retinopatia diabetica attraverso l'analisi di immagini del fondo oculare.

Aadi Joshi, Manav S. Sharma, Vijay Uttam Rathod + 3 more2026-02-26💻 cs

Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading

Il paper presenta MVGFDR, un framework end-to-end basato su fusione di grafi multi-vista che migliora la classificazione della retinopatia diabetica disaccoppiando le caratteristiche visive condivise e specifiche per vista attraverso l'inizializzazione di grafi, la fusione guidata dal dominio della frequenza e la ricostruzione mascherata, superando così gli approcci esistenti sul dataset MFIDDR.

Haoran Li, Yuxin Lin, Huan Wang + 9 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

MindDriver è un nuovo framework di ragionamento multimodale progressivo che supera le limitazioni delle attuali strategie di pensiero a catena nei modelli visione-linguaggio per la guida autonoma, integrando comprensione semantica, immaginazione spazio-fisica e pianificazione di traiettorie attraverso un'annotazione dati guidata dal feedback e un affinamento progressivo per ottenere prestazioni superiori nelle valutazioni open-loop e closed-loop.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

Il paper propone GLoTran, un nuovo framework basato su MLLM che integra una percezione visiva globale e locale per migliorare la traduzione di immagini ricche di testo ad alta risoluzione, supportato dal nuovo dataset su larga scala GLoD.

Junxin Lu, Tengfei Song, Zhanglin Wu + 9 more2026-02-26💻 cs

Global-Aware Edge Prioritization for Pose Graph Initialization

Questo paper propone un metodo di inizializzazione per grafi di pose basato sulla priorizzazione globale degli spigoli tramite una GNN, che supera i limiti delle tecniche di retrieval tradizionali generando grafi più compatti e accurati, specialmente in scenari ambigui o con dati sparsi.

Tong Wei, Giorgos Tolias, Jiri Matas + 1 more2026-02-26💻 cs

Dream-SLAM: Dreaming the Unseen for Active SLAM in Dynamic Environments

Il paper presenta Dream-SLAM, un innovativo sistema di SLAM attivo monoculare che supera le limitazioni degli approcci esistenti in ambienti dinamici generando immagini e strutture semantiche "sognate" per migliorare la stima della posa, la coerenza della mappa 3D e la pianificazione di traiettorie a lungo termine.

Xiangqi Meng, Pengxu Hou, Zhenjun Zhao + 4 more2026-02-26💻 cs

PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

Il paper introduce PanoEnv, un benchmark VQA su larga scala per ambienti panoramici 3D e un framework di apprendimento per rinforzo basato su GRPO con un curriculum a due stadi, che insieme migliorano significativamente le capacità di ragionamento spaziale dei modelli visione-linguaggio, permettendo a un modello da 7B di superare le prestazioni di modelli più grandi.

Zekai Lin, Xu Zheng2026-02-26💻 cs

World Guidance: World Modeling in Condition Space for Action Generation

Il paper presenta WoG (World Guidance), un framework che migliora la generazione di azioni nei modelli Vision-Language-Action mappando le osservazioni future in condizioni compatte all'interno del processo di inferenza, ottenendo così una modellazione del mondo efficace che garantisce una generazione di azioni più precisa e una migliore generalizzazione.

Yue Su, Sijin Chen, Haixin Shi + 7 more2026-02-26💻 cs

← Precedente Successivo →