cs.CV articoli | Gist.Science

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

Il paper presenta DynamicGTR, un framework che potenzia le capacità dei Modelli Linguistici Visivi nel rispondere a domande su grafi selezionando dinamicamente la rappresentazione topologica ottimale per ogni query, migliorando così accuratezza, efficienza e trasferibilità su compiti reali senza necessità di ulteriore addestramento.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

Il paper propone GFPL, un nuovo framework di apprendimento federato che utilizza la generazione di prototipi basata su GMM e una strategia di aggregazione tramite distanza di Bhattacharyya per migliorare l'accuratezza nei task visivi con dati sbilanciati e risorse limitate, riducendo al contempo il sovraccarico di comunicazione.

Shiwei Lu, Yuhang He, Jiashuo Li + 2 more2026-02-26🤖 cs.LG

UNet-Based Keypoint Regression for 3D Cone Localization in Autonomous Racing

Questo lavoro presenta un approccio basato su una rete neurale UNet per la regressione dei punti chiave e la localizzazione 3D dei coni nel contesto delle corse autonome, dimostrando prestazioni superiori rispetto ai metodi tradizionali grazie all'utilizzo di un ampio dataset personalizzato e una valutazione end-to-end del sistema di percezione.

Mariia Baidachna, James Carty, Aidan Ferguson + 7 more2026-02-26💻 cs

Learning in the Null Space: Small Singular Values for Continual Learning

Il paper introduce NESS, un metodo per l'apprendimento continuo che mitiga la catastrofe dell'oblio applicando aggiornamenti dei pesi nello spazio nullo stimato dai valori singolari più piccoli, garantendo così l'adattamento ai nuovi compiti senza interferire con le conoscenze precedenti.

Cuong Anh Pham, Praneeth Vepakomma, Samuel Horváth2026-02-26🤖 cs.LG

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

Il paper presenta "Geometry-as-context", un nuovo metodo che modula la generazione video 3D coerente con la scena utilizzando un modello autoregressivo controllato dalla camera per stimare iterativamente la geometria e ricostruire le immagini, superando i limiti di errore accumulato e di non differenziabilità delle tecniche precedenti.

JiaKui Hu, Jialun Liu, Liying Yang + 7 more2026-02-26💻 cs

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Questo studio presenta CARD-ViT, un framework basato su un Vision Transformer auto-supervisionato addestrato esclusivamente su TC cardiache sincronizzate, che permette di eseguire con successo la valutazione del calcio coronarico anche su scansioni TC non sincronizzate, facilitando così lo screening cardiovascolare su larga scala senza necessità di esami aggiuntivi.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

Directed Ordinal Diffusion Regularization for Progression-Aware Diabetic Retinopathy Grading

Il paper propone la regolarizzazione D-ODR, un approccio che modella la progressione della retinopatia diabetica come un flusso diretto vincolato per evitare transizioni biologicamente implausibili e migliorare l'accuratezza della classificazione rispetto ai metodi esistenti.

Huangwei Chen, Junhao Jia, Ruocheng Li + 7 more2026-02-26💻 cs

Mobile-Ready Automated Triage of Diabetic Retinopathy Using Digital Fundus Images

Questo articolo presenta un framework di deep learning leggero basato su MobileNetV3 e CORAL, ottimizzato per dispositivi mobili, che raggiunge un'elevata accuratezza nella valutazione automatica della retinopatia diabetica attraverso l'analisi di immagini del fondo oculare.

Aadi Joshi, Manav S. Sharma, Vijay Uttam Rathod + 3 more2026-02-26💻 cs

Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading

Il paper presenta MVGFDR, un framework end-to-end basato su fusione di grafi multi-vista che migliora la classificazione della retinopatia diabetica disaccoppiando le caratteristiche visive condivise e specifiche per vista attraverso l'inizializzazione di grafi, la fusione guidata dal dominio della frequenza e la ricostruzione mascherata, superando così gli approcci esistenti sul dataset MFIDDR.

Haoran Li, Yuxin Lin, Huan Wang + 9 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

MindDriver è un nuovo framework di ragionamento multimodale progressivo che supera le limitazioni delle attuali strategie di pensiero a catena nei modelli visione-linguaggio per la guida autonoma, integrando comprensione semantica, immaginazione spazio-fisica e pianificazione di traiettorie attraverso un'annotazione dati guidata dal feedback e un affinamento progressivo per ottenere prestazioni superiori nelle valutazioni open-loop e closed-loop.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

Il paper propone GLoTran, un nuovo framework basato su MLLM che integra una percezione visiva globale e locale per migliorare la traduzione di immagini ricche di testo ad alta risoluzione, supportato dal nuovo dataset su larga scala GLoD.

Junxin Lu, Tengfei Song, Zhanglin Wu + 9 more2026-02-26💻 cs

Global-Aware Edge Prioritization for Pose Graph Initialization

Questo paper propone un metodo di inizializzazione per grafi di pose basato sulla priorizzazione globale degli spigoli tramite una GNN, che supera i limiti delle tecniche di retrieval tradizionali generando grafi più compatti e accurati, specialmente in scenari ambigui o con dati sparsi.

Tong Wei, Giorgos Tolias, Jiri Matas + 1 more2026-02-26💻 cs

Dream-SLAM: Dreaming the Unseen for Active SLAM in Dynamic Environments

Il paper presenta Dream-SLAM, un innovativo sistema di SLAM attivo monoculare che supera le limitazioni degli approcci esistenti in ambienti dinamici generando immagini e strutture semantiche "sognate" per migliorare la stima della posa, la coerenza della mappa 3D e la pianificazione di traiettorie a lungo termine.

Xiangqi Meng, Pengxu Hou, Zhenjun Zhao + 4 more2026-02-26💻 cs

PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

Il paper introduce PanoEnv, un benchmark VQA su larga scala per ambienti panoramici 3D e un framework di apprendimento per rinforzo basato su GRPO con un curriculum a due stadi, che insieme migliorano significativamente le capacità di ragionamento spaziale dei modelli visione-linguaggio, permettendo a un modello da 7B di superare le prestazioni di modelli più grandi.

Zekai Lin, Xu Zheng2026-02-26💻 cs

World Guidance: World Modeling in Condition Space for Action Generation

Il paper presenta WoG (World Guidance), un framework che migliora la generazione di azioni nei modelli Vision-Language-Action mappando le osservazioni future in condizioni compatte all'interno del processo di inferenza, ottenendo così una modellazione del mondo efficace che garantisce una generazione di azioni più precisa e una migliore generalizzazione.

Yue Su, Sijin Chen, Haixin Shi + 7 more2026-02-26💻 cs

RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

Questo lavoro propone un metodo robusto per il riconoscimento dei segnali chilometrici nei metropolitane, basato su modelli fondazionali pre-addestrati e sull'integrazione di dati RGB ed eventi, accompagnato dal rilascio del primo grande dataset sincronizzato EvMetro5K per affrontare le sfide di illuminazione e velocità.

Xiaoyu Xian, Shiao Wang, Xiao Wang + 2 more2026-02-26🤖 cs.AI

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Gli autori propongono RT-RMOT, un nuovo compito di tracciamento multi-oggetto referenziato che fonde dati RGB e termici, supportato dal primo dataset multimodale RefRT e dal framework RTrack basato su un modello linguistico multimodale ottimizzato con strategie di apprendimento per rinforzo per garantire prestazioni robuste in condizioni di scarsa visibilità.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

Il paper presenta SPGen, un nuovo modello di deep learning che utilizza l'adattamento di dominio non supervisionato e un campionatore di rumore casuale per generare scanpath stocastici realistici per le opere d'arte, superando le limitazioni dei metodi esistenti nel prevedere l'attenzione visiva umana.

Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani + 1 more2026-02-26💻 cs

AutoSew: A Geometric Approach to Stitching Prediction with Graph Neural Networks

Il paper presenta AutoSew, un approccio automatico basato su reti neurali grafiche e geometria che prevede le corrispondenze di cucitura direttamente dai contorni dei pattern 2D, superando i metodi esistenti grazie a un nuovo dataset annotato e ottenendo un'accuratezza del 96% senza richiedere input manuali.

Pablo Ríos-Navarro, Elena Garces, Jorge Lopez-Moreno2026-02-26💻 cs

NESTOR: A Nested MOE-based Neural Operator for Large-Scale PDE Pre-Training

Il paper propone NESTOR, un operatore neurale basato su un framework Mixture-of-Experts annidato che combina dipendenze globali e locali per il pre-addestramento su larga scala di equazioni differenziali parziali, migliorando significativamente generalizzazione e trasferibilità rispetto agli approcci esistenti.

Dengdi Sun, Xiaoya Zhou, Xiao Wang + 4 more2026-02-26🤖 cs.AI

← Precedente Successivo →