cs.CV articoli | Gist.Science

Mobile-Ready Automated Triage of Diabetic Retinopathy Using Digital Fundus Images

Questo articolo presenta un framework di deep learning leggero basato su MobileNetV3 e CORAL, ottimizzato per dispositivi mobili, che raggiunge un'elevata accuratezza nella valutazione automatica della retinopatia diabetica attraverso l'analisi di immagini del fondo oculare.

Aadi Joshi, Manav S. Sharma, Vijay Uttam Rathod + 3 more2026-02-26💻 cs

Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading

Il paper presenta MVGFDR, un framework end-to-end basato su fusione di grafi multi-vista che migliora la classificazione della retinopatia diabetica disaccoppiando le caratteristiche visive condivise e specifiche per vista attraverso l'inizializzazione di grafi, la fusione guidata dal dominio della frequenza e la ricostruzione mascherata, superando così gli approcci esistenti sul dataset MFIDDR.

Haoran Li, Yuxin Lin, Huan Wang + 9 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

MindDriver è un nuovo framework di ragionamento multimodale progressivo che supera le limitazioni delle attuali strategie di pensiero a catena nei modelli visione-linguaggio per la guida autonoma, integrando comprensione semantica, immaginazione spazio-fisica e pianificazione di traiettorie attraverso un'annotazione dati guidata dal feedback e un affinamento progressivo per ottenere prestazioni superiori nelle valutazioni open-loop e closed-loop.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

Il paper propone GLoTran, un nuovo framework basato su MLLM che integra una percezione visiva globale e locale per migliorare la traduzione di immagini ricche di testo ad alta risoluzione, supportato dal nuovo dataset su larga scala GLoD.

Junxin Lu, Tengfei Song, Zhanglin Wu + 9 more2026-02-26💻 cs

Global-Aware Edge Prioritization for Pose Graph Initialization

Questo paper propone un metodo di inizializzazione per grafi di pose basato sulla priorizzazione globale degli spigoli tramite una GNN, che supera i limiti delle tecniche di retrieval tradizionali generando grafi più compatti e accurati, specialmente in scenari ambigui o con dati sparsi.

Tong Wei, Giorgos Tolias, Jiri Matas + 1 more2026-02-26💻 cs

Dream-SLAM: Dreaming the Unseen for Active SLAM in Dynamic Environments

Il paper presenta Dream-SLAM, un innovativo sistema di SLAM attivo monoculare che supera le limitazioni degli approcci esistenti in ambienti dinamici generando immagini e strutture semantiche "sognate" per migliorare la stima della posa, la coerenza della mappa 3D e la pianificazione di traiettorie a lungo termine.

Xiangqi Meng, Pengxu Hou, Zhenjun Zhao + 4 more2026-02-26💻 cs

PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

Il paper introduce PanoEnv, un benchmark VQA su larga scala per ambienti panoramici 3D e un framework di apprendimento per rinforzo basato su GRPO con un curriculum a due stadi, che insieme migliorano significativamente le capacità di ragionamento spaziale dei modelli visione-linguaggio, permettendo a un modello da 7B di superare le prestazioni di modelli più grandi.

Zekai Lin, Xu Zheng2026-02-26💻 cs

World Guidance: World Modeling in Condition Space for Action Generation

Il paper presenta WoG (World Guidance), un framework che migliora la generazione di azioni nei modelli Vision-Language-Action mappando le osservazioni future in condizioni compatte all'interno del processo di inferenza, ottenendo così una modellazione del mondo efficace che garantisce una generazione di azioni più precisa e una migliore generalizzazione.

Yue Su, Sijin Chen, Haixin Shi + 7 more2026-02-26💻 cs

RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

Questo lavoro propone un metodo robusto per il riconoscimento dei segnali chilometrici nei metropolitane, basato su modelli fondazionali pre-addestrati e sull'integrazione di dati RGB ed eventi, accompagnato dal rilascio del primo grande dataset sincronizzato EvMetro5K per affrontare le sfide di illuminazione e velocità.

Xiaoyu Xian, Shiao Wang, Xiao Wang + 2 more2026-02-26🤖 cs.AI

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Gli autori propongono RT-RMOT, un nuovo compito di tracciamento multi-oggetto referenziato che fonde dati RGB e termici, supportato dal primo dataset multimodale RefRT e dal framework RTrack basato su un modello linguistico multimodale ottimizzato con strategie di apprendimento per rinforzo per garantire prestazioni robuste in condizioni di scarsa visibilità.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

Il paper presenta SPGen, un nuovo modello di deep learning che utilizza l'adattamento di dominio non supervisionato e un campionatore di rumore casuale per generare scanpath stocastici realistici per le opere d'arte, superando le limitazioni dei metodi esistenti nel prevedere l'attenzione visiva umana.

Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani + 1 more2026-02-26💻 cs

AutoSew: A Geometric Approach to Stitching Prediction with Graph Neural Networks

Il paper presenta AutoSew, un approccio automatico basato su reti neurali grafiche e geometria che prevede le corrispondenze di cucitura direttamente dai contorni dei pattern 2D, superando i metodi esistenti grazie a un nuovo dataset annotato e ottenendo un'accuratezza del 96% senza richiedere input manuali.

Pablo Ríos-Navarro, Elena Garces, Jorge Lopez-Moreno2026-02-26💻 cs

NESTOR: A Nested MOE-based Neural Operator for Large-Scale PDE Pre-Training

Il paper propone NESTOR, un operatore neurale basato su un framework Mixture-of-Experts annidato che combina dipendenze globali e locali per il pre-addestramento su larga scala di equazioni differenziali parziali, migliorando significativamente generalizzazione e trasferibilità rispetto agli approcci esistenti.

Dengdi Sun, Xiaoya Zhou, Xiao Wang + 4 more2026-02-26🤖 cs.AI

AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting

Il paper presenta AdaSpot, un framework efficiente che risolve il problema della localizzazione temporale precisa degli eventi nei video combinando l'elaborazione a bassa risoluzione con la selezione adattiva e non supervisionata di regioni di interesse ad alta risoluzione, ottenendo così prestazioni all'avanguardia senza costi computazionali eccessivi.

Artur Xarles, Sergio Escalera, Thomas B. Moeslund + 1 more2026-02-26💻 cs

WeatherCity: Urban Scene Reconstruction with Controllable Multi-Weather Transformation

WeatherCity è un nuovo framework che ricostruisce scene urbane 4D ad alta fedeltà e ne permette la trasformazione controllata in diverse condizioni meteorologiche, superando le limitazioni dei metodi esistenti attraverso una rappresentazione gaussiana specifica per il meteo e un modello fisico-driven per simulare effetti dinamici coerenti.

Wenhua Wu, Huai Guan, Zhe Liu + 1 more2026-02-26💻 cs

Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D

Il paper presenta Brain3D, un framework vision-language a tre stadi che utilizza trasformatori visivi 3D inflazionati per generare automaticamente rapporti radiologici clinici da risonanze magnetiche cerebrali volumetriche, ottenendo una precisione clinica significativamente superiore rispetto ai modelli basati su slice 2D.

Mariano Barone, Francesco Di Serio, Giuseppe Riccio + 4 more2026-02-26💻 cs

GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

Il paper presenta GeoDiv, un nuovo framework che utilizza modelli linguistici e vision-language per misurare sistematicamente la diversità geografica nei modelli di generazione immagini, rivelando come questi ultimi tendano a rafforzare stereotipi e a rappresentare in modo distorto e impoverito paesi come India, Nigeria e Colombia.

Abhipsa Basu, Mohana Singh, Shashank Agnihotri + 2 more2026-02-26💻 cs

Lumosaic: Hyperspectral Video via Active Illumination and Coded-Exposure Pixels

Il paper presenta Lumosaic, un sistema attivo e compatto per la cattura di video iperspettrali in tempo reale che combina un array LED a banda stretta con una fotocamera a pixel a esposizione codificata e un processo di ricostruzione basato sull'apprendimento per ottenere ricostruzioni spettralmente accurate e temporalmente coerenti anche in presenza di movimento.

Dhruv Verma, Andrew Qiu, Roberto Rangel + 8 more2026-02-26⚡ eess

WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs

Il paper presenta WeaveTime, un framework efficiente e indipendente dal modello che risolve il problema dell'agnosticismo temporale nei Video-LLM introducendo un obiettivo di ricostruzione temporale per l'apprendimento dell'ordine e una cache di focus dinamico per la gestione della memoria in streaming, migliorando così accuratezza e latenza nei contesti online.

Yulin Zhang, Cheng Shi, Sibei Yang2026-02-26💻 cs

MedTri: A Platform for Structured Medical Report Normalization to Enhance Vision-Language Pretraining

Il paper presenta MedTri, un framework di normalizzazione che trasforma i referti medici liberi in triplette strutturate basate sull'anatomia, migliorando significativamente la qualità del pre-addestramento visione-linguaggio medico rispetto ai dati grezzi e alle tecniche esistenti.

Yuetan Chu, Xinhua Ma, Xinran Jin + 2 more2026-02-26💻 cs

← Precedente Successivo →