WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

Il paper presenta WebGym, il più grande ambiente open-source per l'addestramento di agenti web visivi su quasi 300.000 compiti reali, che grazie a un sistema di rollout asincrono ad alta velocità e a un'ampia diversità di task, permette di ottenere un modello basato su Qwen-3-VL-8B-Instruct che supera le prestazioni di modelli proprietari come GPT-4o e GPT-5-Thinking su test fuori distribuzione.

Hao Bai, Alexey Taymanov, Tong Zhang + 2 more2026-02-27🤖 cs.LG

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Il paper presenta Molmo2, una nuova famiglia di modelli visione-linguaggio open-weight che, grazie a un set di dati video e multi-immagine raccolti senza l'uso di modelli proprietari e a una ricetta di formazione innovativa, raggiunge prestazioni all'avanguardia nel grounding video, superando sia i modelli open-source esistenti che alcuni modelli proprietari come Gemini 3 Pro.

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

Questo studio presenta una valutazione sistematica su larga scala di modelli fondazionali video per lo screening remoto del morbo di Parkinson, dimostrando che l'efficacia diagnostica dipende fortemente dall'architettura del modello e dal tipo di compito clinico, con risultati che offrono un solido punto di partenza per il monitoraggio neurologico a distanza.

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Questo paper propone il framework DVI (Deferred Visual Ingestion), che supera i limiti delle strategie di pre-ingestione nei documenti ingegneristici densi di immagini sostituendo la descrizione visiva preliminare con un indicizzazione gerarchica automatica basata sulla struttura del documento e un'analisi visiva differita solo sulle pagine candidate, ottenendo così miglioramenti significativi nell'accuratezza del QA e nel recupero delle immagini rispetto ai metodi basati su embedding.

Tao Xu2026-02-27💬 cs.CL

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

Il paper presenta FUSAR-GPT, un modello linguistico-visivo innovativo per immagini SAR che, integrando un dataset di triplette immagine-testo-funzione AlphaEarth, un modello di baseline geospaziale come conoscenza del mondo e una strategia di addestramento in due fasi, supera significativamente le prestazioni degli stati dell'arte nell'interpretazione intelligente delle immagini radar.

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

Il paper introduce DICArt, un nuovo framework che formula la stima della posa di oggetti articolati come un processo di diffusione discreta condizionato, integrando un decider di flusso dinamico e una strategia di accoppiamento cinematico gerarchico per superare le limitazioni dei metodi continui esistenti e ottenere prestazioni superiori nella stima 6D.

Li Zhang, Mingyu Mei, Ailing Wang + 7 more2026-02-27🤖 cs.AI