cs.CV articoli | Gist.Science

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Il paper presenta RewardMap, un framework di apprendimento per rinforzo multi-fase che risolve il problema delle ricompense sparse nel ragionamento visivo fine-granularità introducendo il dataset ReasonMap-Plus e un meccanismo di ricompensa adattivo alla difficoltà, ottenendo significativi miglioramenti nelle capacità di ragionamento spaziale e visivo dei modelli linguistici multimodali.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

Il paper presenta OBS-Diff, un innovativo framework di pruning one-shot e senza addestramento che adatta l'Optimal Brain Surgeon ai modelli di diffusione testo-immagine, introducendo una costruzione dell'Hessiana sensibile ai timestep e una strategia di pruning sequenziale per ottenere un'accelerazione dell'inferenza con minima perdita di qualità visiva.

Junhan Zhu, Hesong Wang, Mingluo Su + 2 more2026-02-24💻 cs

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

Il paper presenta EDJE, un efficiente encoder congiunto discriminativo che precalcola e comprime i token visivi per abilitare un reranking su larga scala di coppie immagine-testo ad alta velocità e basso costo di archiviazione, mantenendo prestazioni competitive rispetto agli approcci esistenti.

Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin2026-02-24🤖 cs.LG

LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

Il paper presenta LinVideo, un framework di post-addestramento senza dati che sostituisce selettivamente i moduli di attenzione quadratica con attenzione lineare, ottenendo un'accelerazione da 1,25x a 2,00x e riducendo la latenza fino a 15,92x nei modelli distillati, mantenendo al contempo la qualità della generazione video.

Yushi Huang, Xingtong Ge, Ruihao Gong + 2 more2026-02-24💻 cs

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Il documento presenta il modello SSM (State-Specific Model), un nuovo framework che unifica rilevamento e anticipazione delle azioni tramite compressione della memoria basata su stati critici, apprendimento di pattern di azione e interazione cross-temporale, dimostrando prestazioni superiori su diversi dataset di riferimento.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Il paper presenta NEO, una nuova famiglia di modelli visione-linguaggio nativi costruiti da principi fondamentali che, grazie a primitive unificate e un addestramento su larga scala, colmano il divario con i modelli modulari tradizionali rendendo la ricerca in questo campo più accessibile ed efficiente.

Haiwen Diao, Mingxuan Li, Silei Wu + 6 more2026-02-24🤖 cs.AI

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Questo studio analizza sistematicamente come la complessità dei prompt influenzi qualità, diversità e coerenza nei modelli testo-immagine, rivelando che l'espansione dei prompt tramite modelli linguistici pre-addestrati supera persino i dati reali in termini di diversità e estetica, pur riducendo lo spostamento distributivo.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

Il paper propone MergeMix, un paradigma unificato che combina SFT e RL tramite un'augmentazione basata su Mixup di token, per migliorare l'allineamento, la generalizzazione e l'efficienza dei modelli linguistici multi-modali.

Xin Jin, Siyuan Li, Siyong Jian + 2 more2026-02-24💻 cs

SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions

Il documento presenta SYNAPSE-Net, un framework unificato basato su codificatori convoluzionali multi-stream e un'attenzione incrociata modale, progettato per migliorare la robustezza e la generalizzabilità nella segmentazione automatica di lesioni cerebrali eterogenee utilizzando risonanza magnetica multimodale.

Md. Mehedi Hassan, Shafqat Alam, Shahriar Ahmed Seam + 1 more2026-02-24⚡ eess

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

Il paper introduce BEAT, il primo framework per iniettare backdoor visive negli agenti embodied basati su modelli visione-linguaggio tramite oggetti ambientali come trigger, utilizzando un innovativo apprendimento contrastivo per garantire un'attivazione precisa e generalizzabile mantenendo al contempo elevate prestazioni nelle attività normali.

Qiusi Zhan, Hyeonjeong Ha, Rui Yang + 7 more2026-02-24💬 cs.CL

A Lightweight 3D-CNN for Event-Based Human Action Recognition with Privacy-Preserving Potential

Questo articolo presenta una rete neurale convoluzionale 3D leggera basata su visione event-driven per il riconoscimento delle azioni umane, che garantisce la privacy, riduce il consumo computazionale e raggiunge un'accuratezza superiore rispetto alle architetture tradizionali, rendendola ideale per applicazioni edge.

Mehdi Sefidgar Dilmaghani, Francis Fowley, Peter Corcoran2026-02-24💻 cs

Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Questo paper propone il *Rank-enhancing Token Fuser*, un framework di fusione multimodale basato sull'efficacia del rango che contrasta simultaneamente il collasso delle caratteristiche e quello delle modalità, dimostrando risultati superiori nell'anticipazione delle azioni umane.

Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar + 1 more2026-02-24🤖 cs.LG

StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

Il paper presenta StreamDiffusionV2, un sistema di streaming training-free basato su modelli di diffusione video che, grazie a un'orchestrazione scalabile e ottimizzazioni specifiche per i vincoli di latenza, garantisce una generazione video interattiva in tempo reale con alta coerenza temporale e prestazioni elevate su hardware eterogeneo.

Tianrui Feng, Zhi Li, Shuo Yang + 11 more2026-02-24🤖 cs.LG

PRISM: Diversifying Dataset Distillation by Decoupling Architectural Priors

Il paper presenta PRISM, un framework per la distillazione dei dataset che decoppia i prior architetturali utilizzando modelli insegnanti diversi per la corrispondenza dei logit e l'allineamento della normalizzazione di batch, ottenendo così dati sintetici più diversificati e prestazioni superiori rispetto ai metodi a insegnante singolo o multipli su ImageNet-1K.

Brian B. Moser, Shalini Sarode, Federico Raue + 6 more2026-02-24🤖 cs.AI

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Il paper presenta MoDES, un framework senza addestramento che accelera l'inferenza dei modelli MLLM basati su Mixture-of-Experts attraverso l'elusione dinamica degli esperti, utilizzando un meccanismo di gating globale-localmente modulato e una ricerca frontiera per ottimizzare le soglie, ottenendo così significativi miglioramenti sia nelle prestazioni che nella velocità di calcolo rispetto ai metodi esistenti.

Yushi Huang, Zining Wang, Zhihang Yuan + 5 more2026-02-24💬 cs.CL

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Il paper presenta Mantis, un nuovo modello Vision-Language-Action che introduce una previsione visiva svincolata (Disentangled Visual Foresight) per migliorare la comprensione e il ragionamento linguistico, ottenendo prestazioni superiori rispetto agli stati dell'arte sia su benchmark simulati che in scenari reali.

Yi Yang, Xueqi Li, Yiyang Chen + 7 more2026-02-24🤖 cs.AI

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

Il paper presenta GuideFlow, un innovativo framework di pianificazione per la guida autonoma end-to-end che utilizza il Flow Matching vincolato per generare traiettorie sicure, diversificate e controllabili, superando i limiti di collasso modale e di ottimizzazione post-generazione delle soluzioni precedenti e ottenendo risultati all'avanguardia sui principali benchmark.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

Il paper presenta LocateAnything3D, un approccio nativo per i modelli visione-linguaggio che risolve la rilevazione 3D di oggetti multipli formulandola come un problema di previsione del token successivo tramite una sequenza esplicita "Chain-of-Sight", ottenendo risultati all'avanguardia sul benchmark Omni3D e una forte capacità di generalizzazione zero-shot.

Yunze Man, Shihao Wang, Guowen Zhang + 7 more2026-02-24💻 cs

SelfAI: A self-directed framework for long-horizon scientific discovery

Il paper presenta SelfAI, un sistema multi-agente auto-diretto che automatizza la scoperta scientifica a lungo termine trasformando l'intento di ricerca in un processo decisionale strategico e adattivo, ottimizzando il compromesso tra efficienza e diversità per ridurre i tentativi ridondanti rispetto ai metodi tradizionali.

Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng + 9 more2026-02-24🤖 cs.AI

Generative Neural Video Compression via Video Diffusion Prior

Il paper presenta GNVC-VD, il primo framework di compressione video neurale generativo basato su un modello fondazionale di generazione video (DiT), che unisce compressione latente spaziotemporale e raffinamento generativo a livello di sequenza per eliminare l'effetto flickering e migliorare la qualità percettiva anche a bitrate estremamente bassi.

Qi Mao, Hao Cheng, Tinghan Yang + 2 more2026-02-24💻 cs

← Precedente Successivo →