cs.CV articoli | Gist.Science

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Questo studio analizza sistematicamente come la complessità dei prompt influenzi qualità, diversità e coerenza nei modelli testo-immagine, rivelando che l'espansione dei prompt tramite modelli linguistici pre-addestrati supera persino i dati reali in termini di diversità e estetica, pur riducendo lo spostamento distributivo.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

Il paper propone MergeMix, un paradigma unificato che combina SFT e RL tramite un'augmentazione basata su Mixup di token, per migliorare l'allineamento, la generalizzazione e l'efficienza dei modelli linguistici multi-modali.

Xin Jin, Siyuan Li, Siyong Jian + 2 more2026-02-24💻 cs

SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions

Il documento presenta SYNAPSE-Net, un framework unificato basato su codificatori convoluzionali multi-stream e un'attenzione incrociata modale, progettato per migliorare la robustezza e la generalizzabilità nella segmentazione automatica di lesioni cerebrali eterogenee utilizzando risonanza magnetica multimodale.

Md. Mehedi Hassan, Shafqat Alam, Shahriar Ahmed Seam + 1 more2026-02-24⚡ eess

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

Il paper introduce BEAT, il primo framework per iniettare backdoor visive negli agenti embodied basati su modelli visione-linguaggio tramite oggetti ambientali come trigger, utilizzando un innovativo apprendimento contrastivo per garantire un'attivazione precisa e generalizzabile mantenendo al contempo elevate prestazioni nelle attività normali.

Qiusi Zhan, Hyeonjeong Ha, Rui Yang + 7 more2026-02-24💬 cs.CL

A Lightweight 3D-CNN for Event-Based Human Action Recognition with Privacy-Preserving Potential

Questo articolo presenta una rete neurale convoluzionale 3D leggera basata su visione event-driven per il riconoscimento delle azioni umane, che garantisce la privacy, riduce il consumo computazionale e raggiunge un'accuratezza superiore rispetto alle architetture tradizionali, rendendola ideale per applicazioni edge.

Mehdi Sefidgar Dilmaghani, Francis Fowley, Peter Corcoran2026-02-24💻 cs

Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Questo paper propone il *Rank-enhancing Token Fuser*, un framework di fusione multimodale basato sull'efficacia del rango che contrasta simultaneamente il collasso delle caratteristiche e quello delle modalità, dimostrando risultati superiori nell'anticipazione delle azioni umane.

Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar + 1 more2026-02-24🤖 cs.LG

StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

Il paper presenta StreamDiffusionV2, un sistema di streaming training-free basato su modelli di diffusione video che, grazie a un'orchestrazione scalabile e ottimizzazioni specifiche per i vincoli di latenza, garantisce una generazione video interattiva in tempo reale con alta coerenza temporale e prestazioni elevate su hardware eterogeneo.

Tianrui Feng, Zhi Li, Shuo Yang + 11 more2026-02-24🤖 cs.LG

PRISM: Diversifying Dataset Distillation by Decoupling Architectural Priors

Il paper presenta PRISM, un framework per la distillazione dei dataset che decoppia i prior architetturali utilizzando modelli insegnanti diversi per la corrispondenza dei logit e l'allineamento della normalizzazione di batch, ottenendo così dati sintetici più diversificati e prestazioni superiori rispetto ai metodi a insegnante singolo o multipli su ImageNet-1K.

Brian B. Moser, Shalini Sarode, Federico Raue + 6 more2026-02-24🤖 cs.AI

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Il paper presenta MoDES, un framework senza addestramento che accelera l'inferenza dei modelli MLLM basati su Mixture-of-Experts attraverso l'elusione dinamica degli esperti, utilizzando un meccanismo di gating globale-localmente modulato e una ricerca frontiera per ottimizzare le soglie, ottenendo così significativi miglioramenti sia nelle prestazioni che nella velocità di calcolo rispetto ai metodi esistenti.

Yushi Huang, Zining Wang, Zhihang Yuan + 5 more2026-02-24💬 cs.CL

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Il paper presenta Mantis, un nuovo modello Vision-Language-Action che introduce una previsione visiva svincolata (Disentangled Visual Foresight) per migliorare la comprensione e il ragionamento linguistico, ottenendo prestazioni superiori rispetto agli stati dell'arte sia su benchmark simulati che in scenari reali.

Yi Yang, Xueqi Li, Yiyang Chen + 7 more2026-02-24🤖 cs.AI

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

Il paper presenta GuideFlow, un innovativo framework di pianificazione per la guida autonoma end-to-end che utilizza il Flow Matching vincolato per generare traiettorie sicure, diversificate e controllabili, superando i limiti di collasso modale e di ottimizzazione post-generazione delle soluzioni precedenti e ottenendo risultati all'avanguardia sui principali benchmark.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

Il paper presenta LocateAnything3D, un approccio nativo per i modelli visione-linguaggio che risolve la rilevazione 3D di oggetti multipli formulandola come un problema di previsione del token successivo tramite una sequenza esplicita "Chain-of-Sight", ottenendo risultati all'avanguardia sul benchmark Omni3D e una forte capacità di generalizzazione zero-shot.

Yunze Man, Shihao Wang, Guowen Zhang + 7 more2026-02-24💻 cs

SelfAI: A self-directed framework for long-horizon scientific discovery

Il paper presenta SelfAI, un sistema multi-agente auto-diretto che automatizza la scoperta scientifica a lungo termine trasformando l'intento di ricerca in un processo decisionale strategico e adattivo, ottimizzando il compromesso tra efficienza e diversità per ridurre i tentativi ridondanti rispetto ai metodi tradizionali.

Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng + 9 more2026-02-24🤖 cs.AI

Generative Neural Video Compression via Video Diffusion Prior

Il paper presenta GNVC-VD, il primo framework di compressione video neurale generativo basato su un modello fondazionale di generazione video (DiT), che unisce compressione latente spaziotemporale e raffinamento generativo a livello di sequenza per eliminare l'effetto flickering e migliorare la qualità percettiva anche a bitrate estremamente bassi.

Qi Mao, Hao Cheng, Tinghan Yang + 2 more2026-02-24💻 cs

MedDIFT: Multi-Scale Diffusion-Based Correspondence in 3D Medical Imaging

Il paper presenta MedDIFT, un framework di corrispondenza 3D privo di addestramento che sfrutta le rappresentazioni multi-scala di un modello di diffusione latente preaddestrato per ottenere un allineamento anatomico accurato nelle immagini mediche, superando i limiti dei metodi basati sulla similarità locale.

Xingyu Zhang, Anna Reithmeir, Fryderyk Kögl + 3 more2026-02-24💻 cs

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Questo lavoro presenta CheXmask-U, un nuovo dataset su larga scala e un metodo ibrido per la stima dell'incertezza nella segmentazione anatomica basata su punti chiave delle radiografie toraciche, che migliora l'affidabilità e la sicurezza delle previsioni attraverso la quantificazione dell'incertezza latente e predittiva.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Il paper introduce MRD, un metodo che utilizza il rendering differenziabile basato sulla fisica per generare metameri di scena che attivano allo stesso modo i modelli di visione, permettendo così di analizzare la loro comprensione implicita delle proprietà 3D come forma e materiale.

Benjamin Beilharz, Thomas S. A. Wallis2026-02-24💻 cs

DL $^3$ M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

Il paper presenta DL³M, un framework che combina il modello ibrido MobileCoAtNet per la classificazione di immagini endoscopiche con grandi modelli linguistici per generare ragionamenti clinici strutturati, evidenziando come, sebbene una classificazione accurata migliori la qualità delle spiegazioni, gli attuali LLM rimangano ancora inaffidabili per le decisioni mediche ad alto rischio a causa della loro instabilità.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

Il paper propone FALCON-SFOD, un framework per l'object detection senza sorgente che migliora l'attenzione agli oggetti nello spazio delle caratteristiche sfruttando i prior dei modelli fondazionali tramite regolarizzazione spaziale e un'etichettatura pseudo robusta al rumore, superando così i limiti degli approcci basati su Mean-Teacher.

Sairam VCR, Rishabh Lalla, Aveen Dayal + 4 more2026-02-24💻 cs

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Il paper presenta REVEALER, un framework unificato che utilizza il ragionamento visivo guidato dal rinforzo per valutare con precisione e interpretabilità l'allineamento tra testo e immagine a livello di elementi, superando le prestazioni degli attuali metodi di valutazione.

Fulin Shi, Wenyi Xiao, Bin Chen + 2 more2026-02-24💻 cs

← Precedente Successivo →

cs.CV