cs.CV articoli | Gist.Science

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Questo lavoro propone una strategia di post-addestramento basata sul reinforcement learning, che estende l'ottimizzazione della politica relativa di gruppo (GRPO) ai modelli multimodali unificati, per abilitare la generazione intercalata di testo e immagini senza dipendere da grandi dataset specifici, migliorando significativamente la coerenza e la qualità in compiti come il racconto visivo.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Il paper introduce DynHiL-EQA, un nuovo dataset per la risposta a domande in ambienti embodied dinamici, e propone DIVRR, un framework senza addestramento che migliora la robustezza e l'efficienza inferenziale attraverso la raffinazione delle viste e la selezione adattiva della memoria.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Questo studio presenta un'analisi completa e comparativa di diversi metodi di imaging non in linea di vista (NLOS) basati sul tempo di volo, unificandone la formulazione teorica e l'hardware per valutarne le prestazioni, le limitazioni e le somiglianze in condizioni sperimentali controllate.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Il paper presenta GeoSolver, un nuovo framework che migliora il ragionamento passo-passo nei modelli visione-linguaggio per il telerilevamento attraverso un dataset di supervisione processuale su larga scala, un modello di ricompensa granulare e un algoritmo di apprendimento per rinforzo, ottenendo prestazioni all'avanguardia e una scalabilità durante il test-time.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

Il paper presenta GeoAlignCLIP, un framework unificato che migliora l'allineamento visione-linguaggio fine-granulare nelle immagini di telerilevamento attraverso l'apprendimento di allineamenti semantici multi-granulari e la coerenza intra-modale, supportato dal nuovo dataset RSFG-100k, ottenendo prestazioni superiori rispetto ai metodi esistenti su diversi benchmark.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo Yang2026-03-11💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Questo lavoro introduce il paradigma di Panorama-Language Modeling (PLM) e il dataset PanoVQA per gestire scene panoramiche avverse, proponendo un modulo di attenzione sparsa che permette ai modelli visione-linguaggio esistenti di comprendere l'intero contesto 360° senza riaddestramento, superando i limiti della semplice aggregazione di immagini a campo visivo ristretto.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen2026-03-11💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Il paper presenta BinaryAttention, un metodo innovativo che utilizza l'attenzione QK a 1 bit per i Transformer visivi e di diffusione, sostituendo i prodotti scalari in virgola mobile con operazioni bitwise e tecniche di addestramento avanzate per ottenere un'accelerazione superiore a 2x rispetto a FlashAttention2 mantenendo o superando l'accuratezza dei modelli full-precision.

Chaodong Xiao, Zhengqiang Zhang, Lei Zhang2026-03-11💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

Il paper presenta ParTY, un nuovo framework che migliora la sintesi di movimenti umani da testo guidando la generazione globale attraverso parti specifiche del corpo, risolvendo così le limitazioni di coerenza e allineamento semantico dei metodi esistenti.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh Cho2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Questo studio propone un metodo di classificazione delle immagini ispirato ai movimenti saccadici oculari umani, che utilizza le mappe di attenzione del modello Vision Transformer DINO per selezionare e processare solo le regioni visive più informative, ottenendo prestazioni pari o superiori all'elaborazione dell'immagine completa con maggiore efficienza.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

Il paper propone un nuovo framework di super-risoluzione zero-shot per la risonanza magnetica (MRI) basato su una rappresentazione esplicita di Gaussiane fisicamente motivate e un rendering volumetrico, che bilancia l'efficienza computazionale e la qualità ricostruttiva senza richiedere dati di addestramento accoppiati.

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou Wang2026-03-11💻 cs

Decoder-Free Distillation for Quantized Image Restoration

Il paper presenta QDR, un framework di distillazione senza decoder che risolve le sfide dell'addestramento consapevole alla quantizzazione per il ripristino delle immagini, permettendo a modelli Int8 di raggiungere prestazioni vicine a quelle FP32 e un'elevata velocità di inferenza su dispositivi edge.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho Lee2026-03-11💻 cs

Grounding Synthetic Data Generation With Vision and Language Models

Questo lavoro presenta un framework interpretabile basato su modelli visione-linguaggio per la generazione e valutazione di dati sintetici nel telerilevamento, introducendo il dataset ARAS400k che dimostra come l'addestramento su dati reali aumentati con dati sintetici superi le prestazioni dei modelli basati solo su dati reali per segmentazione semantica e descrizione di immagini.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

Il paper presenta X-GS, un framework open ed estensibile che unifica le tecniche di 3D Gaussian Splatting con modelli multimodali downstream, permettendo la creazione in tempo reale di mappe 3D semantiche da flussi video non calibrati per abilitare compiti avanzati come il rilevamento di oggetti e la generazione di didascalie.

Yueen Ma, Irwin King2026-03-11💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

Il paper presenta OTPL-VIO, un sistema di odometria visivo-inerziale stereo robusto che combina descrittori profondi senza addestramento per le linee con un'associazione basata sul trasporto ottimo e un pesamento adattivo dell'incertezza, migliorando significativamente accuratezza e stabilità in scenari a bassa texture e con variazioni di illuminazione.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

Il paper presenta KV-Lock, un metodo senza addestramento per i modelli di diffusione video basati su DiT che migliora la qualità del primo piano mantenendo la coerenza dello sfondo, regolando dinamicamente il blocco delle chiavi-valori e la scala della guida condizionale in base al rischio di allucinazione.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

Il paper presenta DiffWind, un framework differenziabile basato sulla fisica che unisce ricostruzione video e simulazione per modellare con alta precisione le dinamiche di oggetti mossi dal vento, integrando metodi come MPM e LBM e introducendo il nuovo dataset WD-Objects.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

Il paper presenta VarSplat, un sistema SLAM RGB-D basato su 3D Gaussian Splatting che migliora la robustezza nella localizzazione e mappatura apprendendo esplicitamente la varianza di incertezza per ogni gaussiana per guidare l'ottimizzazione verso regioni più affidabili.

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Il paper presenta FootMR, un metodo di raffinamento della motion capture dei piedi che, sfruttando dati di motion capture su larga scala e un dataset di valutazione chiamato MOOF, supera le limitazioni delle tecniche attuali migliorando significativamente la precisione della ricostruzione 3D dei movimenti dei piedi in video monoculare.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Il paper presenta AutoViVQA, un dataset su larga scala per il Visual Question Answering in vietnamita costruito automaticamente, e ne esamina l'efficacia utilizzando architetture basate su transformer e confrontando diverse metriche di valutazione automatica in contesti multilingue.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Il paper presenta DRIFT, un modello basato su Transformer che utilizza un'architettura a doppio percorso per fondere efficacemente informazioni locali e globali dai punti cloud 4D dei radar, ottenendo prestazioni superiori nella rilevazione di oggetti e nella stima della strada libera rispetto ai metodi esistenti.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

← Precedente Successivo →