cs.CV articoli | Gist.Science

Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models

Il paper presenta QTSplus, un modulo leggero di selezione dei token visivi che, analizzando la query testuale, riduce drasticamente i costi computazionali e la latenza nell'analisi di video lunghi mantenendo o migliorando le prestazioni di localizzazione temporale e comprensione rispetto ai modelli originali.

Siyou Li, Huanan Wu, Juexi Shao + 10 more2026-02-26💻 cs

RobustGait: Robustness Analysis for Appearance Based Gait Recognition

Il paper presenta RobustGait, un framework di benchmark che valuta in modo sistematico la robustezza dei sistemi di riconoscimento dell'andatura basati sull'aspetto contro diverse corruzioni e variabilità, rivelando l'impatto critico dei metodi di estrazione delle silhouette e proponendo strategie di addestramento per migliorare le prestazioni in scenari reali.

Reeshoon Sayera, Akash Kumar, Sirshapan Mitra + 2 more2026-02-26💻 cs

NTK-Guided Implicit Neural Teaching

Il paper propone NINT, un metodo che accelera l'addestramento delle rappresentazioni neurali implicite selezionando dinamicamente le coordinate più influenti tramite il Neural Tangent Kernel, riducendo i tempi di calcolo di circa la metà senza compromettere la qualità.

Chen Zhang, Wei Zuo, Bingyang Cheng + 4 more2026-02-26🤖 cs.LG

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Il paper presenta MIRA, un agente multimodale di ragionamento iterativo che migliora l'editing delle immagini guidato da istruzioni complesse attraverso un ciclo di percezione, ragionamento e azione, ottenendo risultati competitivi rispetto ai sistemi proprietari.

Ziyun Zeng, Hang Hua, Jiebo Luo2026-02-26💻 cs

Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning

Il paper presenta un framework unificato per la navigazione visivo-linguistica aerea che, operando esclusivamente su osservazioni RGB monocolari, supera le limitazioni dei metodi esistenti integrando percezione spaziale, ragionamento temporale e pianificazione delle azioni attraverso un'apprendimento multi-task guidato da prompt e strategie di ottimizzazione dei dati.

Huilin Xu, Zhuoyang Liu, Yixiang Luomei + 1 more2026-02-26🤖 cs.AI

KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification

Il paper propone KD-OCT, un innovativo framework di distillazione della conoscenza che comprime un modello teacher ConvNeXtV2-Large in un efficiente EfficientNet-B2, mantenendo prestazioni diagnostiche cliniche per la classificazione OCT delle patologie retiniche e abilitando il deployment in tempo reale.

Erfan Nourbakhsh, Nasrin Sanjari, Ali Nourbakhsh2026-02-26🤖 cs.AI

VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding

Il paper introduce VULCA-Bench, un benchmark multiculturale bilingue cinese-inglese composto da 7.410 coppie immagine-critica che valuta la comprensione culturale dei modelli visione-linguaggio attraverso un framework a cinque livelli, rivelando che il ragionamento di ordine superiore (L3-L5) rappresenta una sfida maggiore rispetto all'analisi visiva di base.

Haorui Yu, Diji Yang, Hang He + 2 more2026-02-26💬 cs.CL

FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures

Il paper presenta FigEx2, un framework visivo-condizionato che localizza e genera didascalie a livello di pannello per figure scientifiche composte, superando le limitazioni delle descrizioni a livello di figura grazie a un modulo di fusione adattivo, una strategia di ottimizzazione ibrida supervisionata-RL e un nuovo benchmark BioSci-Fig-Cap, ottenendo prestazioni superiori e una notevole trasferibilità zero-shot.

Jifeng Song, Arun Das, Pan Wang + 3 more2026-02-26💬 cs.CL

Pay Attention to Where You Looked

Questo lavoro propone un meccanismo di pesatura delle telecamere, basato su schemi deterministici o apprendimento tramite cross-attention, per migliorare la sintesi di nuove viste in scenari a pochi esempi adattando l'importanza delle viste sorgente in base alla loro rilevanza rispetto alla vista target.

Alex Berian, JhihYang Wu, Daniel Brignac + 2 more2026-02-26💻 cs

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

Il paper introduce DenseGRPO, un nuovo framework che risolve il problema della ricompensa sparsa nell'allineamento dei modelli di flusso per la generazione di immagini, sostituendo il feedback globale con ricompense dense a livello di passo e un meccanismo di esplorazione adattivo per migliorare la precisione e l'efficacia dell'addestramento.

Haoyou Deng, Keyu Yan, Chaojie Mao + 4 more2026-02-26💻 cs

Rectifying Geometry-Induced Similarity Distortions for Real-World Aerial-Ground Person Re-Identification

Il paper propone un nuovo framework per il riconoscimento di persone tra immagini aeree e terrestri che, superando l'assunzione errata di uno spazio di similarità invariante alla geometria, introduce un modulo di trasformazione a basso rango (GIQT) e un meccanismo di prompt condizionato alla geometria per correggere esplicitamente le distorsioni geometriche indotte dalle differenze di viewpoint e scala.

Kailash A. Hambarde, Hugo Proença2026-02-26💻 cs

TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs

Il paper presenta TimeBlind, un benchmark diagnostico basato su coppie minime che rivela come i modelli linguistici multimodali all'avanguardia, pur eccellendo nella semantica statica, falliscano nel comprendere la logica temporale fine, ottenendo un'accuratezza del 48,2% contro il 98,2% umano.

Baiqi Li, Kangyi Zhao, Ce Zhang + 3 more2026-02-26🤖 cs.AI

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Il paper introduce LatentLens, un nuovo metodo interpretativo che rivela come i token visivi siano altamente comprensibili e semanticamente allineati alle rappresentazioni linguistiche in tutti i livelli dei modelli Vision-Language, superando le limitazioni delle tecniche esistenti come LogitLens.

Benno Krojer, Shravan Nayak, Oscar Mañas + 4 more2026-02-26🤖 cs.AI

Enhancing Multi-Image Understanding through Delimiter Token Scaling

Il paper propone un metodo che scala gli stati nascosti dei token delimitatori per mitigare la fuoriuscita di informazioni tra immagini nei modelli visione-linguaggio, migliorando così le prestazioni nella comprensione multi-immagine e in compiti testuali complessi senza costi aggiuntivi di addestramento o inferenza.

Minyoung Lee, Yeji Park, Dongjun Hwang + 3 more2026-02-26💻 cs

HetroD: A High-Fidelity Drone Dataset and Benchmark for Autonomous Driving in Heterogeneous Traffic

Il paper presenta HetroD, un dataset e benchmark ad alta fedeltà basato su droni progettato per colmare il divario nello sviluppo di sistemi di guida autonoma in ambienti eterogenei dominati da utenti vulnerabili della strada, fornendo annotazioni precise e dimostrando che i modelli attuali faticano a gestire le complesse dinamiche di questo tipo di traffico.

Yu-Hsiang Chen, Wei-Jer Chang, Christian Kotulla + 7 more2026-02-26💻 cs

TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection

Il paper presenta TIPS, un approccio per la rilevazione di anomalie zero-shot che, sfruttando un modello visione-linguaggio addestrato con obiettivi spaziali e prompt decoupled, supera i limiti di CLIP migliorando le prestazioni di rilevazione e localizzazione su dataset industriali senza ricorrere a moduli ausiliari complessi.

Alireza Salehi, Ehsan Karami, Sepehr Noey + 4 more2026-02-26💻 cs

Progressive Checkerboards for Autoregressive Multiscale Image Generation

Questo lavoro propone un metodo di generazione autoregressiva multiscale basato su una progressione a scacchiera che permette il campionamento parallelo bilanciato, ottenendo prestazioni competitive su ImageNet con un numero inferiore di passi di campionamento.

David Eigen2026-02-26💻 cs

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

Il paper presenta V-Retrver, un framework di recupero multimodale guidato da agenti che supera i limiti dei metodi basati sul linguaggio integrando un processo di ragionamento intercalato in grado di generare ipotesi e verificarle attivamente tramite strumenti visivi esterni, ottenendo significativi miglioramenti nell'accuratezza e nell'affidabilità del ragionamento.

Dongyang Chen, Chaoyang Wang, Dezhao Su + 6 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

Lo studio rivela che, sebbene i modelli fondazionali per la TC del trauma addominale raggiungano una discriminazione paragonabile a quella dei modelli specifici per il compito, la loro scarsa specificità è determinata principalmente dall'eterogeneità delle classi negative (lesioni d'organo solido concomitanti) piuttosto che dalla sola prevalenza della patologia, indicando la necessità di un adattamento tramite training etichettato prima dell'implementazione clinica.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

Il paper propone un framework di decomposizione tensoriale multi-vista che, analizzando video di passaggi a livello tramite embedding TimeSformer, identifica firme comportamentali latenti rivelando che la posizione geografica è un determinante più forte dell'ora del giorno e consentendo il raggruppamento delle intersezioni per interventi di sicurezza mirati.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG

← Precedente Successivo →