cs.CV articoli | Gist.Science

Lang2Lift: A Language-Guided Autonomous Forklift System for Outdoor Industrial Pallet Handling

Il paper presenta Lang2Lift, un sistema autonomo end-to-end per muletti che utilizza istruzioni in linguaggio naturale e modelli di fondazione per identificare, localizzare e manipolare pallet in ambienti industriali esterni non strutturati.

Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz + 3 more2026-02-26💻 cs

Voxel Densification for Serialized 3D Object Detection: Mitigating Sparsity via Pre-serialization Expansion

Il paper propone un modulo di densificazione dei voxel (VDM) che espande le rappresentazioni spaziali prima della serializzazione per mitigare la sparsità nei modelli di rilevamento 3D, migliorando significativamente l'accuratezza su benchmark come Waymo, nuScenes, Argoverse 2 e ONCE senza compromettere l'efficienza computazionale.

Qifeng Liu, Dawei Zhao, Yabo Dong + 6 more2026-02-26💻 cs

Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

Il paper presenta V²Drop, un metodo innovativo che accelera i Large Vision-Language Models eliminando dinamicamente i token visivi a bassa variazione durante l'inferenza, ottenendo riduzioni significative della latenza (fino al 74,2% per i video) mantenendo quasi intatta l'accuratezza originale.

Junjie Chen, Xuyang Liu, Zichen Wen + 3 more2026-02-26💻 cs

MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification

Il paper presenta MedicalPatchNet, un'architettura di intelligenza artificiale auto-spiegabile per la classificazione delle radiografie del torace che, pur mantenendo prestazioni pari agli stati dell'arte, offre una trasparenza decisionale superiore attraverso l'analisi di patch individuali, migliorando così l'interpretabilità clinica e la fiducia negli strumenti diagnostici.

Patrick Wienholt, Christiane Kuhl, Jakob Nikolas Kather + 2 more2026-02-26🤖 cs.LG

JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

JanusVLN è un nuovo framework per la navigazione visione-linguaggio che supera i limiti delle memorie esplicite tradizionali introducendo una memoria neurale implicita duale, separando e comprimendo le informazioni spaziali e semantiche per ottenere prestazioni all'avanguardia con un'efficienza computazionale superiore.

Shuang Zeng, Dekang Qi, Xinyuan Chang + 7 more2026-02-26💻 cs

Uncovering Grounding IDs: How External Cues Shape Multimodal Binding

Questo studio introduce il concetto di "Grounding IDs", identificatori latenti indotti da segnali esterni che migliorano il legame multimodale e riducono le allucinazioni nei modelli visione-linguaggio rafforzando l'allineamento tra oggetti e partitioni nello spazio delle rappresentazioni.

Hosein Hasani, Amirmohammad Izadi, Fatemeh Askari + 4 more2026-02-26🤖 cs.AI

Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Questo studio dimostra che l'uso dell'entropia semantica discreta per filtrare le domande con alta incertezza semantica migliora significativamente l'accuratezza diagnostica dei modelli visione-linguaggio VLM in ambito radiologico, offrendo una strategia efficace per rilevare e ridurre le allucinazioni in modelli black-box.

Patrick Wienholt, Sophie Caselitz, Robert Siepmann + 6 more2026-02-26💻 cs

ImpMIA: Leveraging Implicit Bias for Membership Inference Attack

Il paper presenta ImpMIA, un attacco di inferenza sulla appartenenza ai dati di addestramento che, sfruttando il bias implicito delle reti neurali e le condizioni di ottimalità KKT senza richiedere modelli di riferimento, supera le prestazioni degli stati dell'arte in scenari realistici dove sono noti solo i pesi del modello e un superset dei dati.

Yuval Golbari, Navve Wasserman, Gal Vardi + 1 more2026-02-26🤖 cs.LG

Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

Il paper presenta Uni-MMMU, un benchmark multimodale unificato e multidisciplinare che valuta la sinergia bidirezionale tra comprensione visiva e generazione attraverso otto domini di ragionamento, rivelando le interdipendenze tra queste capacità e fornendo una base solida per lo sviluppo di modelli unificati.

Kai Zou, Ziqi Huang, Yuhao Dong + 7 more2026-02-26💻 cs

Caption-Driven Explainability: Probing CNNs for Bias via CLIP

Il paper propone un nuovo metodo di intelligenza artificiale spiegabile (XAI) basato su didascalie che integra i modelli CNN nel framework CLIP per identificare i concetti dominanti nelle previsioni, riducendo il rischio di bias e migliorando la robustezza del modello.

Patrick Koller, Amil V. Dravid, Guido M. Schuster + 1 more2026-02-26⚡ eess

World Simulation with Video Foundation Models for Physical AI

Il documento presenta Cosmos-Predict2.5 e Cosmos-Transfer2.5, modelli fondazionali di nuova generazione per l'IA fisica che unificano la generazione di mondi da testo, immagini e video con capacità di traduzione e simulazione avanzate, rilasciando codice e checkpoint open source per accelerare lo sviluppo di sistemi robotici e autonomi.

NVIDIA, :, Arslan Ali + 87 more2026-02-26🤖 cs.AI

Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

Il paper propone CoMa, un nuovo paradigma di pre-addestramento che separa la compressione dei dati dall'addestramento per contrasto, permettendo di trasformare efficientemente i modelli linguistici multimodali in efficaci sistemi di embedding con risultati all'avanguardia.

Da Li, Yuxiao Luo, Keping Bi + 7 more2026-02-26💻 cs

Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models

Il paper presenta QTSplus, un modulo leggero di selezione dei token visivi che, analizzando la query testuale, riduce drasticamente i costi computazionali e la latenza nell'analisi di video lunghi mantenendo o migliorando le prestazioni di localizzazione temporale e comprensione rispetto ai modelli originali.

Siyou Li, Huanan Wu, Juexi Shao + 10 more2026-02-26💻 cs

RobustGait: Robustness Analysis for Appearance Based Gait Recognition

Il paper presenta RobustGait, un framework di benchmark che valuta in modo sistematico la robustezza dei sistemi di riconoscimento dell'andatura basati sull'aspetto contro diverse corruzioni e variabilità, rivelando l'impatto critico dei metodi di estrazione delle silhouette e proponendo strategie di addestramento per migliorare le prestazioni in scenari reali.

Reeshoon Sayera, Akash Kumar, Sirshapan Mitra + 2 more2026-02-26💻 cs

NTK-Guided Implicit Neural Teaching

Il paper propone NINT, un metodo che accelera l'addestramento delle rappresentazioni neurali implicite selezionando dinamicamente le coordinate più influenti tramite il Neural Tangent Kernel, riducendo i tempi di calcolo di circa la metà senza compromettere la qualità.

Chen Zhang, Wei Zuo, Bingyang Cheng + 4 more2026-02-26🤖 cs.LG

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Il paper presenta MIRA, un agente multimodale di ragionamento iterativo che migliora l'editing delle immagini guidato da istruzioni complesse attraverso un ciclo di percezione, ragionamento e azione, ottenendo risultati competitivi rispetto ai sistemi proprietari.

Ziyun Zeng, Hang Hua, Jiebo Luo2026-02-26💻 cs

Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning

Il paper presenta un framework unificato per la navigazione visivo-linguistica aerea che, operando esclusivamente su osservazioni RGB monocolari, supera le limitazioni dei metodi esistenti integrando percezione spaziale, ragionamento temporale e pianificazione delle azioni attraverso un'apprendimento multi-task guidato da prompt e strategie di ottimizzazione dei dati.

Huilin Xu, Zhuoyang Liu, Yixiang Luomei + 1 more2026-02-26🤖 cs.AI

KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification

Il paper propone KD-OCT, un innovativo framework di distillazione della conoscenza che comprime un modello teacher ConvNeXtV2-Large in un efficiente EfficientNet-B2, mantenendo prestazioni diagnostiche cliniche per la classificazione OCT delle patologie retiniche e abilitando il deployment in tempo reale.

Erfan Nourbakhsh, Nasrin Sanjari, Ali Nourbakhsh2026-02-26🤖 cs.AI

VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding

Il paper introduce VULCA-Bench, un benchmark multiculturale bilingue cinese-inglese composto da 7.410 coppie immagine-critica che valuta la comprensione culturale dei modelli visione-linguaggio attraverso un framework a cinque livelli, rivelando che il ragionamento di ordine superiore (L3-L5) rappresenta una sfida maggiore rispetto all'analisi visiva di base.

Haorui Yu, Diji Yang, Hang He + 2 more2026-02-26💬 cs.CL

FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures

Il paper presenta FigEx2, un framework visivo-condizionato che localizza e genera didascalie a livello di pannello per figure scientifiche composte, superando le limitazioni delle descrizioni a livello di figura grazie a un modulo di fusione adattivo, una strategia di ottimizzazione ibrida supervisionata-RL e un nuovo benchmark BioSci-Fig-Cap, ottenendo prestazioni superiori e una notevole trasferibilità zero-shot.

Jifeng Song, Arun Das, Pan Wang + 3 more2026-02-26💬 cs.CL

← Precedente Successivo →