cs.CV articoli | Gist.Science

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Questo lavoro propone un metodo basato sull'Intelligenza Artificiale Spiegabile per attribuire in modo efficiente e accurato le distanze di Wasserstein a specifici componenti dei dati, come sottogruppi o caratteristiche, facilitando così l'analisi degli spostamenti dei dataset e dei fenomeni di trasporto.

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search

Il paper propone il framework DURA, che integra un Selettore di Caratteristiche Chiave e una nuova funzione di perdita per modellare l'incertezza delle corrispondenze rumorose e migliorare le prestazioni della ricerca di persone basata su testo in ambienti con dati non perfettamente allineati.

Zequn Xie, Haoming Ji, Chengxuan Li + 1 more2026-03-03💻 cs

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

Questo studio teorico dimostra che i transformer preaddestrati in modo avversario possono agire come modelli fondazionali universalmente robusti, adattandosi a compiti di classificazione non visti tramite apprendimento contestuale da esempi puliti senza necessità di ulteriore addestramento avversario.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

Il paper presenta la Distanza di Chamfer a pesi flessibili (FCD), una nuova funzione obiettivo asimmetrica che, decouplando precisione locale e completezza globale, risolve i problemi di aggregazione dei punti e migliora significativamente la qualità e l'uniformità strutturale dei risultati nella completazione di nuvole di punti rispetto alla Distanza di Chamfer standard.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

Il paper presenta DeepEyes, un modello visione-linguaggio addestrato tramite reinforcement learning che impara nativamente a "pensare con le immagini" integrando attivamente le informazioni visive nel ragionamento, migliorando così le prestazioni in compiti di percezione, ragionamento matematico e riducendo le allucinazioni senza bisogno di dati di ragionamento pre-collezionati.

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

Il paper introduce GradPCA, un metodo per il rilevamento di dati fuori distribuzione (OOD) che sfrutta la struttura a basso rango dei gradienti delle reti neurali indotta dall'allineamento NTK, applicando l'analisi delle componenti principali (PCA) alle medie dei gradienti per ottenere prestazioni più coerenti e fornendo un quadro teorico che evidenzia il ruolo cruciale della qualità delle feature.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

Il paper presenta DTR, una difesa innovativa a tempo di inferenza che mitiga gli attacchi jailbreak multimodali nei modelli visione-linguaggio ottimizzando dinamicamente i pesi dei token visivi nei cache KV, ottenendo così una maggiore robustezza senza compromettere le capacità generali del modello.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

Il paper presenta Seek-CAD, un approccio pionieristico e senza addestramento che utilizza il modello open-source DeepSeek-R1 in combinazione con un feedback visivo e di ragionamento (Chain-of-Thought) per generare e perfezionare iterativamente modelli CAD parametrici 3D, supportato da un nuovo dataset basato sul paradigma di design SSR.

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Probabilistic Kernel Function for Fast Angle Testing

Questo articolo propone nuove funzioni kernel probabilistiche basate su proiezioni deterministiche per il test degli angoli in spazi ad alta dimensionalità, dimostrando sperimentalmente che superano i metodi basati su distribuzioni gaussiane e offrono un throughput di ricerca 2,5-3 volte superiore rispetto all'algoritmo HNSW.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

Il paper introduce Point-MoE, un'architettura basata su Mixture-of-Experts che permette un addestramento congiunto su larga scala di dataset eterogenei per la segmentazione semantica 3D, superando i limiti dei modelli tradizionali senza richiedere etichette specifiche per dataset durante l'addestramento o l'inferenza.

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

Il paper presenta SenseFlow, un metodo che risolve le difficoltà di convergenza della distillazione per modelli text-to-image su larga scala basati sul flusso (come SD 3.5 e FLUX) introducendo l'allineamento implicito della distribuzione e la guida intra-segmento per ottenere prestazioni superiori rispetto alle tecniche esistenti.

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Questo lavoro introduce FaceCoT, il primo dataset su larga scala di domande e risposte visive con ragionamento a catena di pensiero per il rilevamento di falsi volti, e una strategia di apprendimento progressivo potenziata da CoT, che insieme migliorano significativamente la robustezza e l'interpretabilità dei modelli multimodali rispetto agli stati dell'arte.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Il paper introduce OmniSpatial, un benchmark completo basato sulla psicologia cognitiva con oltre 8.400 coppie di domande e risposte per valutare le capacità di ragionamento spaziale avanzato dei modelli visione-linguaggio, evidenziando le loro attuali limitazioni e proponendo strategie come PointGraph e SpatialCoT per migliorarle.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Il paper presenta UniCUE, il primo framework unificato che genera direttamente l'audio dal video della Lingua dei Segni Cued (CS) cinese senza passare per il testo, superando i limiti delle pipeline tradizionali grazie a un'architettura che integra compiti di riconoscimento e generazione supportata dal nuovo dataset su larga scala UniCUE-HI.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Questo studio migliora il rilevamento di specie selvatiche fuori distribuzione (OOD) per i "Cinque Grandi" dell'Africa, dimostrando che l'approccio basato su Nearest Class Mean (NCM) con feature pre-addestrate su ImageNet supera significativamente i metodi OOD esistenti, riducendo l'overconfidence dei modelli di visione artificiale in ambienti con specie non note.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Il paper propone un approccio di meta-apprendimento che migliora le capacità few-shot dei Large Multimodal Models per il Visual Question Answering distillando prompt soft da caratteristiche visive rilevanti tramite un modulo mappatore di attenzione, superando significativamente sia l'apprendimento in contesto che i metodi di finetuning efficiente.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Il paper presenta BitVLA, un modello nativo Vision-Language-Action a 1 bit progettato per la manipolazione robotica che, grazie a una strategia di addestramento ottimizzata e alla compressione del backbone visivo, riduce l'occupazione di memoria di 11 volte e la latenza di 4,4 volte mantenendo prestazioni competitive rispetto alle controparti a precisione intera.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Il paper introduce PD $^{2}$ GS, un nuovo framework auto-supervisionato basato su Gaussian Splatting che risolve la frammentazione nella modellazione di oggetti articolati apprendendo un campo gaussiano canonico condiviso e una deformazione continua per abilitare un controllo fluido e una decoupling accurata a livello di parti, validato anche sul nuovo dataset reale-to-sim RS-Art.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Il paper introduce VITA, un metodo di apprendimento zero-shot per funzioni di valore che supera i limiti dei modelli visione-linguaggio congelati attraverso l'adattamento al momento dell'inferenza e una strategia di campionamento basata sulla dissimilarità, ottenendo risultati superiori in compiti di manipolazione robotica e nel shaping della ricompensa per l'apprendimento per rinforzo offline.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

Il paper introduce VINCIE, un modello basato su trasformatori di diffusione che impara l'editing di immagini in contesto direttamente da video, superando le dipendenze da pipeline specifiche e ottenendo risultati all'avanguardia su benchmark multi-turno.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

← Precedente Successivo →

cs.CV