cs.CV articoli | Gist.Science

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Questo lavoro presenta RobustVLA, un metodo che migliora la robustezza dei modelli Vision-Language-Action contro perturbazioni multi-modali attraverso l'ottimizzazione offline del rumore nelle azioni e la formulazione della robustezza come problema di bandit multi-braccio, ottenendo significativi guadagni nelle prestazioni sia in simulazione che su robot reali.

Jianing Guo, Zhenhong Wu, Chang Tu + 13 more2026-02-25🤖 cs.AI

DeLTa: Demonstration and Language-Guided Novel Transparent Object Manipulation

Il paper presenta DeLTa, un nuovo framework che combina stime di profondità e pose 6D con la pianificazione guidata dal linguaggio e una singola dimostrazione per abilitare la manipolazione robotica precisa e generalizzabile di oggetti trasparenti sconosciuti in compiti a lungo termine.

Taeyeop Lee, Gyuree Kang, Bowen Wen + 5 more2026-02-25💻 cs

Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models

Il paper propone Spatial-DISE, un benchmark unificato e un dataset scalabile basati su una tassonomia cognitiva che valuta la capacità di ragionamento spaziale intrinseco ed estrinseco (statico e dinamico) nei modelli visione-linguaggio, rivelando un significativo divario rispetto alle competenze umane.

Xinmiao Huang, Qisong He, Zhenglin Huang + 5 more2026-02-25💻 cs

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Il paper introduce UniGenBench++, un benchmark unificato e multilingue per la valutazione semantica fine-granulare dei modelli di generazione testo-immagine, basato su 600 prompt diversificati e su un pipeline di valutazione automatizzata che ne rivela punti di forza e debolezze.

Yibin Wang, Zhimin Li, Yuhang Zang + 8 more2026-02-25💻 cs

egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks

Il paper presenta egoEMOTION, il primo dataset che combina segnali visivi egocentrici e fisiologici con autovalutazioni di emozioni e personalità per definire nuovi benchmark di riconoscimento affettivo in scenari reali.

Matthias Jammot, Björn Braun, Paul Streli + 2 more2026-02-25💻 cs

Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes

Questo lavoro introduce un nuovo framework multimodale che integra dati acustici e visivi per localizzare con precisione gli eventi chirurgici nello spazio 3D, migliorando la comprensione contestuale delle scene operatorie dinamiche e gettando le basi per sistemi chirurgici intelligenti.

Jonas Hein, Lazaros Vlachopoulos, Maurits Geert Laurent Olthof + 3 more2026-02-25⚡ eess

SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

Il paper presenta SpecAware, un modello fondazionale consapevole del contenuto spettrale che unifica l'apprendimento multi-sensore per la mappatura iperspettrale tramite un'architettura basata su iperreti e un nuovo dataset di pre-addestramento su larga scala, superando le limitazioni legate all'eterogeneità dei canali spettrali tra diversi sensori.

Renjie Ji, Xue Wang, Chao Niu + 3 more2026-02-25💻 cs

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

Il paper presenta VCFlow, un'architettura di decodifica visiva ispirata ai processi cognitivi che, modellando l'organizzazione ventrale-dorsale del sistema visivo e utilizzando l'apprendimento contrastivo, permette una ricostruzione video rapida e scalabile da segnali fMRI senza necessità di addestramento specifico per il soggetto.

Jingyu Lu, Haonan Wang, Qixiang Zhang + 1 more2026-02-25🤖 cs.AI

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Questo lavoro presenta il primo metodo di rilevamento dei cambiamenti scenici online, pose-agnostico e privo di etichette, che fonde più viste tramite una nuova funzione di perdita auto-supervisionata e aggiornamenti rapidi basati su 3D Gaussian Splatting, superando le prestazioni degli approcci offline esistenti con un'efficienza in tempo reale superiore a 10 FPS.

Chamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim + 3 more2026-02-25💻 cs

CuriGS: Curriculum-Guided Gaussian Splatting for Sparse View Synthesis

Il paper presenta CuriGS, un framework che utilizza un approccio curricolare e viste "studenti" pseudo-generate per migliorare la ricostruzione 3D da viste sparse tramite Gaussian Splatting, ottenendo risultati superiori in fedeltà e coerenza geometrica rispetto agli stati dell'arte.

Zijian Wu, Mingfeng Jiang, Zidian Lin + 5 more2026-02-25💻 cs

Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

Il paper propone PPCL, un framework di pruning strutturato e flessibile per i Diffusion Transformers che, combinando l'identificazione di layer ridondanti con una distillazione alternata plug-and-play, riduce il numero di parametri del 50% mantenendo prestazioni di generazione immagini quasi invariate.

Jian Ma, Qirong Peng, Xujie Zhu + 3 more2026-02-25💻 cs

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

Il paper introduce ViPO, una variante dell'ottimizzazione della politica di gruppo relativa (GRPO) che trasforma i feedback a scalare in mappe di vantaggio strutturate a livello di pixel per allineare meglio i modelli generativi visivi alle preferenze umane, correggendo efficacemente gli artefatti localizzati e migliorando le prestazioni sia su immagini che su video.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

Il paper presenta KeyTailor, un nuovo framework basato su un'iniezione di dettagli guidata da fotogrammi chiave e sul dataset ViT-HD, che risolve le sfide della fedeltà dei dettagli e dell'integrità dello sfondo nel virtual try-on video senza modificare l'architettura DiT sottostante.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

Il paper presenta CogFlow, un nuovo framework ispirato alla cognizione umana che risolve le difficoltà dei modelli linguistici multimodali nella risoluzione di problemi matematici visivi integrando percezione, interiorizzazione della conoscenza e ragionamento attraverso meccanismi di ricompensa sinergica e ottimizzazione strategica, supportato dal nuovo dataset MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Il paper presenta Fast-ThinkAct, un framework efficiente che riduce drasticamente la latenza di inferenza nei modelli Vision-Language-Action attraverso un ragionamento latente verbalizzabile, mantenendo al contempo elevate capacità di pianificazione e adattamento in compiti di manipolazione complessi.

Chi-Pin Huang, Yunze Man, Zhiding Yu + 4 more2026-02-25🤖 cs.AI

Generating metamers of human scene understanding

Il paper presenta MetamerGen, un modello di diffusione latente che genera metameri visivi allineati alla comprensione umana delle scene fondendo informazioni di "gist" periferiche a bassa risoluzione con dettagli ad alta risoluzione dalle fissazioni, validando così la sua efficacia attraverso esperimenti comportamentali che dimostrano come l'allineamento semantico basato sulle fissazioni dell'osservatore sia cruciale per la percezione di identità tra immagine originale e generata.

Ritik Raina, Abe Leite, Alexandros Graikos + 3 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Il paper propone THz-SSDD, una rete neurale auto-supervisionata basata sull'analisi delle componenti principali che risolve simultaneamente il rumore e la sfocatura nelle immagini terahertz sfruttando una strategia di apprendimento "Recorrupted-to-Recorrupted" senza bisogno di dati etichettati.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

Earth Embeddings as Products: Taxonomy, Ecosystem, and Standardized Access

Questo articolo propone una tassonomia a tre livelli e un'API unificata basata su TorchGeo per standardizzare l'accesso ai prodotti di embedding pre-calcolati dei Modelli Fondamentali Geospaziali, superando le barriere di interoperabilità e facilitando il confronto tra modelli e la riproducibilità nell'osservazione della Terra.

Heng Fang, Adam J. Stewart, Isaac Corley + 2 more2026-02-25💻 cs

Affinity Contrastive Learning for Skeleton-based Human Activity Understanding

Il paper introduce ACLNet, una rete di apprendimento contrastivo basata sull'affinità che migliora la comprensione delle attività umane scheletriche sfruttando le similarità strutturali tra classi e gestendo dinamicamente i campioni anomali per ottenere una migliore discriminazione delle caratteristiche.

Hongda Liu, Yunfan Liu, Min Ren + 3 more2026-02-25💻 cs

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Il paper presenta CER-HV, un framework human-in-the-loop che combina un rilevatore di rumore basato su CER e la verifica umana per identificare e correggere errori nei dataset di riconoscimento di testo manoscritto in caratteri arabi, migliorando significativamente la qualità dei dati e le prestazioni dei modelli.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki2026-02-25💻 cs

← Precedente Successivo →