Learning Unified Representations from Heterogeneous Data for Robust Heart Rate Modeling

Il paper propone un nuovo framework che apprende rappresentazioni unificate robuste per la previsione della frequenza cardiaca, affrontando l'eterogeneità dei dati tramite dropout casuale delle feature e apprendimento contrastivo, e validando il metodo su un nuovo dataset benchmark (PARROTAO) con risultati significativamente superiori rispetto agli stati dell'arte.

Zhengdong Huang, Zicheng Xie, Wentao Tian + 3 more2026-02-25🤖 cs.LG

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Questo lavoro presenta RobustVLA, un metodo che migliora la robustezza dei modelli Vision-Language-Action contro perturbazioni multi-modali attraverso l'ottimizzazione offline del rumore nelle azioni e la formulazione della robustezza come problema di bandit multi-braccio, ottenendo significativi guadagni nelle prestazioni sia in simulazione che su robot reali.

Jianing Guo, Zhenhong Wu, Chang Tu + 13 more2026-02-25🤖 cs.AI

SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

Il paper presenta SpecAware, un modello fondazionale consapevole del contenuto spettrale che unifica l'apprendimento multi-sensore per la mappatura iperspettrale tramite un'architettura basata su iperreti e un nuovo dataset di pre-addestramento su larga scala, superando le limitazioni legate all'eterogeneità dei canali spettrali tra diversi sensori.

Renjie Ji, Xue Wang, Chao Niu + 3 more2026-02-25💻 cs

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Questo lavoro presenta il primo metodo di rilevamento dei cambiamenti scenici online, pose-agnostico e privo di etichette, che fonde più viste tramite una nuova funzione di perdita auto-supervisionata e aggiornamenti rapidi basati su 3D Gaussian Splatting, superando le prestazioni degli approcci offline esistenti con un'efficienza in tempo reale superiore a 10 FPS.

Chamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim + 3 more2026-02-25💻 cs

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

Il paper introduce ViPO, una variante dell'ottimizzazione della politica di gruppo relativa (GRPO) che trasforma i feedback a scalare in mappe di vantaggio strutturate a livello di pixel per allineare meglio i modelli generativi visivi alle preferenze umane, correggendo efficacemente gli artefatti localizzati e migliorando le prestazioni sia su immagini che su video.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

Il paper presenta CogFlow, un nuovo framework ispirato alla cognizione umana che risolve le difficoltà dei modelli linguistici multimodali nella risoluzione di problemi matematici visivi integrando percezione, interiorizzazione della conoscenza e ragionamento attraverso meccanismi di ricompensa sinergica e ottimizzazione strategica, supportato dal nuovo dataset MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Generating metamers of human scene understanding

Il paper presenta MetamerGen, un modello di diffusione latente che genera metameri visivi allineati alla comprensione umana delle scene fondendo informazioni di "gist" periferiche a bassa risoluzione con dettagli ad alta risoluzione dalle fissazioni, validando così la sua efficacia attraverso esperimenti comportamentali che dimostrano come l'allineamento semantico basato sulle fissazioni dell'osservatore sia cruciale per la percezione di identità tra immagine originale e generata.

Ritik Raina, Abe Leite, Alexandros Graikos + 3 more2026-02-25🤖 cs.AI