Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

Il paper introduce ViPO, una variante dell'ottimizzazione della politica di gruppo relativa (GRPO) che trasforma i feedback a scalare in mappe di vantaggio strutturate a livello di pixel per allineare meglio i modelli generativi visivi alle preferenze umane, correggendo efficacemente gli artefatti localizzati e migliorando le prestazioni sia su immagini che su video.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

Il paper presenta CogFlow, un nuovo framework ispirato alla cognizione umana che risolve le difficoltà dei modelli linguistici multimodali nella risoluzione di problemi matematici visivi integrando percezione, interiorizzazione della conoscenza e ragionamento attraverso meccanismi di ricompensa sinergica e ottimizzazione strategica, supportato dal nuovo dataset MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Generating metamers of human scene understanding

Il paper presenta MetamerGen, un modello di diffusione latente che genera metameri visivi allineati alla comprensione umana delle scene fondendo informazioni di "gist" periferiche a bassa risoluzione con dettagli ad alta risoluzione dalle fissazioni, validando così la sua efficacia attraverso esperimenti comportamentali che dimostrano come l'allineamento semantico basato sulle fissazioni dell'osservatore sia cruciale per la percezione di identità tra immagine originale e generata.

Ritik Raina, Abe Leite, Alexandros Graikos + 3 more2026-02-25🤖 cs.AI

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

Il paper propone DriveMamba, un modello scalabile basato su State Space (Mamba) che supera le limitazioni dei paradigmi E2E-AD esistenti grazie a una decodifica unificata a complessità lineare e a un'architettura task-centrica che integra modellazione dinamica delle relazioni, corrispondenza implicita tra viste e fusione temporale a lungo termine per una guida autonoma efficiente.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Il paper presenta Sim2Radar, un framework end-to-end che colma il divario tra simulazione e realtà per la percezione radar a onde millimetriche ricostruendo scene 3D materiali-aware da immagini RGB tramite ragionamento visione-linguaggio e simulazione fisica, migliorando significativamente le prestazioni dei modelli di rilevamento oggetti reali attraverso l'addestramento su dati sintetici.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI