CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

Il paper presenta CogFlow, un nuovo framework ispirato alla cognizione umana che risolve le difficoltà dei modelli linguistici multimodali nella risoluzione di problemi matematici visivi integrando percezione, interiorizzazione della conoscenza e ragionamento attraverso meccanismi di ricompensa sinergica e ottimizzazione strategica, supportato dal nuovo dataset MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Generating metamers of human scene understanding

Il paper presenta MetamerGen, un modello di diffusione latente che genera metameri visivi allineati alla comprensione umana delle scene fondendo informazioni di "gist" periferiche a bassa risoluzione con dettagli ad alta risoluzione dalle fissazioni, validando così la sua efficacia attraverso esperimenti comportamentali che dimostrano come l'allineamento semantico basato sulle fissazioni dell'osservatore sia cruciale per la percezione di identità tra immagine originale e generata.

Ritik Raina, Abe Leite, Alexandros Graikos + 3 more2026-02-25🤖 cs.AI

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

Il paper propone DriveMamba, un modello scalabile basato su State Space (Mamba) che supera le limitazioni dei paradigmi E2E-AD esistenti grazie a una decodifica unificata a complessità lineare e a un'architettura task-centrica che integra modellazione dinamica delle relazioni, corrispondenza implicita tra viste e fusione temporale a lungo termine per una guida autonoma efficiente.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Il paper presenta Sim2Radar, un framework end-to-end che colma il divario tra simulazione e realtà per la percezione radar a onde millimetriche ricostruendo scene 3D materiali-aware da immagini RGB tramite ragionamento visione-linguaggio e simulazione fisica, migliorando significativamente le prestazioni dei modelli di rilevamento oggetti reali attraverso l'addestramento su dati sintetici.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI

EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

Il paper presenta EAGLE, un framework senza riaddestramento che integra l'output di modelli esperti per guidare i modelli linguistici multimodali verso una rilevazione più accurata e semanticamente interpretabile delle anomalie industriali, dimostrando prestazioni competitive rispetto ai metodi basati sul fine-tuning.

Xiaomeng Peng, Xilang Huang, Seon Han Choi2026-02-25💻 cs

Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

Questo studio propone un framework di apprendimento basato su camminate casuali probabilistiche che, sfruttando le reti di similarità corticale fondate sulle pieghe giroidee individuali, supera le limitazioni delle rappresentazioni atlasiche e le sfide dell'eterogeneità anatomica per migliorare la diagnosi differenziale tra malattia di Alzheimer e demenza con corpi di Lewy.

Minheng Chen, Tong Chen, Chao Cao + 4 more2026-02-25🧬 q-bio