EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

Il paper presenta EAGLE, un framework senza riaddestramento che integra l'output di modelli esperti per guidare i modelli linguistici multimodali verso una rilevazione più accurata e semanticamente interpretabile delle anomalie industriali, dimostrando prestazioni competitive rispetto ai metodi basati sul fine-tuning.

Xiaomeng Peng, Xilang Huang, Seon Han Choi2026-02-25💻 cs

Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

Questo studio propone un framework di apprendimento basato su camminate casuali probabilistiche che, sfruttando le reti di similarità corticale fondate sulle pieghe giroidee individuali, supera le limitazioni delle rappresentazioni atlasiche e le sfide dell'eterogeneità anatomica per migliorare la diagnosi differenziale tra malattia di Alzheimer e demenza con corpi di Lewy.

Minheng Chen, Tong Chen, Chao Cao + 4 more2026-02-25🧬 q-bio

TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

Il paper propone TraceVision, un modello visione-linguaggio unificato che integra la comprensione spaziale consapevole delle traiettorie per simulare l'attenzione visiva umana, ottenendo prestazioni all'avanguardia in compiti di generazione di didascalie, localizzazione e segmentazione grazie a un nuovo modulo di percezione visiva, una pipeline di addestramento in tre fasi e il dataset RILN.

Fan Yang, Shurong Zheng, Hongyin Zhao + 5 more2026-02-25💻 cs

VISION-ICE: Video-based Interpretation and Spatial Identification of Arrhythmia Origins via Neural Networks in Intracardiac Echocardiography

Il paper presenta VISION-ICE, un framework basato su reti neurali convoluzionali 3D che analizza i video dell'ecocardiografia intracardiaca per localizzare automaticamente l'origine delle aritmie, dimostrando la fattibilità di ridurre i tempi procedurali e migliorare le decisioni cliniche.

Dorsa EPMoghaddam, Feng Gao, Drew Bernard + 3 more2026-02-25🤖 cs.LG

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Il paper introduce UniLACT, un modello Vision-Language-Action che supera i limiti delle rappresentazioni basate solo su RGB incorporando la struttura geometrica attraverso un preaddestramento su azioni latenti unificate e consapevoli della profondità, apprese tramite il framework UniLARN, ottenendo così prestazioni superiori in compiti di manipolazione sia in simulazione che nel mondo reale.

Manish Kumar Govind, Dominick Reilly, Pu Wang + 1 more2026-02-25💻 cs

Large-scale Photorealistic Outdoor 3D Scene Reconstruction from UAV Imagery Using Gaussian Splatting Techniques

Questo studio presenta un pipeline end-to-end che combina lo streaming video in tempo reale da droni, la fusione sensoriale e l'ottimizzazione del Gaussian Splatting 3D per generare ricostruzioni 3D fotorealistiche di grandi scenari esterni con latenza ridotta e prestazioni di rendering superiori rispetto ai metodi basati su NeRF.

Christos Maikos, Georgios Angelidis, Georgios Th. Papadopoulos2026-02-25💻 cs