Detached Skip-Links and RR-Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR

Il paper propone Detached Skip-Links e RR-Probe per migliorare le prestazioni OCR dei modelli multimodali su larga scala disaccoppiando l'aggregazione delle caratteristiche dalla propagazione del gradiente, riducendo così le interferenze che destabilizzano l'addestramento e preservando i dettagli visivi fini.

Ziye Yuan, Ruchang Yao, Chengxin Zheng, Yusheng Zhao, Daxiang Dong, Ming Zhang2026-03-23🤖 cs.AI

Layered Quantum Architecture Search for 3D Point Cloud Classification

Questo articolo presenta la "layered-QAS", una strategia di ricerca architetturale quantistica ispirata al morphismo delle reti classiche che, applicata alla classificazione di nuvole di punti 3D, supera le limitazioni delle architetture quantistiche esistenti mitigando i barren plateau e ottenendo risultati all'avanguardia sul dataset ModelNet.

Natacha Kuete Meli, Jovita Lukasik, Vladislav Golyanik, Michael Moeller2026-03-23⚛️ quant-ph

Investigating a Policy-Based Formulation for Endoscopic Camera Pose Recovery

Questo studio propone un approccio basato su una politica appresa per il recupero della posa della camera endoscopica che, imitando il ragionamento degli esperti e prevedendo direttamente i movimenti relativi a breve termine, supera le limitazioni dei metodi geometrici tradizionali in condizioni di imaging endoscopico difficili come la scarsa texture e i rapidi cambiamenti di illuminazione.

Jan Emily Mangulabnan, Akshat Chauhan, Laura Fleig, Lalithkumar Seenivasan, Roger D. Soberanis-Mukul, S. Swaroop Vedula, Russell H. Taylor, Masaru Ishii, Gregory D. Hager, Mathias Unberath2026-03-23⚡ eess

MFil-Mamba: Multi-Filter Scanning for Spatial Redundancy-Aware Visual State Space Models

Il paper presenta MFil-Mamba, una nuova architettura di modelli di stato spaziale per la visione artificiale che supera i limiti delle strategie di scansione tradizionali riducendo la ridondanza spaziale attraverso un meccanismo di scansione multi-filtro e un adattamento pesato, ottenendo prestazioni superiori su diversi benchmark di classificazione, rilevamento e segmentazione.

Puskal Khadka, KC Santosh2026-03-23💻 cs

A Unified Platform and Quality Assurance Framework for 3D Ultrasound Reconstruction with Robotic, Optical, and Electromagnetic Tracking

Questo studio presenta un framework di garanzia della qualità e una piattaforma open source per la ricostruzione 3D degli ultrasuoni tracciata, che utilizza un fantoccio personalizzato e una pipeline standardizzata per validare e confrontare le prestazioni di sistemi ottici, elettromagnetici e robotici, dimostrando che l'acquisizione robotica raggiunge prestazioni all'avanguardia vicine al limite di risoluzione spaziale del trasduttore.

Lewis Howell, Manisha Waterston, Tze Min Wah, James H. Chandler, James R. McLaughlan2026-03-23⚡ eess

Preference-Guided Debiasing for No-Reference Enhancement Image Quality Assessment

Il paper propone un framework di debiasing guidato dalle preferenze per la valutazione della qualità delle immagini enhanceate senza riferimento, che apprende uno spazio di embedding delle preferenze di enhancement per rimuovere i componenti di disturbo specifici degli algoritmi e migliorare così la generalizzazione cross-algoritmo.

Shiqi Gao, Kang Fu, Zitong Xu, Huiyu Duan, Xiongkuo Min, Jia Wang, Guangtao Zhai2026-03-23💻 cs

Generalizable NGP-SR: Generalizable Neural Radiance Fields Super-Resolution via Neural Graph Primitives

Il paper propone Generalizable NGP-SR, un framework generalizzabile basato su Neural Graphics Primitives che ricostruisce direttamente campi radianti ad alta risoluzione da immagini a bassa risoluzione, garantendo coerenza multi-vista e dettagli ad alta frequenza senza necessità di ottimizzazione per scena o riferimenti esterni.

Wanqi Yuan, Omkar Sharad Mayekar, Connor Pennington, Nianyi Li2026-03-23💻 cs

Synergistic Perception and Generative Recomposition: A Multi-Agent Orchestration for Expert-Level Building Inspection

Il paper presenta FacadeFixer, un framework multi-agente che combina percezione collaborativa e ricomposizione generativa per superare le sfide dell'ispezione delle facciate edilizie, generando dati sintetici ad alta fedeltà che migliorano significativamente l'accuratezza nella rilevazione dei difetti rispetto agli stati dell'arte.

Hui Zhong, Yichun Gao, Luyan Liu, Xusen Guo, Zhaonian Kuang, Qiming Zhang, Xinhu Zheng2026-03-23💻 cs