DC-Merge: Improving Model Merging with Directional Consistency

Il paper introduce DC-Merge, un metodo innovativo per la fusione di modelli che migliora il mantenimento delle conoscenze multi-task bilanciando la distribuzione energetica dei vettori e allineando le loro geometrie direzionali in un sottospazio ortogonale condiviso, ottenendo così prestazioni all'avanguardia in ambiti visivi e vision-language.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

Lo studio dimostra che l'implementazione di pipeline di ragionamento agentiche con recupero di informazioni (RAG) nel campo della radiologia riduce la dispersione decisionale tra diversi modelli linguistici e ne aumenta la robustezza collettiva, suggerendo che la valutazione di tali sistemi richieda analisi complementari alla sola accuratezza per garantire l'affidabilità clinica.

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI

Stem: Rethinking Causal Information Flow in Sparse Attention

Il paper propone Stem, un modulo di sparsità plug-and-play che ottimizza il flusso di informazioni nelle architetture causalmente vincolate attraverso una selezione top-k dipendente dalla posizione e una metrica consapevole dell'output, riducendo così la complessità computazionale e la latenza di pre-filling mantenendo un'elevata accuratezza.

Lin Niu, Xin Luo, Linchuan Xie, Yifu Sun, Guanghua Yu, Jianchen Zhu, S Kevin Zhou2026-03-09🤖 cs.AI

Learning Where the Physics Is: Probabilistic Adaptive Sampling for Stiff PDEs

Il paper presenta il GMM-PIELM, un framework probabilistico che utilizza un algoritmo EM ponderato per adattare dinamicamente il campionamento dei nuclei nelle PDE rigide, consentendo alle Extreme Learning Machines di risolvere con precisione strati limite sottili e ridurre gli errori di ordini di grandezza rispetto ai metodi tradizionali, mantenendo al contempo la velocità computazionale.

Akshay Govind Srinivasan, Balaji Srinivasan2026-03-09🤖 cs.AI

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Questo articolo propone un metodo innovativo basato su modelli di diffusione basati su punteggio per l'inpainting tridimensionale degli impianti dentali nel dominio delle proiezioni, che combina due modelli 2D ortogonali per eliminare gli artefatti nelle immagini CBCT preservando la coerenza spaziale tra le proiezioni.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

Polarized Direct Cross-Attention Message Passing in GNNs for Machinery Fault Diagnosis

Questo articolo presenta PolaDCA, un nuovo framework di apprendimento relazionale basato su un meccanismo di attenzione incrociata diretta polarizzata che, costruendo dinamicamente grafi dai dati e aggregando tre tipi di caratteristiche nodali distinte, supera i limiti delle reti neurali grafiche convenzionali offrendo una diagnosi di guasti più robusta e precisa per macchinari rotanti in condizioni rumorose.

Zongyu Shi, Laibin Zhang, Maoyin Chen2026-03-09🤖 cs.LG

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Il paper introduce SAHOO, un framework pratico che monitora e controlla la deriva dell'allineamento durante il miglioramento ricorsivo di sé stessi attraverso tre meccanismi di salvaguardia, garantendo significativi guadagni di qualità in compiti di generazione di codice e ragionamento matematico senza compromettere vincoli di sicurezza e veridicità.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-09🤖 cs.AI

AI End-to-End Radiation Treatment Planning Under One Second

Il paper presenta AIRT, un framework di deep learning end-to-end che genera piani di radioterapia VMAT per il cancro alla prostata in meno di un secondo, dimostrando una qualità non inferiore ai piani standard prodotti da RapidPlan Eclipse.

Simon Arberet, Riqiang Gao, Martin Kraus, Florin C. Ghesu, Wilko Verbakel, Mamadou Diallo, Anthony Magliari, Venkatesan Karuppusamy, Sushil Beriwal, REQUITE Consortium, Ali Kamen, Dorin Comaniciu2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

Il paper introduce il Dynamic Chunking Diffusion Transformer (DC-DiT), un modello che migliora l'efficienza computazionale e la qualità della generazione delle immagini adattando dinamicamente il numero di token in base alla complessità visiva e allo stadio di denoising, ottenendo risultati superiori rispetto ai DiT tradizionali con un costo di addestramento ridotto.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

Frequency-Separable Hamiltonian Neural Network for Multi-Timescale Dynamics

Il paper introduce la Frequency-Separable Hamiltonian Neural Network (FS-HNN), un approccio che supera i limiti delle reti neurali hamiltoniane tradizionali nella modellazione di dinamiche multiscala decomponendo l'hamiltoniana in modi veloci e lenti addestrati su scale temporali distinte, migliorando così l'estrapolazione a lungo termine e la generalizzazione su sistemi ODE e PDE.

Yaojun Li, Yulong Yang, Christine Allen-Blanchette2026-03-09🤖 cs.LG

Tiny, Hardware-Independent, Compression-based Classification

Questo lavoro dimostra che la distanza di compressione normalizzata, sebbene non sia una metrica formale, può essere efficacemente adattata ai metodi kernel e ottimizzata per l'addestramento, consentendo la creazione di modelli di classificazione ad alta precisione, leggeri e indipendenti dall'hardware che operano interamente lato client preservando la privacy dell'utente.

Charles Meyers, Aaron MacSween, Erik Elmroth, Tommy Löfstedt2026-03-09🤖 cs.LG