Multi-Level Causal Embeddings

Questo articolo presenta un quadro teorico per le incorporazioni causali, generalizzando il concetto di astrazione per mappare modelli dettagliati in sottosistemi di un modello causale più grezzo, definendo una nozione generalizzata di coerenza e dimostrando l'utilità di tale approccio nella risoluzione dei problemi marginali statistici e causali, nonché nel merging di dataset provenienti da rappresentazioni diverse.

Willem Schooltink, Fabio Massimo Zennaro2026-03-02🤖 cs.AI

When Should a Model Change Its Mind? An Energy-Based Theory and Regularizer for Concept Drift in Electrocardiogram (ECG) Signals

Questo studio introduce la Teoria della Conservazione dell'Energia Fisiologica (PECT) e il relativo regolarizzatore ECRL per distinguere la variabilità fisiologica benigna dal vero cambiamento concettuale nei segnali ECG, migliorando significativamente la stabilità e l'accuratezza dei modelli multimodali senza alterarne l'architettura.

Timothy Oladunni, Blessing Ojeme, Kyndal Maclin + 1 more2026-03-02🤖 cs.LG

veScale-FSDP: Flexible and High-Performance FSDP at Scale

Il paper presenta veScale-FSDP, un sistema FSDP ridisegnato che combina il formato di sharding flessibile RaggedShard con un algoritmo di pianificazione consapevole della struttura per supportare nativamente metodi di addestramento avanzati come la quantizzazione a blocchi e ottimizzatori non elementari, ottenendo al contempo un aumento del throughput e una riduzione dell'uso di memoria rispetto alle implementazioni esistenti.

Zezhou Wang, Youjie Li, Zhiqi Lin + 9 more2026-03-02🤖 cs.AI

Detoxifying LLMs via Representation Erasure-Based Preference Optimization

Il paper propone REPO, un metodo di ottimizzazione basato sull'eliminazione delle rappresentazioni che, riformulando la disintossicazione come un problema di preferenza a livello di token, induce modifiche profonde e localizzate nei neuroni responsabili della tossicità, garantendo una robustezza superiore agli attacchi avversari e al riapprendimento rispetto alle tecniche esistenti.

Nazanin Mohammadi Sepahvand, Eleni Triantafillou, Hugo Larochelle + 3 more2026-03-02🤖 cs.LG

On De-Individuated Neurons: Continuous Symmetries Enable Dynamic Topologies

Questo articolo presenta una metodologia innovativa per le reti neurali dinamico-topologiche basata su funzioni di attivazione isotrope, che sfruttano l'invarianza di simmetria e la diagonalizzazione a livello di strato per consentire la crescita e il ridimensionamento dei neuroni in tempo reale senza alterare la funzione computazionale, permettendo così una potatura strutturale equivalente alla neurodegenerazione e una maggiore interpretabilità meccanica.

George Bird2026-03-02🤖 cs.LG

Long Range Frequency Tuning for QML

Questo studio dimostra che l'ottimizzazione basata su gradienti per l'addestramento delle frequenze nei modelli di apprendimento automatico quantistico è limitata a un piccolo intervallo, proponendo quindi un'inizializzazione a griglia basata su codifiche ternarie che garantisce un'accuratezza significativamente superiore sia su dati sintetici che reali rispetto alle metodologie esistenti.

Michael Poppel, Jonas Stein, Sebastian Wölckert + 2 more2026-03-02⚛️ quant-ph

Human Supervision as an Information Bottleneck: A Unified Theory of Error Floors in Human-Guided Learning

Questo articolo presenta una teoria unificata secondo cui il rumore, le preferenze soggettive e la compressione semantica nella supervisione umana agiscono come un collo di bottiglia informativo che impone un limite strutturale agli errori dei modelli di linguaggio, un limite che può essere abbattuto solo integrando segnali ausiliari non umani capaci di ripristinare le informazioni sul target latente.

Alejandro Rodriguez Dominguez2026-03-02🤖 cs.LG

On the Limits of Interpretable Machine Learning in Quintic Root Classification

Lo studio dimostra che, sebbene le reti neurali raggiungano un'elevata accuratezza nella classificazione delle radici reali di polinomi di quinto grado, nessun modello di apprendimento automatico analizzato è riuscito a recuperare autonomamente regole matematiche simboliche interpretabili dai dati grezzi, suggerendo che l'interpretabilità in tali domini strutturati richieda un'induzione di bias strutturale esplicita piuttosto che una semplice approssimazione basata sui dati.

Rohan Thomas, Majid Bani-Yaghoub2026-03-02🤖 cs.LG