cs.LG articoli | Gist.Science

Multi-Level Causal Embeddings

Questo articolo presenta un quadro teorico per le incorporazioni causali, generalizzando il concetto di astrazione per mappare modelli dettagliati in sottosistemi di un modello causale più grezzo, definendo una nozione generalizzata di coerenza e dimostrando l'utilità di tale approccio nella risoluzione dei problemi marginali statistici e causali, nonché nel merging di dataset provenienti da rappresentazioni diverse.

Willem Schooltink, Fabio Massimo Zennaro2026-03-02🤖 cs.AI

Manifold of Failure: Behavioral Attraction Basins in Language Models

Questo articolo introduce un quadro basato su MAP-Elites per mappare sistematicamente i "bacini di attrazione comportamentale" delle regioni di fallimento nei modelli linguistici, rivelando topologie di sicurezza specifiche per modello che superano i limiti degli attuali metodi di attacco.

Sarthak Munshi, Manish Bhatt, Vineeth Sai Narajala + 4 more2026-03-02🤖 cs.AI

When Should a Model Change Its Mind? An Energy-Based Theory and Regularizer for Concept Drift in Electrocardiogram (ECG) Signals

Questo studio introduce la Teoria della Conservazione dell'Energia Fisiologica (PECT) e il relativo regolarizzatore ECRL per distinguere la variabilità fisiologica benigna dal vero cambiamento concettuale nei segnali ECG, migliorando significativamente la stabilità e l'accuratezza dei modelli multimodali senza alterarne l'architettura.

Timothy Oladunni, Blessing Ojeme, Kyndal Maclin + 1 more2026-03-02🤖 cs.LG

veScale-FSDP: Flexible and High-Performance FSDP at Scale

Il paper presenta veScale-FSDP, un sistema FSDP ridisegnato che combina il formato di sharding flessibile RaggedShard con un algoritmo di pianificazione consapevole della struttura per supportare nativamente metodi di addestramento avanzati come la quantizzazione a blocchi e ottimizzatori non elementari, ottenendo al contempo un aumento del throughput e una riduzione dell'uso di memoria rispetto alle implementazioni esistenti.

Zezhou Wang, Youjie Li, Zhiqi Lin + 9 more2026-03-02🤖 cs.AI

MoDora: Tree-Based Semi-Structured Document Analysis System

Il paper presenta MoDora, un sistema basato su LLM che analizza documenti semi-strutturati organizzando i loro elementi in una "Component-Correlation Tree" (CCTree) e utilizzando strategie di recupero specifiche per tipo di domanda, superando così le limitazioni delle tecniche esistenti nella comprensione del layout e delle relazioni gerarchiche.

Bangrui Xu, Qihang Yao, Zirui Tang + 8 more2026-03-02💬 cs.CL

Conformalized Neural Networks for Federated Uncertainty Quantification under Dual Heterogeneity

Il paper presenta FedWQ-CP, un metodo efficiente per la quantificazione dell'incertezza nel federated learning che, attraverso una singola round di comunicazione e l'aggregazione di soglie locali, garantisce una copertura affidabile in scenari caratterizzati da doppia eterogeneità dei dati e dei modelli.

Quang-Huy Nguyen, Jiaqi Wang, Wei-Shinn Ku2026-03-02🤖 cs.AI

ParamMem: Augmenting Language Agents with Parametric Reflective Memory

Il paper introduce ParamMem, un modulo di memoria parametrica che codifica pattern riflessivi per generare segnali diversificati, e il relativo framework ParamAgent, i quali migliorano le prestazioni degli agenti linguistici in compiti complessi superando i limiti delle riflessioni ripetitive.

Tianjun Yao, Yongqiang Chen, Yujia Zheng + 3 more2026-03-02🤖 cs.LG

Universality of Shallow and Deep Neural Networks on Non-Euclidean Spaces

Questo lavoro stabilisce le condizioni generali per l'approssimazione universale di reti neurali superficiali e profonde su spazi topologici non euclidei, dimostrando che anche architetture profonde con larghezza limitata mantengono tale proprietà, come illustrato dall'applicazione del teorema di Kolmogorov-Ostrand a spazi metrici compatti.

Vugar Ismailov2026-03-02🤖 cs.LG

Pacing Opinion Polarization via Graph Reinforcement Learning

Il paper presenta PACIFIER, un framework di apprendimento per rinforzo su grafi che modella la moderazione della polarizzazione delle opinioni come un processo decisionale sequenziale, superando i limiti dei metodi esistenti in termini di scalabilità, flessibilità e adattabilità a dinamiche non lineari e vincoli di costo.

Mingkai Liao2026-03-02🤖 cs.LG

Detoxifying LLMs via Representation Erasure-Based Preference Optimization

Il paper propone REPO, un metodo di ottimizzazione basato sull'eliminazione delle rappresentazioni che, riformulando la disintossicazione come un problema di preferenza a livello di token, induce modifiche profonde e localizzate nei neuroni responsabili della tossicità, garantendo una robustezza superiore agli attacchi avversari e al riapprendimento rispetto alle tecniche esistenti.

Nazanin Mohammadi Sepahvand, Eleni Triantafillou, Hugo Larochelle + 3 more2026-03-02🤖 cs.LG

Complex Networks and the Drug Repositioning Problem

Questa tesi di laurea analizza le proprietà dei grafi di una rete multi-livello farmaco-proteina per comprendere i modelli di scoperta esistenti e sviluppare un sistema di raccomandazione basato sulla diffusione di rete per il riposizionamento di farmaci contro le malattie tropicali neglette.

Felipe Bivort Haiek2026-03-02🧬 q-bio

U-CAN: Utility-Aware Contrastive Attenuation for Efficient Unlearning in Generative Recommendation

Il paper propone U-CAN, un framework di unlearning che utilizza un'attenuazione contrastiva consapevole dell'utilità su adattatori a basso rango per rimuovere selettivamente i dati sensibili dai modelli di raccomandazione generativa preservando al contempo le prestazioni generali.

Zezheng Wu, Rui Wang, Xinghe Cheng + 4 more2026-03-02🤖 cs.LG

On De-Individuated Neurons: Continuous Symmetries Enable Dynamic Topologies

Questo articolo presenta una metodologia innovativa per le reti neurali dinamico-topologiche basata su funzioni di attivazione isotrope, che sfruttano l'invarianza di simmetria e la diagonalizzazione a livello di strato per consentire la crescita e il ridimensionamento dei neuroni in tempo reale senza alterare la funzione computazionale, permettendo così una potatura strutturale equivalente alla neurodegenerazione e una maggiore interpretabilità meccanica.

George Bird2026-03-02🤖 cs.LG

Long Range Frequency Tuning for QML

Questo studio dimostra che l'ottimizzazione basata su gradienti per l'addestramento delle frequenze nei modelli di apprendimento automatico quantistico è limitata a un piccolo intervallo, proponendo quindi un'inizializzazione a griglia basata su codifiche ternarie che garantisce un'accuratezza significativamente superiore sia su dati sintetici che reali rispetto alle metodologie esistenti.

Michael Poppel, Jonas Stein, Sebastian Wölckert + 2 more2026-03-02⚛️ quant-ph

Human Supervision as an Information Bottleneck: A Unified Theory of Error Floors in Human-Guided Learning

Questo articolo presenta una teoria unificata secondo cui il rumore, le preferenze soggettive e la compressione semantica nella supervisione umana agiscono come un collo di bottiglia informativo che impone un limite strutturale agli errori dei modelli di linguaggio, un limite che può essere abbattuto solo integrando segnali ausiliari non umani capaci di ripristinare le informazioni sul target latente.

Alejandro Rodriguez Dominguez2026-03-02🤖 cs.LG

SALIENT: Frequency-Aware Paired Diffusion for Controllable Long-Tail CT Detection

SALIENT è un framework di diffusione condizionale basato su maschere e dominio wavelet che genera volumi CT sintetici accoppiati per migliorare l'addestramento della rilevazione di lesioni rare a lungo coda, garantendo un controllo attributivo, un'efficienza computazionale e prestazioni di rilevazione superiori rispetto ai metodi esistenti.

Yifan Li, Mehrdad Salimitari, Taiyu Zhang + 2 more2026-03-02⚡ eess

Global Interpretability via Automated Preprocessing: A Framework Inspired by Psychiatric Questionnaires

Il paper presenta REFINE, un framework che separa la modellazione non lineare per la stabilizzazione dei dati dei questionari psichiatrici da una mappatura lineare interpretabile, migliorando così la precisione predittiva e la trasparenza globale rispetto ai metodi esistenti.

Eric V. Strobl2026-03-02🧬 q-bio

Neural ensemble Kalman filter: Data assimilation for compressible flows with shocks

Questo articolo introduce il Neural Ensemble Kalman Filter, un nuovo metodo di assimilazione dati che utilizza reti neurali per mappare flussi comprimibili con shock in uno spazio parametrico liscio, risolvendo così le oscillazioni spurie e le caratteristiche non fisiche tipiche dei filtri Kalman d'insieme standard.

Xu-Hui Zhou, Lorenzo Beronilla, Michael K. Sleeman + 4 more2026-03-02🤖 cs.LG

On the Limits of Interpretable Machine Learning in Quintic Root Classification

Lo studio dimostra che, sebbene le reti neurali raggiungano un'elevata accuratezza nella classificazione delle radici reali di polinomi di quinto grado, nessun modello di apprendimento automatico analizzato è riuscito a recuperare autonomamente regole matematiche simboliche interpretabili dai dati grezzi, suggerendo che l'interpretabilità in tali domini strutturati richieda un'induzione di bias strutturale esplicita piuttosto che una semplice approssimazione basata sui dati.

Rohan Thomas, Majid Bani-Yaghoub2026-03-02🤖 cs.LG

Cross-Representation Knowledge Transfer for Improved Sequential Recommendations

Il paper presenta un nuovo framework che combina transformer e reti neurali su grafi per allineare diverse rappresentazioni, superando i limiti delle metodologie esistenti e migliorando la qualità delle raccomandazioni sequenziali catturando sia le dipendenze strutturali che la loro evoluzione dinamica.

Artur Gimranov, Viacheslav Yusupov, Elfat Sabitov + 4 more2026-03-02🤖 cs.LG

← Precedente Successivo →