cs.LG articoli | Gist.Science

Geometric Reasoning in the Embedding Space

Questo studio dimostra che le reti neurali su grafi e i transformer possono apprendere a ragionare su vincoli geometrici per prevedere posizioni spaziali, organizzando le loro rappresentazioni in uno spazio di embedding bidimensionale che riflette la struttura della griglia, con le reti neurali su grafi che mostrano prestazioni superiori e una migliore scalabilità rispetto ai transformer.

Jan Hůla, David Mojžíšek, Jiří Janeček + 2 more2026-03-03🤖 cs.LG

Optimistic Online Learning in Symmetric Cone Games

Il paper introduce i giochi su coni simmetrici come quadro unificante per diverse classi di giochi e problemi di ottimizzazione, proponendo l'algoritmo OSCMWU che, grazie alla dimostrazione della forte convessità dell'entropia negativa sui coni simmetrici, calcola efficientemente equilibri di Nash approssimati con complessità iterativa $\tilde{\mathcal{O}}(1/\epsilon)$ .

Anas Barakat, Wayne Lin, John Lazarsfeld + 1 more2026-03-03🔢 math

Identifying and Evaluating Inactive Heads in Pretrained LLMs

Questo studio identifica e valuta le "teste" di attenzione inattive nei grandi modelli linguistici preaddestrati, dimostrando che oltre il 12% di esse può essere rimosso senza compromettere significativamente le prestazioni e che le metriche basate sulla norma dell'output sono più efficaci di quelle tradizionali per rilevare tali ridondanze.

Pedro Sandoval-Segura, Xijun Wang, Ashwinee Panda + 4 more2026-03-03🤖 cs.LG

Standardization of Weighted Ranking Correlation Coefficients

Il paper propone una funzione di standardizzazione generale che trasforma i coefficienti di correlazione tra ranking ponderati, garantendo un valore atteso nullo sotto l'ipotesi di indipendenza e preservando l'intervallo $[-1,1]$ , e fornisce stime numeriche accurate dei parametri distributivi necessari per tale trasformazione tramite campionamento Monte Carlo e regressione polinomiale.

Pierangelo Lombardo2026-03-03🔬 cond-mat

Standardization of Multi-Objective QUBOs

Questo articolo propone una tecnica innovativa per la standardizzazione degli obiettivi nei problemi QUBO multi-obiettivo, basata sul calcolo esatto della varianza per scalare ciascun obiettivo a varianza unitaria, al fine di facilitare la ricerca di soluzioni bilanciate e ridurre la complessità nella selezione dei pesi di scalarizzazione.

Loong Kuan Lee, Thore Gerlach, Nico Piatkowski2026-03-03⚛️ quant-ph

Sparsification Under Siege: Dual-Level Defense Against Poisoning in Communication-Efficient Federated Learning

Il paper presenta SafeSparse, un nuovo framework di difesa a due livelli che risolve il compromesso tra efficienza e sicurezza nel Federated Learning sparsificato, ripristinando la robustezza contro gli attacchi di avvelenamento attraverso meccanismi di calibrazione topologica e allineamento semantico direzionale.

Zhiyong Jin, Runhua Xu, Chao Li + 3 more2026-03-03🤖 cs.LG

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

Il paper introduce due nuovi dataset pre-addestramento aperti, SwallowCode e SwallowMath, creati attraverso un processo sistematico di riscrittura e raffinamento dei dati pubblici che, se utilizzati per l'addestramento continuo, migliorano significativamente le prestazioni dei modelli linguistici su compiti di programmazione e ragionamento matematico.

Kazuki Fujii, Yukito Tajima, Sakae Mizuki + 14 more2026-03-03🤖 cs.AI

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Questo lavoro propone un metodo basato sull'Intelligenza Artificiale Spiegabile per attribuire in modo efficiente e accurato le distanze di Wasserstein a specifici componenti dei dati, come sottogruppi o caratteristiche, facilitando così l'analisi degli spostamenti dei dataset e dei fenomeni di trasporto.

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Diffusion Recommender Models and the Illusion of Progress: A Concerning Study of Reproducibility and a Conceptual Mismatch

Questo studio evidenzia come i recenti modelli di raccomandazione basati sulla diffusione, nonostante la loro complessità computazionale, siano sistematicamente inferiori a modelli più semplici a causa di problemi metodologici ricorrenti e di un disallineamento concettuale con il compito di raccomandazione top-n, rivelando un'illusione di progresso che richiede un cambiamento radicale nella cultura della ricerca.

Michael Benigni, Maurizio Ferrari Dacrema, Dietmar Jannach2026-03-03🤖 cs.LG

ARCANE -- Early Detection of Interplanetary Coronal Mass Ejections

Il paper presenta ARCANE, il primo framework progettato per il rilevamento precoce delle espulsioni di massa coronale interplanetarie (ICME) nei dati del vento solare in streaming, che dimostra come il modello ResUNet++ superi le baselines tradizionali mantenendo prestazioni elevate anche con dati in tempo reale e rilevando gli eventi prima del loro completamento.

H. T. Rüdisser, G. Nguyen, J. Le Louëdec + 2 more2026-03-03🔭 astro-ph

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

Il paper presenta DRA-GRPO, un framework che migliora il ragionamento matematico dei modelli linguistici integrando una calibrazione della diversità basata sull'informazione mutua sottomodulare nel processo di ottimizzazione GRPO, permettendo così di superare la limitazione delle ricompense scalari standard e ottenere prestazioni superiori con dati di addestramento ridotti.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

Addition is almost all you need: Compressing large language models with double binary factorization

Questo articolo presenta la Double Binary Factorization (DBF), un metodo innovativo che comprime i grandi modelli linguistici fattorizzando le matrici dei pesi in prodotti di due matrici binarie con vettori di scala, offrendo un elevato rapporto di compressione e un controllo fine-granulare della precisione senza compromettere significativamente l'accuratezza.

Vladimír Boža, Vladimír Macko2026-03-03🤖 cs.LG

When Bias Meets Trainability: Connecting Theories of Initialization

Questo lavoro dimostra teoricamente che l'efficienza dell'apprendimento nelle reti neurali profonde è intrinsecamente legata a un pregiudizio iniziale verso una classe specifica, collegando così le teorie dei campi medi sull'inizializzazione al fenomeno del "bias di indovinamento iniziale" e smentendo l'idea che un'inizializzazione neutra sia ottimale.

Alberto Bassi, Marco Baity-Jesi, Aurelien Lucchi + 2 more2026-03-03🤖 cs.AI

Back to Square Roots: An Optimal Bound on the Matrix Factorization Error for Multi-Epoch Differentially Private SGD

Questo lavoro introduce il metodo di fattorizzazione BISR (Banded Inverse Square Root), che colma il divario teorico esistente fornendo un limite asintoticamente ottimale per l'errore di fattorizzazione matriciale nell'SGD differenzialmente privato multi-epoca, garantendo al contempo semplicità implementativa ed efficienza computazionale.

Nikita P. Kalinin, Ryan McKenna, Jalaj Upadhyay + 1 more2026-03-03🤖 cs.LG

Self-Destructive Language Model

Il paper presenta SEAM, un nuovo metodo di difesa che rende i modelli linguistici di grandi dimensioni "auto-distruttivi", mantenendo le loro capacità legittime mentre subiscono un collasso delle prestazioni se sottoposti a tentativi di allineamento dannoso, rendendo così inefficaci gli attacchi di fine-tuning malevolo.

Yuhui Wang, Rongyi Zhu, Ting Wang2026-03-03🤖 cs.AI

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

Il paper presenta mCLM, un modello linguistico chimico modulare che, tokenizzando le molecole in blocchi funzionali compatibili con la sintesi automatizzata, genera nuovi candidati farmacologici con proprietà migliorate e un'accessibilità sintetica superiore rispetto ai metodi esistenti, inclusi i modelli di grandi dimensioni come GPT-5.

Carl Edwards, Chi Han, Gawon Lee + 11 more2026-03-03🧬 q-bio

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

Questo studio teorico dimostra che i transformer preaddestrati in modo avversario possono agire come modelli fondazionali universalmente robusti, adattandosi a compiti di classificazione non visti tramite apprendimento contestuale da esempi puliti senza necessità di ulteriore addestramento avversario.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

Il paper introduce GradPCA, un metodo per il rilevamento di dati fuori distribuzione (OOD) che sfrutta la struttura a basso rango dei gradienti delle reti neurali indotta dall'allineamento NTK, applicando l'analisi delle componenti principali (PCA) alle medie dei gradienti per ottenere prestazioni più coerenti e fornendo un quadro teorico che evidenzia il ruolo cruciale della qualità delle feature.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

Questo studio analizza la consistenza del routing locale nei modelli Mixture-of-Experts, proponendo nuove metriche per valutare l'efficacia dell'offloading degli esperti e rivelando come il bilanciamento del carico locale e le scelte architetturali influenzino le prestazioni su dispositivi con memoria limitata.

Jingcong Liang, Siyuan Wang, Miren Tian + 3 more2026-03-03🤖 cs.AI

ICYM2I: The illusion of multimodal informativeness under missingness

Il paper introduce ICYM2I, un framework basato sulla ponderazione per probabilità inversa che corregge i pregiudizi nella stima del guadagno informativo nel machine learning multimodale causati dai cambiamenti nei modelli di dati mancanti tra ambienti di origine e target.

Young Sang Choi, Vincent Jeanselme, Pierre Elias + 1 more2026-03-03📊 stat

← Precedente Successivo →