cs.LG articoli | Gist.Science

Sparse Attention Post-Training for Mechanistic Interpretability

Questo articolo presenta un metodo di post-addestramento che rende l'attenzione dei transformer estremamente sparsa senza comprometterne le prestazioni, rivelando circuiti semplificati e migliorando l'interpretabilità meccanica dei modelli fino a 7 miliardi di parametri.

Florent Draye, Anson Lei, Hsiao-Ru Pan + 2 more2026-03-06💻 cs

Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets

Il paper propone SACP, un nuovo metodo che aggrega i punteggi di non conformità di più modelli predittivi trasformandoli in valori-e per generare set di previsione conformali più efficienti e informativi, superando le prestazioni delle tecniche di aggregazione esistenti.

Nabil Alami, Jad Zakharia, Souhaib Ben Taieb2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Questo articolo presenta TAP, un innovativo framework di scoperta automatica e senza addestramento per i proxy nella quantizzazione a precisione mista, che sfrutta i grandi modelli linguistici e strategie evolutive guidate da un controller DPO per ottenere prestazioni all'avanguardia senza richiedere intervento umano o ottimizzazione differenziabile.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Il paper presenta ReFusion, un modello di linguaggio basato sulla diffusione che supera i limiti computazionali e di coerenza dei modelli precedenti integrando la riorganizzazione della sequenza nel framework dell'attenzione causale, ottenendo così un decodifica parallelo con caching KV completo che garantisce sia un significativo aumento delle prestazioni rispetto ai modelli diffusion esistenti, sia un vantaggio di velocità rispetto ai modelli autoregressivi tradizionali.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

Measuring Uncertainty Calibration

Questo lavoro fornisce limiti superiori non asintotici e privi di assunzioni distributive per l'errore di calibrazione $L_1$ dei classificatori binari, proponendo sia un bound teorico per funzioni a variazione limitata sia un metodo pratico per modificare i classificatori al fine di garantire una calibrazione efficiente senza comprometterne le prestazioni.

Kamil Ciosek, Nicolò Felicioni, Sina Ghiassian + 6 more2026-03-06💻 cs

RePo: Language Models with Context Re-Positioning

Il paper presenta RePo, un nuovo meccanismo che riduce il carico cognitivo estraneo nei modelli linguistici di grandi dimensioni riorganizzando dinamicamente le posizioni dei token per migliorare l'apprendimento in contesto, specialmente in scenari con contesti rumorosi, dati strutturati e lunghe sequenze.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

Agentic Multi-Persona Framework for Evidence-Aware Fake News Detection

Il paper presenta AMPEND-LS, un framework innovativo basato su agenti multi-persona e sulla sinergia tra LLM e SLM che supera le limitazioni degli attuali metodi di rilevamento delle fake news garantendo maggiore accuratezza, robustezza e spiegabilità attraverso un'analisi multimodale e fondata su prove.

Roopa Bukke, Soumya Pandey, Suraj Kumar + 2 more2026-03-06💻 cs

Parallel Token Prediction for Language Models

Il paper propone Parallel Token Prediction (PTP), un framework che accelera il decoding dei modelli linguistici prevedendo più token in un'unica chiamata trasformando la casualità in input deterministici, ottenendo un speedup di 2,4 volte rispetto alle tecniche tradizionali.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

Uncertainty-Aware Flow Field Reconstruction Using SVGP Kolmogorov-Arnold Networks

Questo articolo presenta un framework di apprendimento automatico basato su SVGP-KAN per la ricostruzione affidabile e consapevole dell'incertezza dei campi di flusso da misurazioni sparse, superando i limiti dei metodi classici e fornendo stime di errore ben calibrate per la progettazione sperimentale.

Y. Sungtaek Ju2026-03-06🔬 physics

Prediction of Cellular Malignancy Using Electrical Impedance Signatures and Supervised Machine Learning

Questo studio dimostra che l'integrazione delle proprietà bioelettriche cellulari con algoritmi di machine learning supervisionato, in particolare Random Forest, permette di prevedere la malignità cellulare con un'accuratezza di circa il 90%, offrendo una base promettente per lo sviluppo di strumenti diagnostici in tempo reale.

Shadeeb Hossain2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Il paper introduce l'ottimizzatore SSO, un algoritmo parallelo efficiente che impone vincoli spettrali rigorosi sia sui pesi che sugli aggiornamenti per garantire una stabilità e una convergenza superiori rispetto ad AdamW e Muon durante l'addestramento su larga scala di modelli linguistici di grandi dimensioni.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

BPE: Behavioral Profiling Ensemble

Il paper propone il framework Behavioral Profiling Ensemble (BPE), un approccio di integrazione incentrato sul modello che supera i limiti dei metodi statici e dinamici tradizionali costruendo profili comportamentali intrinseci per ciascun apprenditore, ottenendo così una maggiore accuratezza predittiva e una riduzione dell'overhead computazionale su 42 dataset reali.

Yanxin Liu, Yunqi Zhang2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Il paper presenta EmboTeam, un nuovo framework per la collaborazione tra robot eterogenei che integra il ragionamento dei modelli linguistici di grandi dimensioni con la pianificazione classica PDDL e alberi comportamentali reattivi, dimostrando su un nuovo benchmark (MACE-THOR) un significativo miglioramento del successo nei compiti complessi rispetto alle soluzioni esistenti.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

Il paper introduce ButterflyMoE, un metodo che riduce la memoria necessaria per i modelli Moe su dispositivi edge trasformando i pesi degli esperti in rotazioni geometriche di un substrato ternario condiviso, ottenendo una scalabilità sub-lineare e una riduzione di 150 volte della memoria con perdita di accuratezza trascurabile.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Il paper introduce Yuan3.0 Ultra, un modello linguistico open-source di grandi dimensioni basato su una miscela di esperti (MoE) con 1010 miliardi di parametri totali e 68,8 miliardi attivati, che utilizza il nuovo algoritmo LAEP per ottimizzare l'efficienza del pre-addestramento e raggiungere prestazioni leader in scenari aziendali.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Agentic Very Long Video Understanding

Il paper presenta EGAgent, un framework agentico basato su grafi di scene entitativi che supera i limiti delle attuali metodologie consentendo un ragionamento composizionale e multi-hop su flussi video egocentrici continui di durata estremamente lunga, ottenendo risultati all'avanguardia su dataset specifici.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Il paper introduce l'On-Policy Self-Distillation (OPSD), un framework in cui un singolo modello linguistico grande agisce sia come insegnante che come studente condizionando contesti diversi (con o senza tracce di ragionamento privilegiate) per migliorare l'efficienza e le prestazioni nel ragionamento matematico, superando i metodi di distillazione off-policy e di apprendimento per rinforzo.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Il documento propone un metodo scalabile per la previsione del segno dei link nei grafi firmati che, estendendo CopulaGNN, modella le dipendenze statistiche tra gli archi tramite una matrice di correlazione a basso rango e una riformulazione della probabilità condizionata, garantendo così una convergenza lineare e prestazioni competitive con costi computazionali ridotti.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

Questo lavoro stabilisce garanzie di convergenza più precise e rapide per l'ottimizzatore Muon attraverso un'analisi diretta e semplificata che non richiede ipotesi restrittive, migliorando così la comprensione teorica di questo metodo e delle tecniche di ottimizzazione ortogonalizzata in generale.

Shuntaro Nagashima, Hideaki Iiduka2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

Il paper introduce Latent-IMH, un metodo di campionamento bayesiano efficiente per problemi inversi lineari con operatori costosi, che utilizza un'approssimazione offline per generare variabili latenti e un'affinamento esatto, risultando teoricamente e numericamente superiore a metodi esistenti come NUTS in termini di velocità computazionale.

Youguang Chen, George Biros2026-03-06🔢 math

← Precedente Successivo →