cs.LG articoli | Gist.Science

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

Il paper propone YuriiFormer, un framework variazionale che interpreta i layer dei transformer come iterazioni di un algoritmo di ottimizzazione, permettendo di progettare un'architettura accelerata con Nesterov che supera le prestazioni di un baseline nanoGPT su TinyStories e OpenWebText.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Il paper propone MiTA Attention, un meccanismo efficiente che unifica metodi di attenzione esistenti in un quadro comune di scalatura dei pesi veloci e introduce una strategia di compressione e instradamento che riduce la complessità aggregando le coppie chiave-valore più attivate per un insieme limitato di query landmark.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Il paper presenta VIP, una strategia di allocazione adattiva dei rollout basata su un modello predittivo per minimizzare la varianza del gradiente e migliorare l'efficienza del campionamento nell'apprendimento per rinforzo online con ricompense verificabili.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

Questo articolo propone la previsione temporale agenziale (ATSF), un nuovo paradigma che supera l'approccio tradizionale basato sui modelli statici trasformando la previsione in un processo dinamico e iterativo composto da percezione, pianificazione, azione, riflessione e memoria, capace di adattarsi e migliorare nel tempo attraverso l'interazione con strumenti e l'accumulo di esperienza.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

Questo studio dimostra che i vettori di guida nei grandi modelli linguistici sono fondamentalmente non identificabili, poiché perturbazioni ortogonali producono effetti comportamentali quasi equivalenti, rivelando così limiti intrinseci nell'interpretazione delle rappresentazioni interne basata esclusivamente sul testing comportamentale.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Il paper introduce LatentChem, un'interfaccia di ragionamento latente che disaccoppia il calcolo chimico dalla generazione testuale, permettendo ai modelli di eseguire inferenze complesse direttamente nello spazio latente continuo e ottenendo prestazioni superiori e un significativo aumento della velocità rispetto ai metodi basati su Chain-of-Thought esplicito.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

Beyond the Unit Hypersphere: Embedding Magnitude in Contrastive Learning

Questo studio dimostra che, a differenza delle applicazioni simmetriche come CLIP, l'apprendimento della magnitudine degli embedding tramite normalizzazione asimmetrica migliora significativamente le prestazioni nel recupero e nel RAG, offrendo vantaggi superiori nella generalizzazione fuori dominio rispetto a quella in dominio.

Xincan Feng, Taro Watanabe2026-03-06💻 cs

Supervised Metric Regularization Through Alternating Optimization for Multi-Regime Physics-Informed Neural Networks

Il documento propone TAPINN, una rete neurale fisica informata che utilizza la regolarizzazione metrica supervisionata e l'ottimizzazione alternata per superare i limiti delle PINN standard nella modellazione di sistemi dinamici con transizioni di regime brusche, ottenendo una maggiore stabilità e precisione con un minor numero di parametri.

Enzo Nicolas Spotorno, Josafat Ribeiro Leal, Antonio Augusto Frohlich2026-03-06🔬 physics

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

Lo studio empirico rivela che, nonostante l'interesse teorico, l'integrazione delle Kolmogorov-Arnold Networks (KAN) in architetture ricorrenti vincolate dalla fisica si dimostra meno efficace e stabile rispetto alle MLP tradizionali per la scoperta di termini residui in sistemi oscillatori complessi, a causa di fragilità iperparametriche e limitazioni nell'induzione di bias additivi per l'accoppiamento degli stati.

Enzo Nicolas Spotorno, Josafat Leal Filho, Antonio Augusto Medeiros Frohlich2026-03-06🔬 physics

Learn from Your Mistakes: Self-Correcting Masked Diffusion Models

Il paper propone ProSeCo, un nuovo framework per i modelli di diffusione mascherata che introduce un meccanismo di auto-correzione iterativa durante la generazione, permettendo di correggere gli errori sui token già decodificati e ottenendo così un miglior compromesso tra qualità del campione ed efficienza computazionale.

Yair Schiff, Omer Belhasin, Roy Uziel + 5 more2026-03-06💻 cs

QTabGAN: A Hybrid Quantum-Classical GAN for Tabular Data Synthesis

Il documento presenta QTabGAN, un framework ibrido quantistico-classico che sfrutta la potenza dei circuiti quantistici per generare dati tabulari realistici, superando le limitazioni dei modelli esistenti e ottenendo miglioramenti significativi nelle prestazioni di classificazione.

Subhangi Kumari, Rakesh Achutha, Vignesh Sivaraman2026-03-06⚛️ quant-ph

Out-of-Support Generalisation via Weight-Space Sequence Modelling

Il framework WeightCaster affronta il problema della generalizzazione fuori dal supporto (OoS) riformulandolo come un'attività di modellazione sequenziale nello spazio dei pesi, permettendo di ottenere previsioni affidabili, interpretabili e consapevoli dell'incertezza senza richiedere induttivi bias espliciti.

Roussel Desmond Nzoyem2026-03-06💻 cs

Neural Network-Based Parameter Estimation of a Labour Market Agent-Based Model

Questo studio dimostra che un framework di inferenza basato su simulazione che utilizza reti neurali supera i metodi bayesiani tradizionali nell'efficienza e nella precisione della stima dei parametri di un modello basato su agenti del mercato del lavoro, sia su dati sintetici che reali.

M Lopes Alves, Joel Dyer, Doyne Farmer + 2 more2026-03-06💻 cs

Optimal training-conditional regret for online conformal prediction

Questo lavoro propone algoritmi di previsione conformale online che adattano dinamicamente i set di calibrazione rilevando cambiamenti di distribuzione, garantendo un rimpianto cumulativo condizionato all'addestramento minimax-ottimale sia per dati con score preaddestrati che per modelli appresi online.

Jiadong Liang, Zhimei Ren, Yuxin Chen2026-03-06🔢 math

SubQuad: Near-Quadratic-Free Structure Inference with Distribution-Balanced Objectives in Adaptive Receptor framework

Il paper introduce SubQuad, una pipeline end-to-end che supera i colli di bottiglia computazionali e gli squilibri nei dataset dei repertori immunitari adattivi combinando un prefiltraggio MinHash, kernel di affinità accelerati da GPU e obiettivi di clustering equo per abilitare un'analisi scalabile e priva di bias a fini di scoperta di biomarcatori e priorizzazione vaccinale.

Rong Fu, Zijian Zhang, Kun Liu + 3 more2026-03-06💻 cs

Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

Il paper propone un framework di apprendimento curricolare a tre stadi che, combinando mascheramento strutturale e ottimizzazione GRPO, permette di distillare efficacemente il ragionamento a catena di pensiero in modelli più piccoli, ottenendo su GSM8K un miglioramento dell'accuratezza dell'11,29% e una riduzione della lunghezza delle risposte del 27,4%.

Bowen Yu, Maolin Wang, Sheng Zhang + 7 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard è un framework basato su transformer e grafi che abilita la ricerca di identità nelle città rispettando la privacy, integrando metriche adattive, attenzione condizionata spazialmente e embedding differenzialmente privati per garantire robustezza alle variazioni di vista e all'occlusione senza condividere immagini grezze.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Il documento presenta RA-QA, un nuovo sistema di benchmarking che armonizza dataset pubblici per creare un vasto insieme di 9 milioni di coppie domanda-risposta audio-respiratorie, valutando le prestazioni e i limiti dei modelli multimodali attuali in condizioni di eterogeneità del mondo reale.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

cc-Shapley: Measuring Multivariate Feature Importance Needs Causal Context

Il paper propone cc-Shapley, un metodo che integra la conoscenza causale nei valori di Shapley per correggere le distorsioni indotte da bias di collisore e soppressione, garantendo così attribuzioni di importanza delle feature più affidabili e prive di associazioni spurie.

Jörg Martin, Stefan Haufe2026-03-06💻 cs

On Imbalanced Regression with Hoeffding Trees

Questo lavoro estende la stima della densità kernel (KDE) e l'assottigliamento gerarchico (HS) agli alberi di Hoeffding per la regressione su flussi di dati sbilanciati, dimostrando sperimentalmente che KDE migliora le prestazioni nelle fasi iniziali dello streaming mentre HS offre benefici limitati.

Pantia-Marina Alchirch, Dimitrios I. Diochnos2026-03-06💻 cs

← Precedente Successivo →