Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Lo studio analizza le proprietà di convergenza e le dinamiche di fuga dello Stochastic Gradient Descent (SGD) in paesaggi unidimensionali, dimostrando come il rumore e la geometria della funzione influenzino i tempi di transizione tra i minimi locali e i massimi, evidenziando che l'algoritmo può rimanere intrappolato vicino a massimi locali ma tende a sfuggire da massimi "acuti" per raggiungere i minimi adiacenti.

Dmitry Dudukalov, Artem Logachov, Vladimir Lotov + 3 more2026-03-05🤖 cs.LG

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Il paper propone la Calibrazione Supervisionata (SC), un nuovo framework basato sulla minimizzazione della perdita che supera i limiti delle tecniche di calibrazione esistenti per l'Apprendimento in Contesto (ICL) nei LLM, permettendo di modificare l'orientamento dei confini decisionali e integrando regolarizzatori per migliorare la stabilità e le prestazioni su diversi modelli e dataset.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Learning in an Echo Chamber: Online Learning with Replay Adversary

Questo lavoro introduce un quadro teorico per l'apprendimento online in presenza di un avversario che ripropone errori passati, dimostrando che la dimensione di soglia estesa (ExThD\mathrm{ExThD}) è la misura esatta della learnability e che l'apprendimento proprio è possibile solo per classi quasi intersezionate-chiuse, mentre algoritmi impropri possono comunque raggiungere limiti ottimali.

Daniil Dmitriev, Harald Eskelund Franck, Carolin Heinzler + 1 more2026-03-05🤖 cs.LG

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Questo lavoro dimostra che l'implicit bias dell'ottimizzatore Adam su dati separabili dipende criticamente dal regime di batch e dal dataset, potendo convergere verso un classificatore a margine massimo 2\ell_2 in modalità incrementale a differenza della tendenza \ell_\infty del full-batch, mentre l'algoritmo Signum mantiene un bias invariato verso \ell_\infty indipendentemente dalla dimensione del batch.

Beomhan Baek, Minhak Song, Chulhee Yun2026-03-05🤖 cs.AI