Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression

Questo articolo dimostra che, nell'ambito della regressione ridge a caratteristiche casuali, un modello "forte" addestrato su etichette imperfette generate da un modello "debole" può superare significativamente le leggi di scala del proprio insegnante, raggiungendo persino il tasso ottimale minimax indipendentemente dalle prestazioni del teacher.

Diyuan Wu, Lehan Chen, Theodor Misiakiewicz, Marco Mondelli2026-03-09🤖 cs.LG

Agnostic learning in (almost) optimal time via Gaussian surface area

Questo lavoro migliora i limiti superiori noti per l'apprendimento agnostico di classi di concetti rispetto alla misura gaussiana, dimostrando che un'approssimazione polinomiale di grado O~(Γ2/ε2)\tilde O(\Gamma^2 / \varepsilon^2) è sufficiente per ottenere una precisione ε\varepsilon, ottenendo così limiti (quasi) ottimali per l'apprendimento di funzioni soglia polinomiali nel modello delle query statistiche.

Lucas Pesenti, Lucas Slot, Manuel Wiedmer2026-03-09🤖 cs.LG

Certified and accurate computation of function space norms of deep neural networks

Questo lavoro presenta un framework per il calcolo certificato e accurato delle norme negli spazi funzionali (come Lebesgue e Sobolev) delle reti neurali profonde, combinando l'aritmetica intervallare, la raffinamento adattivo e l'aggregazione basata su quadratura per ottenere limiti deterministici garantiti sugli integrali delle funzioni e delle loro derivate, superando i limiti delle valutazioni puntuali.

Johannes Gründler, Moritz Maibaum, Philipp Petersen2026-03-09🤖 cs.LG

Zeroth-Order primal-dual Alternating Projection Gradient Algorithms for Nonconvex Minimax Problems with Coupled linear Constraints

Questo articolo propone due algoritmi di discesa del gradiente alternato proiettato di ordine zero, denominati ZO-PDAPG e ZO-RMPDPG, che risolvono problemi minimax non convessi con vincoli lineari accoppiati in contesti deterministici e stocastici, garantendo complessità iterativa e stabilendo un nuovo stato dell'arte per la classe non convessa-concava.

Huiling Zhang, Zi Xu, Yuhong Dai2026-03-06🔢 math

Generalization Bounds for Markov Algorithms through Entropy Flow Computations

Questo lavoro estende il metodo del flusso di entropia, precedentemente limitato a specifiche dinamiche stocastiche, a tutti gli algoritmi di apprendimento governati da processi di Markov omogenei nel tempo, stabilendo nuovi legami tra l'errore di generalizzazione e le proprietà ergodiche attraverso una formula esatta e disuguaglianze di Sobolev logaritmiche modificate.

Benjamin Dupuis, Maxime Haddouche, George Deligiannidis + 1 more2026-03-06💻 cs