cs.LG articoli | Gist.Science

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Il paper introduce KMP-Bench, un benchmark completo per valutare l'intelligenza pedagogica dei modelli linguistici nell'insegnamento della matematica K-8, evidenziando il divario tra le loro capacità di risoluzione e quelle didattiche, e presentando KMP-Pile, un dataset di dialogo su larga scala che, se utilizzato per il fine-tuning, migliora significativamente le prestazioni dei modelli in questo ambito.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

Generative adversarial imitation learning for robot swarms: Learning from human demonstrations and trained policies

Questo lavoro presenta un framework basato sull'apprendimento imitativo generativo avversariale che permette a sciami di robot di apprendere comportamenti collettivi sia da dimostrazioni umane che da policy pre-addestrate, con risultati validati sia in simulazione che su robot reali TurtleBot 4.

Mattes Kraus, Jonas Kuckling2026-03-04🤖 cs.LG

From Heuristic Selection to Automated Algorithm Design: LLMs Benefit from Strong Priors

Questo articolo dimostra che l'integrazione di esempi di codice algoritmico di alta qualità e di algoritmi di benchmark come prior forti migliora significativamente l'efficienza e la robustezza della progettazione automatizzata di algoritmi guidata dai Large Language Models.

Qi Huang, Furong Ye, Ananta Shahane + 2 more2026-03-04🤖 cs.LG

Differentiable Time-Varying IIR Filtering for Real-Time Speech Denoising

Il paper presenta TVF, un modello di enhancement vocale a bassa latenza e interpretabile che combina l'elaborazione del segnale digitale con l'adattabilità del deep learning per prevedere in tempo reale i coefficienti di un filtro IIR differenziabile, adattandosi dinamicamente al rumore non stazionario.

Riccardo Rota, Kiril Ratmanski, Jozef Coldenhoff + 1 more2026-03-04⚡ eess

The Price of Robustness: Stable Classifiers Need Overparameterization

Il paper dimostra che per ottenere classificatori stabili e robusti, specialmente in contesti discontinui, è necessaria una sostanziale sovrapparametrizzazione, poiché i modelli che interpolano i dati con un numero di parametri pari al numero di campioni sono intrinsecamente instabili.

Jonas von Berg, Adalbert Fono, Massimiliano Datres + 2 more2026-03-04🤖 cs.LG

Lattice-based Deep Neural Networks: Regularity and Tailored Regularization

Questo articolo di rassegna esplora l'applicazione delle regole reticolari come punti di addestramento per le reti neurali profonde, dimostrando che l'uso di regolarizzazioni su misura basate su queste regole permette di ottenere limiti di errore di generalizzazione indipendenti dalla dimensionalità e prestazioni numeriche superiori rispetto alla regolarizzazione $\ell_2$ standard.

Alexander Keller, Frances Y. Kuo, Dirk Nuyens + 1 more2026-03-04🤖 cs.LG

ChemFlow:A Hierarchical Neural Network for Multiscale Representation Learning in Chemical Mixtures

Il paper presenta ChemFlow, un innovativo framework di reti neurali gerarchiche che integra rappresentazioni atomiche, di gruppi funzionali e molecolari per prevedere con precisione le proprietà fisico-chimiche di miscele chimiche complesse, superando i limiti degli approcci esistenti nel modellare le interazioni multiscala e la dipendenza dalle concentrazioni.

Jinming Fan, Chao Qian, Wilhelm T. S. Huck + 2 more2026-03-04🤖 cs.LG

Adapting Time Series Foundation Models through Data Mixtures

Il paper propone MixFT, un metodo che migliora le previsioni zero-shot dei modelli fondazione per serie temporali suddividendo i dati in sottodomini omogenei tramite miscele bayesiane per un fine-tuning più efficace rispetto alle approcci tradizionali.

Thomas L. Lee, Edoardo M. Ponti, Amos Storkey2026-03-04📊 stat

Scale-invariant Gaussian derivative residual networks

Questo articolo presenta le GaussDerResNets, una rete neurale residua provatamente invariante alla scala costruita con blocchi di derivate gaussiane, che dimostra eccellenti proprietà di generalizzazione su scale diverse e riduce i parametri grazie alle convoluzioni depthwise-separabili.

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Learning Memory-Enhanced Improvement Heuristics for Flexible Job Shop Scheduling

Questo articolo presenta MIStar, un nuovo framework di ricerca basato su miglioramento potenziato dalla memoria e su rappresentazione grafica eterogenea, che supera i metodi esistenti per risolvere il problema della schedulazione flessibile dei lavori (FJSP) nel contesto dell'Industria 4.0.

Jiaqi Wang, Zhiguang Cao, Peng Zhao + 4 more2026-03-04🤖 cs.AI

Distributed Dynamic Invariant Causal Prediction in Environmental Time Series

Il documento presenta DisDy-ICPT, un nuovo framework distribuito che apprende relazioni causali dinamiche e invarianti in serie temporali ambientali, garantendo stabilità predittiva senza necessità di comunicazione dei dati e superando i metodi esistenti in termini di accuratezza e robustezza.

Ziruo Hao, Tao Yang, Xiaofeng Wu + 1 more2026-03-04🤖 cs.LG

Towards Accurate and Interpretable Time-series Forecasting: A Polynomial Learning Approach

Questo articolo propone il metodo di apprendimento polinomiale interpretabile (IPL), che integra l'interpretabilità nella struttura del modello per migliorare sia l'accuratezza che la trasparenza delle previsioni delle serie temporali, superando i limiti delle tecniche esistenti.

Bo Liu, Shao-Bo Lin, Changmiao Wang + 1 more2026-03-04📊 stat

Eliciting Numerical Predictive Distributions of LLMs Without Autoregression

Questo lavoro dimostra che è possibile recuperare le proprietà distributive delle previsioni numeriche dei Large Language Models, inclusi gli indici di incertezza, addestrando sonde sulle loro rappresentazioni interne per prevedere direttamente statistiche come medie e quantili, evitando così il costoso processo di generazione autoregressiva.

Julianna Piskorz, Katarzyna Kobalczyk, Mihaela van der Schaar2026-03-04🤖 cs.AI

On the Structural Limitations of Weight-Based Neural Adaptation and the Role of Reversible Behavioral Learning

Questo studio introduce il concetto di apprendimento comportamentale reversibile per superare i limiti strutturali dell'adattamento basato sui pesi, dimostrando che dissociare i comportamenti specifici dai parametri condivisi permette un ripristino deterministico dell'identità del modello, a differenza delle modifiche tradizionali che causano una divergenza permanente.

Pardhu Sri Rushi Varma Konduru2026-03-04🤖 cs.AI

Contextual Latent World Models for Offline Meta Reinforcement Learning

Il paper introduce i "Contextual Latent World Models", un approccio che combina modelli del mondo latenti con rappresentazioni di task inferite per apprendere dinamiche specifiche del compito e migliorare significativamente la generalizzazione nell'apprendimento per rinforzo meta-offline.

Mohammadreza Nakheai, Aidan Scannell, Kevin Luck + 1 more2026-03-04🤖 cs.LG

Bias and Fairness in Self-Supervised Acoustic Representations for Cognitive Impairment Detection

Questo studio evidenzia come, sebbene le rappresentazioni acustiche auto-supervisionate (Wav2Vec 2.0) superino i metodi tradizionali nel rilevamento del declino cognitivo, presentino significative disparità di prestazioni basate su genere ed età, sottolineando la necessità di valutazioni eque e specifiche per sottogruppi nelle applicazioni cliniche basate sulla voce.

Kashaf Gulzar, Korbinian Riedhammer, Elmar Nöth + 2 more2026-03-04⚡ eess

Beyond One-Size-Fits-All: Adaptive Subgraph Denoising for Zero-Shot Graph Learning with Large Language Models

Il paper presenta GraphSSR, un nuovo framework che supera i limiti delle strategie di estrazione dei sottografi "one-size-fits-all" nel ragionamento grafico zero-shot basato su LLM, introducendo un processo adattivo di "Sample-Select-Reason" potenziato da tecniche di fine-tuning supervisionato e apprendimento per rinforzo per la denoising dinamica dei sottografi.

Fengzhi Li, Liang Zhang, Yuan Zuo + 5 more2026-03-04🤖 cs.AI

Enhancing Physics-Informed Neural Networks with Domain-aware Fourier Features: Towards Improved Performance and Interpretable Results

Questo lavoro propone l'uso di Fourier Features consapevoli del dominio (DaFFs) per migliorare l'accuratezza, l'efficienza e l'interpretabilità delle Physics-Informed Neural Networks (PINN), eliminando la necessità di termini di perdita espliciti per le condizioni al contorno e fornendo attribuzioni di rilevanza fisicamente coerenti tramite un framework LRP.

Alberto Miño Calero, Luis Salamanca, Konstantinos E. Tatsis2026-03-04🤖 cs.AI

Sparse autoencoders reveal organized biological knowledge but minimal regulatory logic in single-cell foundation models: a comparative atlas of Geneformer and scGPT

Lo studio dimostra che i modelli fondazionali per cellule singole, come Geneformer e scGPT, codificano una ricca conoscenza biologica organizzata ma possiedono una logica regolatoria causale minima, rivelando che il collasso di superposizione e la mancanza di risposte specifiche ai fattori di trascrizione limitano la loro capacità di rappresentare meccanismi causali.

Ihor Kendiukhov2026-03-04🧬 q-bio

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Il paper propone un framework semi-supervisionato innovativo che integra una "Proportion Loss" per mitigare il bias delle classi maggioritarie e migliorare le prestazioni su dataset sbilanciati, ottenendo risultati superiori rispetto ai metodi esistenti su CIFAR-10 a coda lunga.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG

← Precedente Successivo →