cs.LG articoli | Gist.Science

Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark

Questo studio presenta una valutazione su larga scala di un sistema di grading AI basato su LLM e OCR per compiti di calcolo a mano scritti da studenti universitari, dimostrando un forte allineamento con le valutazioni dei tutor e proponendo un nuovo benchmark standardizzato per la ricerca futura.

Zhiqi Yu, Xingping Liu, Haobin Mao + 4 more2026-03-03🤖 cs.LG

Principled Fast and Meta Knowledge Learners for Continual Reinforcement Learning

Questo studio propone un framework a doppio apprendista, ispirato al sistema di memoria umano, che combina un apprendista veloce per il trasferimento di conoscenze e un meta-apprendista per l'integrazione incrementale e la prevenzione dell'oblio catastrofico, dimostrando prestazioni superiori nell'apprendimento per rinforzo continuo su diversi benchmark.

Ke Sun, Hongming Zhang, Jun Jin + 4 more2026-03-03🤖 cs.LG

Curvature-Weighted Capacity Allocation: A Minimum Description Length Framework for Layer-Adaptive Large Language Model Optimization

Questo lavoro propone un framework teorico basato sul principio della Lunghezza Minima di Descrizione (MDL) che utilizza il guadagno aggiustato per la curvatura per allocare in modo ottimale le capacità computazionali o eseguire il pruning negli strati dei grandi modelli linguistici, garantendo soluzioni a forma chiusa, complessità computazionale efficiente e limiti di rimpianto trasferibili.

Theophilus Amaefuna, Hitesh Vaidya, Anshuman Chhabra + 1 more2026-03-03🤖 cs.LG

Time-Aware Latent Space Bayesian Optimization

Il paper propone TALBO, un metodo di ottimizzazione bayesiana nello spazio latente che integra la variabilità temporale sia nel modello surrogato che nella rappresentazione generativa per adattarsi dinamicamente agli obiettivi in evoluzione, dimostrando prestazioni superiori rispetto alle tecniche esistenti in scenari di progettazione molecolare con obiettivi mutevoli.

Tuan A. Vu, Julien Martinelli, Harri Lähdesmäki2026-03-03📊 stat

When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning

Lo studio dimostra che l'uso del clamping del margine nell'apprendimento Contrastive Forward-Forward aumenta significativamente la varianza dell'addestramento su CIFAR-10 a causa della saturazione dei gradienti, un effetto dipendente dal dataset che può essere eliminato sostituendo il clamping con una sottrazione neutra rispetto al gradiente.

Joshua Steier2026-03-03🤖 cs.LG

Stabilizing Policy Optimization via Logits Convexity

Questo lavoro introduce il framework Logits Convex Optimization (LCO), che colma il divario di stabilità tra l'addestramento supervisionato e il reinforcement learning nei grandi modelli linguistici sfruttando la convessità dei logit per garantire un'ottimizzazione più stabile ed efficace rispetto ai metodi tradizionali come PPO.

Hongzhan Chen, Tao Yang, Yuhua Zhu + 3 more2026-03-03💬 cs.CL

Learning with the Nash-Sutcliffe loss

Questo articolo stabilisce una fondazione decisionale per l'uso della perdita di Nash-Sutcliffe nell'addestramento e nella valutazione di modelli su più serie temporali, dimostrando che minimizzarla equivale a stimare una media ponderata dei dati e permettendo così di gestire in modo coerente serie stazionarie con proprietà stocastiche diverse.

Hristos Tyralis, Georgia Papacharalampous2026-03-03📊 stat

Random Features for Operator-Valued Kernels: Bridging Kernel Methods and Neural Operators

Questo lavoro estende l'analisi delle proprietà di generalizzazione dei metodi a caratteri casuali ai kernel a valori operatore, fornendo un quadro teorico unificato per le reti neurali e gli operatori neurali che stabilisce tassi di apprendimento ottimali e condizioni sulla quantità di neuroni necessari.

Mike Nguyen, Nicole Mücke2026-03-03📊 stat

Intent-Context Synergy Reinforcement Learning for Autonomous UAV Decision-Making in Air Combat

Questo paper propone il framework ICS-RL, che combina la previsione delle intenzioni nemiche tramite LSTM con un meccanismo di sinergia contestuale e agenti DQN eterogenei, permettendo ai droni autonomi di prendere decisioni proattive e adattive che massimizzano il successo della missione e riducono l'esposizione in ambienti aerei contesi.

Jiahao Fu, Feng Yang2026-03-03⚡ eess

HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents

Il paper presenta HiMAC, un framework di apprendimento per rinforzo gerarchico che scompone il processo decisionale a lungo termine in pianificazione macro e esecuzione micro, ottenendo prestazioni superiori e una maggiore efficienza nel campionamento rispetto ai metodi esistenti su diversi ambienti complessi.

Hongbo Jin, Rongpeng Zhu, Jiayu Ding + 2 more2026-03-03🤖 cs.LG

SoberDSE: Sample-Efficient Design Space Exploration via Learning-Based Algorithm Selection

Il framework SoberDSE risolve il problema della selezione algoritmica nella esplorazione dello spazio di progettazione (DSE) per la Sintesi di Alto Livello, superando gli stati dell'arte tramite un meccanismo di apprendimento automatico che identifica dinamicamente l'algoritmo più performante per ogni istanza specifica, garantendo risultati superiori anche in scenari con pochi dati.

Lei Xu, Shanshan Wang, Chenglong Xiao2026-03-03🤖 cs.LG

Compensation-free Machine Unlearning in Text-to-Image Diffusion Models by Eliminating the Mutual Information

Questo articolo presenta MiM-MU, un metodo innovativo per l'oblio delle macchine nei modelli di diffusione testo-immagine che elimina i concetti indesiderati minimizzando l'informazione reciproca, ottenendo così una rimozione efficace senza compromettere la qualità delle generazioni rimanenti e senza richiedere alcuna compensazione post-remediale.

Xinwen Cheng, Jingyuan Zhang, Zhehao Huang + 2 more2026-03-03🤖 cs.LG

DWAFM: Dynamic Weighted Graph Structure Embedding Integrated with Attention and Frequency-Domain MLPs for Traffic Forecasting

Questa lettera propone DWAFM, un nuovo modello di previsione del traffico che integra un'embedding dinamica di grafi pesati con meccanismi di attenzione e MLP nel dominio della frequenza per catturare efficacemente le dipendenze spazio-temporali complesse e dinamiche nei dati del traffico.

Sen Shi, Zhichao Zhang, Yangfan He2026-03-03⚡ eess

AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching

Il paper introduce AG-REPA, una strategia di selezione causale dei livelli basata sull'ablatione per guidare l'allineamento delle rappresentazioni nel Flow Matching audio, dimostrando che l'addestramento è più efficace quando si allineano i livelli che guidano causalmente il campo di velocità piuttosto che quelli semplicemente ricchi di informazioni rappresentative.

Pengfei Zhang, Tianxin Xie, Minghao Yang + 1 more2026-03-03🤖 cs.LG

Feature-Weighted Maximum Representative Subsampling

Gli autori propongono FW-MRS, un algoritmo di sottocampionamento rappresentativo pesato per le feature che riduce l'impatto delle variabili fortemente distorte durante il debiasing, preservando al contempo le prestazioni di generalizzazione sui compiti successivi senza alterare significativamente le variabili già rappresentative.

Tony Hauptmann, Stefan Kramer2026-03-03🤖 cs.LG

BadRSSD: Backdoor Attacks on Regularized Self-Supervised Diffusion Models

Il paper propone BadRSSD, il primo attacco backdoor che compromette lo strato di rappresentazione dei modelli di diffusione auto-supervisionati, manipolando lo spazio latente tramite PCA e vincoli coordinati per generare immagini target specifiche in modo stealthy mantenendo l'alta utilità del modello.

Jiayao Wang, Yiping Zhang, Mohammad Maruf Hasan + 5 more2026-03-03🤖 cs.LG

One-Token Verification for Reasoning Correctness Estimation

Il paper presenta One-Token Verification (OTV), un metodo efficiente che stima la correttezza del ragionamento in un singolo passaggio durante la generazione, riducendo significativamente la latenza e l'uso dei token rispetto alle tecniche di verifica tradizionali.

Zhan Zhuang, Xiequn Wang, Zebin Chen + 4 more2026-03-03🤖 cs.LG

Fed-ADE: Adaptive Learning Rate for Federated Post-adaptation under Distribution Shift

Il paper propone Fed-ADE, un framework federato non supervisionato che stima le dinamiche di incertezza e di rappresentazione per adattare dinamicamente il tasso di apprendimento in modo specifico per ogni client, garantendo una robusta post-adattamento in scenari con distribuzione non stazionaria.

Heewon Park, Mugon Joe, Miru Kim + 2 more2026-03-03🤖 cs.LG

Thoth: Mid-Training Bridges LLMs to Time Series Understanding

Il paper presenta Thoth, una nuova famiglia di modelli linguistici di grandi dimensioni sottoposti a un'addestramento intermedio ("mid-training") sul corpus Book-of-Thoth, che conferisce loro capacità di comprensione e ragionamento sui dati temporali, superando le limitazioni dei modelli esistenti e dimostrando prestazioni superiori su benchmark specifici come KnoTS.

Jiafeng Lin, Yuxuan Wang, Jialong Wu + 3 more2026-03-03💬 cs.CL

Evaluating GFlowNet from partial episodes for stable and flexible policy-based training

Questo lavoro colma il divario tra gli approcci basati su valori e su politiche nei GFlowNet introducendo un obiettivo di bilanciamento della valutazione su episodi parziali che migliora l'affidabilità e la flessibilità dell'addestramento, permettendo l'uso di politiche di ritorno parametriche e di dati offline.

Puhua Niu, Shili Wu, Xiaoning Qian2026-03-03📊 stat

← Precedente Successivo →