cs.LG articoli | Gist.Science

Stabilizing Policy Optimization via Logits Convexity

Questo lavoro introduce il framework Logits Convex Optimization (LCO), che colma il divario di stabilità tra l'addestramento supervisionato e il reinforcement learning nei grandi modelli linguistici sfruttando la convessità dei logit per garantire un'ottimizzazione più stabile ed efficace rispetto ai metodi tradizionali come PPO.

Hongzhan Chen, Tao Yang, Yuhua Zhu + 3 more2026-03-03💬 cs.CL

Learning with the Nash-Sutcliffe loss

Questo articolo stabilisce una fondazione decisionale per l'uso della perdita di Nash-Sutcliffe nell'addestramento e nella valutazione di modelli su più serie temporali, dimostrando che minimizzarla equivale a stimare una media ponderata dei dati e permettendo così di gestire in modo coerente serie stazionarie con proprietà stocastiche diverse.

Hristos Tyralis, Georgia Papacharalampous2026-03-03📊 stat

Random Features for Operator-Valued Kernels: Bridging Kernel Methods and Neural Operators

Questo lavoro estende l'analisi delle proprietà di generalizzazione dei metodi a caratteri casuali ai kernel a valori operatore, fornendo un quadro teorico unificato per le reti neurali e gli operatori neurali che stabilisce tassi di apprendimento ottimali e condizioni sulla quantità di neuroni necessari.

Mike Nguyen, Nicole Mücke2026-03-03📊 stat

Intent-Context Synergy Reinforcement Learning for Autonomous UAV Decision-Making in Air Combat

Questo paper propone il framework ICS-RL, che combina la previsione delle intenzioni nemiche tramite LSTM con un meccanismo di sinergia contestuale e agenti DQN eterogenei, permettendo ai droni autonomi di prendere decisioni proattive e adattive che massimizzano il successo della missione e riducono l'esposizione in ambienti aerei contesi.

Jiahao Fu, Feng Yang2026-03-03⚡ eess

HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents

Il paper presenta HiMAC, un framework di apprendimento per rinforzo gerarchico che scompone il processo decisionale a lungo termine in pianificazione macro e esecuzione micro, ottenendo prestazioni superiori e una maggiore efficienza nel campionamento rispetto ai metodi esistenti su diversi ambienti complessi.

Hongbo Jin, Rongpeng Zhu, Jiayu Ding + 2 more2026-03-03🤖 cs.LG

SoberDSE: Sample-Efficient Design Space Exploration via Learning-Based Algorithm Selection

Il framework SoberDSE risolve il problema della selezione algoritmica nella esplorazione dello spazio di progettazione (DSE) per la Sintesi di Alto Livello, superando gli stati dell'arte tramite un meccanismo di apprendimento automatico che identifica dinamicamente l'algoritmo più performante per ogni istanza specifica, garantendo risultati superiori anche in scenari con pochi dati.

Lei Xu, Shanshan Wang, Chenglong Xiao2026-03-03🤖 cs.LG

Compensation-free Machine Unlearning in Text-to-Image Diffusion Models by Eliminating the Mutual Information

Questo articolo presenta MiM-MU, un metodo innovativo per l'oblio delle macchine nei modelli di diffusione testo-immagine che elimina i concetti indesiderati minimizzando l'informazione reciproca, ottenendo così una rimozione efficace senza compromettere la qualità delle generazioni rimanenti e senza richiedere alcuna compensazione post-remediale.

Xinwen Cheng, Jingyuan Zhang, Zhehao Huang + 2 more2026-03-03🤖 cs.LG

DWAFM: Dynamic Weighted Graph Structure Embedding Integrated with Attention and Frequency-Domain MLPs for Traffic Forecasting

Questa lettera propone DWAFM, un nuovo modello di previsione del traffico che integra un'embedding dinamica di grafi pesati con meccanismi di attenzione e MLP nel dominio della frequenza per catturare efficacemente le dipendenze spazio-temporali complesse e dinamiche nei dati del traffico.

Sen Shi, Zhichao Zhang, Yangfan He2026-03-03⚡ eess

AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching

Il paper introduce AG-REPA, una strategia di selezione causale dei livelli basata sull'ablatione per guidare l'allineamento delle rappresentazioni nel Flow Matching audio, dimostrando che l'addestramento è più efficace quando si allineano i livelli che guidano causalmente il campo di velocità piuttosto che quelli semplicemente ricchi di informazioni rappresentative.

Pengfei Zhang, Tianxin Xie, Minghao Yang + 1 more2026-03-03🤖 cs.LG

Feature-Weighted Maximum Representative Subsampling

Gli autori propongono FW-MRS, un algoritmo di sottocampionamento rappresentativo pesato per le feature che riduce l'impatto delle variabili fortemente distorte durante il debiasing, preservando al contempo le prestazioni di generalizzazione sui compiti successivi senza alterare significativamente le variabili già rappresentative.

Tony Hauptmann, Stefan Kramer2026-03-03🤖 cs.LG

BadRSSD: Backdoor Attacks on Regularized Self-Supervised Diffusion Models

Il paper propone BadRSSD, il primo attacco backdoor che compromette lo strato di rappresentazione dei modelli di diffusione auto-supervisionati, manipolando lo spazio latente tramite PCA e vincoli coordinati per generare immagini target specifiche in modo stealthy mantenendo l'alta utilità del modello.

Jiayao Wang, Yiping Zhang, Mohammad Maruf Hasan + 5 more2026-03-03🤖 cs.LG

One-Token Verification for Reasoning Correctness Estimation

Il paper presenta One-Token Verification (OTV), un metodo efficiente che stima la correttezza del ragionamento in un singolo passaggio durante la generazione, riducendo significativamente la latenza e l'uso dei token rispetto alle tecniche di verifica tradizionali.

Zhan Zhuang, Xiequn Wang, Zebin Chen + 4 more2026-03-03🤖 cs.LG

Fed-ADE: Adaptive Learning Rate for Federated Post-adaptation under Distribution Shift

Il paper propone Fed-ADE, un framework federato non supervisionato che stima le dinamiche di incertezza e di rappresentazione per adattare dinamicamente il tasso di apprendimento in modo specifico per ogni client, garantendo una robusta post-adattamento in scenari con distribuzione non stazionaria.

Heewon Park, Mugon Joe, Miru Kim + 2 more2026-03-03🤖 cs.LG

Thoth: Mid-Training Bridges LLMs to Time Series Understanding

Il paper presenta Thoth, una nuova famiglia di modelli linguistici di grandi dimensioni sottoposti a un'addestramento intermedio ("mid-training") sul corpus Book-of-Thoth, che conferisce loro capacità di comprensione e ragionamento sui dati temporali, superando le limitazioni dei modelli esistenti e dimostrando prestazioni superiori su benchmark specifici come KnoTS.

Jiafeng Lin, Yuxuan Wang, Jialong Wu + 3 more2026-03-03💬 cs.CL

Evaluating GFlowNet from partial episodes for stable and flexible policy-based training

Questo lavoro colma il divario tra gli approcci basati su valori e su politiche nei GFlowNet introducendo un obiettivo di bilanciamento della valutazione su episodi parziali che migliora l'affidabilità e la flessibilità dell'addestramento, permettendo l'uso di politiche di ritorno parametriche e di dati offline.

Puhua Niu, Shili Wu, Xiaoning Qian2026-03-03📊 stat

No More Maybe-Arrows: Resolving Causal Uncertainty by Breaking Symmetries

Il paper presenta CausalSAGE, un nuovo framework di raffinamento che risolve l'incertezza causale nei grafi ancestrali parziali (PAG) trasformandoli in grafi aciclici diretti (DAG) attraverso l'espansione delle variabili discrete, vincoli strutturali e un'ottimizzazione differenziabile unificata.

Tingrui Huang, Devendra Singh Dhami2026-03-03🤖 cs.LG

Turning Black Box into White Box: Dataset Distillation Leaks

Questo studio dimostra che le tecniche di distillazione dei dataset, spesso considerate sicure per la privacy, possono effettivamente rivelare informazioni sensibili attraverso un nuovo attacco chiamato Information Revelation Attack (IRA) che sfrutta le traiettorie dei pesi codificate nei dati sintetici per inferire l'algoritmo di distillazione, l'architettura del modello e persino recuperare campioni originali.

Huajie Chen, Tianqing Zhu, Yuchen Zhong + 7 more2026-03-03🤖 cs.LG

A level-wise training scheme for learning neural multigrid smoothers with application to integral equations

Il documento propone un innovativo schema multigrid neurale che sostituisce i classici smussatori con operatori neurali addestrati a livello di griglia per risolvere efficientemente e con robustezza le equazioni integrali, superando i limiti dei metodi tradizionali nella riduzione degli errori ad alta frequenza.

Lingfeng Li, Yin King Chu, Raymond Chan + 1 more2026-03-03🤖 cs.LG

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

Il paper presenta LLaDA-o, un modello di diffusione omni multimodale basato su un framework Mixture of Diffusion e una strategia di adattamento della lunghezza dei dati, che ottiene prestazioni all'avanguardia nella comprensione e generazione multimodale.

Zebin You, Xiaolu Zhang, Jun Zhou + 2 more2026-03-03🤖 cs.LG

Super-resolution of turbulent reacting flows on complex meshes using graph neural networks

Questo studio presenta un metodo basato su reti neurali grafiche (GNN) per ricostruire con precisione le strutture a piccola scala nei flussi reattivi turbolenti su mesh complesse e non strutturate, superando i limiti degli attuali modelli di deep learning e migliorando l'accuratezza delle simulazioni a grana grossa.

Priyabrat Dash, Konduri Aditya, Christos E. Frouzakis + 1 more2026-03-03🤖 cs.LG

← Precedente Successivo →