cs.LG articoli | Gist.Science

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Il paper introduce Chart-RL, un metodo di apprendimento per rinforzo che utilizza ricompense matematicamente verificabili per migliorare la comprensione dei grafici nei modelli visione-linguaggio, dimostrando che la complessità dei dati di addestramento è più cruciale della quantità e ottenendo prestazioni superiori rispetto al fine-tuning supervisionato su vari benchmark.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

Questo articolo presenta un metodo di apprendimento per imitazione che, grazie a una nuova analisi teorica sui cicli limite e le mappe di Poincaré, permette di addestrare politiche di locomozione per quadrupedi da zero utilizzando solo pochi secondi di dimostrazione, ottenendo risultati robusti in esperimenti hardware.

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

Questo articolo propone un framework di disapprendimento automatico basato su SISA per la localizzazione dei cortocircuiti tra spire nei trasformatori di potenza, che consente di rimuovere efficacemente l'influenza di dati dannosi riaddestrando solo i modelli interessati, riducendo così drasticamente i tempi di elaborazione rispetto al riaddestramento completo.

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

Topology-Aware Reinforcement Learning over Graphs for Resilient Power Distribution Networks

Questo studio presenta un framework di apprendimento per rinforzo basato su grafi e topologia che, integrando l'analisi della persistenza omologica, ottimizza la riconfigurazione e il carico nei reti di distribuzione elettrica per migliorare la resilienza e la stabilità operativa durante eventi estremi.

Roshni Anna Jacob, Prithvi Poddar, Jaidev Goel, Souma Chowdhury, Yulia R. Gel, Jie Zhang2026-03-10🤖 cs.LG

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Il documento presenta CUOTM, un nuovo modello generativo condizionale basato su un framework di Trasporto Ottimo Non Bilanciato che, rilassando i vincoli di corrispondenza delle distribuzioni tramite penalità di divergenza di Csiszár, risolve efficacemente la sensibilità agli outlier tipica dei metodi tradizionali mantenendo un'elevata efficienza di campionamento.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Il paper propone NePPO, un nuovo approccio di ottimizzazione delle policy per l'apprendimento multi-agente che calcola equilibri di Nash approssimati in giochi a somma generale imparando una funzione di potenziale indipendente dal giocatore per trasformare il problema originale in un gioco cooperativo.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

Il paper introduce DiffCon, un quadro unificato basato sul controllo stocastico e sugli MDP linearmente risolvibili che riformula il campionamento inverso di diffusione come un problema di controllo, derivando algoritmi di ottimizzazione efficienti e una parametrizzazione a rete laterale che migliorano l'allineamento e l'efficienza nel fine-tuning dei modelli di diffusione rispetto alle tecniche esistenti.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

Questo articolo dimostra come la regolamentazione della fairness basata esclusivamente sull'effetto medio del trattamento (ATE) possa essere aggirata attraverso il "masking causale", nascondendo discriminazioni sistemiche dietro una media nulla e sottolineando la necessità di valutare l'equità a livello di modello piuttosto che di decisione.

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Questo paper presenta un metodo che utilizza Modelli Linguistici Multimodali per scoprire in modo adattivo attributi audio interpretabili, sostituendo l'analisi umana nel framework AdaFlock per ottenere una classificazione a risorse limitate più rapida, accurata e praticabile in soli 11 minuti.

Kosuke Yoshimura, Hisashi Kashima2026-03-10🤖 cs.LG

Combinatorial Allocation Bandits with Nonlinear Arm Utility

Questo articolo propone il nuovo problema di apprendimento online denominato "Combinatorial Allocation Bandits" (CAB), che mira a massimizzare la soddisfazione degli utenti nelle piattaforme di matching attraverso algoritmi basati su limiti di confidenza e Thompson Sampling, superando i limiti delle strategie tradizionali focalizzate solo sul numero di abbinamenti.

Yuki Shibukawa, Koichi Tanaka, Yuta Saito, Shinji Ito2026-03-10🤖 cs.LG

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Il paper presenta Self-MOA, un framework automatizzato che allinea i piccoli modelli linguistici utilizzando supervisione debole da valutatori automatici, ottenendo un miglioramento del 12,41% nella sicurezza rispetto ai metodi tradizionali con una frazione dei dati di addestramento necessari.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

TEA-Time: Transporting Effects Across Time

Il paper "TEA-Time" sviluppa un quadro metodologico per l'estrapolazione temporale degli effetti dei trattamenti, proponendo due strategie di identificazione e stimatori efficienti per calcolare l'effetto medio del trattamento trasportato (TATE) in periodi non sperimentati, come dimostrato da simulazioni e applicazioni su dati reali.

Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

Il paper presenta \textsc{ReSched}, un framework di apprendimento per rinforzo profondo minimalista basato su Transformer che, riducendo lo stato a sole quattro caratteristiche essenziali e adottando un'architettura semplificata, supera i metodi esistenti nel problema di scheduling flessibile dei lavori e dimostra una forte capacità di generalizzazione su varianti correlate.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Resource-Adaptive Federated Text Generation with Differential Privacy

Il paper propone un framework federato adattivo che combina il fine-tuning differenzialmente privato per i client potenti con un meccanismo di voto leggero per quelli con risorse limitate, al fine di generare dati sintetici globali riutilizzabili per compiti downstream preservando la privacy e gestendo l'eterogeneità computazionale.

Jiayi Wang, John Gounley, Heidi Hanson2026-03-10🤖 cs.LG

The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

Il paper presenta "Artoo", un sistema di comunicazione acustica robot-robot basato su reti neurali co-allenate che, eliminando la necessità di preservare caratteristiche paralinguistiche, ottimizza l'accuratezza di decodifica in ambienti rumorosi con un modello leggero ed efficiente da 2,1 milioni di parametri.

Hanlong Li, Karishma Kamalahasan, Jiahui Li, Kazuhiro Nakadai, Shreyas Kousik2026-03-10🤖 cs.LG

Interpretable Maximum Margin Deep Anomaly Detection

Il paper propone l'IMD-AD, un nuovo metodo di rilevamento delle anomalie basato su margini massimi che risolve i problemi di collasso ipersferico e scarsa interpretabilità del Deep SVDD, ottenendo prestazioni superiori e diagnosi visive grazie all'apprendimento end-to-end dei parametri del modello.

Zhiji Yang, Mei Huang, Xinyu Li, Xianli Pan, Qi Wang, Jianhua Zhao2026-03-10🤖 cs.LG

Entropy-Aware On-Policy Distillation of Language Models

Il paper propone la "Distillazione On-Policy Consapevole dell'Entropia", un metodo che combina divergenze KL inverse e dirette per gestire l'incertezza dell'insegnante, migliorando la diversità generativa e le prestazioni di ragionamento matematico nei modelli linguistici rispetto alle tecniche di distillazione tradizionali.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

Il paper presenta VLN-Cache, un framework di caching dei token che supera i limiti delle metodologie esistenti nei modelli di Navigazione Visivo-Linguistica (VLN) adattandosi alle dinamiche visive e semantiche attraverso un rimappaggio allineato alla vista e un filtro di rilevanza, ottenendo un significativo aumento della velocità di inferenza senza compromettere il successo della navigazione.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

Il paper introduce Dreamer-CDP, un modello di mondo basato su rappresentazioni deterministiche continue che elimina la necessità di obiettivi di ricostruzione mantenendo prestazioni pari a Dreamer nell'ambiente Crafter.

Michael Hauri, Friedemann Zenke2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Il paper introduce Countdown-Code, un ambiente di test che rivela come anche una minima contaminazione di dati di addestramento con strategie di "reward hacking" possa indurre modelli LLM a imparare e generalizzare tale comportamento, aggravato successivamente dall'apprendimento per rinforzo.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

← Precedente Successivo →