cs.LG articoli | Gist.Science

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Questo articolo identifica e dimostra teoricamente come l'addestramento non mascherato nei gradienti di politica sopprima sistematicamente azioni valide in stati non ancora visitati a causa della condivisione dei parametri, proponendo la classificazione di fattibilità come soluzione efficace per superare tale limite senza ricorrere a maschere oracolo.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Questo lavoro presenta un approccio basato sui dati per la previsione probabilistica del fattore di isteresi nelle batterie con anodi in silicio-grafite, utilizzando un framework di armonizzazione dei dati e modelli di apprendimento statistico e profondo per migliorare l'affidabilità della stima dello stato di carica (SoC) considerando incertezze ed efficienza computazionale.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Il paper propone DCPO, un framework che risolve il conflitto di gradiente tra accuratezza e calibrazione nel Reinforcement Learning da ricompense verificabili, disaccoppiando gli obiettivi di ragionamento e calibrazione per eliminare l'eccessiva sicurezza degli LLM mantenendo al contempo elevate prestazioni.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Il paper propone un metodo di regolarizzazione basato sulla Probabilità di Necessità e Sufficienza (PNS), esteso al contesto di apprendimento incrementale di classe (CIL), che utilizza un generatore controfattuale per mitigare le collisioni tra feature causate da correlazioni spurie intra- e inter-task, garantendo così la completezza causale e la separabilità delle rappresentazioni.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Il paper presenta RubiCap, un innovativo framework di apprendimento per rinforzo che utilizza rubriche scritte da LLM per generare segnali di ricompensa strutturati e specifici, superando i limiti della distillazione supervisionata e delle precedenti metodologie RL nella generazione di didascalie dense per immagini.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Questo lavoro propone un framework di apprendimento che sfrutta la struttura preservata negli RTL generati da LLM, anche quando funzionalmente imperfetti, per superare la scarsità di dati etichettati e migliorare l'analisi delle reti logiche reali.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Il documento presenta il GIAT, un nuovo framework Transformer arricchito da conoscenze geologiche che, integrando filtri di correlazione sequenziale specifici per categoria nel meccanismo di attenzione, raggiunge prestazioni all'avanguardia e maggiore interpretabilità nell'identificazione della litologia dai registri di pozzo.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

Better Bounds for the Distributed Experts Problem

Questo lavoro presenta un protocollo migliorato per il problema degli esperti distribuiti che riduce il regret e ottimizza la comunicazione necessaria tra i server, superando i risultati precedenti.

David P. Woodruff, Samson Zhou2026-03-11🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Questo lavoro propone un quadro di modellazione generativa fisica-informata che, partendo da un modello stocastico del flusso di traffico, deriva un'equazione deterministica di flusso di probabilità per abilitare la stima distribuzionale dello stato del traffico e l'analisi di incertezza attraverso una rete di punteggio addestrabile.

Wuping Xin2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Il paper introduce Latent-DARM, un framework di comunicazione nello spazio latente che unisce modelli di diffusione discreta (DDLM) per la pianificazione e modelli autoregressivi (ARM) per l'esecuzione, superando i limiti di fluidità e ragionamento globale dei sistemi tradizionali e ottenendo risultati superiori su vari benchmark di ragionamento con un uso delle risorse token significativamente ridotto.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Questo studio affronta le sfide di riproducibilità nel campo della separazione delle fonti musicali replicando il modello BSRNN, evidenziando i costi metodologici e pratici della mancanza di codice completo e proponendo un'architettura ottimizzata con prestazioni superiori.

Paul Magron, Romain Serizel, Constance Douwes2026-03-11🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

Il paper introduce $P^2$ GNN, una tecnica plug-and-play che utilizza due insiemi di prototipi per arricchire il contesto globale e ridurre il rumore nei vicini locali, migliorando significativamente le prestazioni delle GNN su 18 dataset diversi, inclusi scenari reali di e-commerce.

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng Dong2026-03-11🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Questo paper sostiene che il miglioramento delle capacità di ragionamento logico nei modelli linguistici di grandi dimensioni, attraverso il framework RAISE, funge da meccanismo diretto per l'acquisizione della consapevolezza situazionale e il potenziale inganno strategico, rendendo necessarie nuove misure di sicurezza come il "Test dello Specchio" e il Principio di Parità di Sicurezza nel Ragionamento.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Il paper presenta un separatore di segnali completamente basato sui dati che utilizza un tokenizzatore discreto modificato e un transformer addestrato con perdita cross-entropy per isolare con successo segnali di interesse da interferenze non gaussiane, ottenendo risultati superiori rispetto alle tecniche tradizionali e mostrando potenziale di generalizzazione zero-shot in ambiti scientifici come le onde gravitazionali.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. Wornell2026-03-11🤖 cs.LG

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Questo studio dimostra che le emozioni agiscono come fattori latenti che modellano l'attenzione e il ragionamento nei modelli linguistici, introducendo il dataset AURA-QA e un framework di regolarizzazione emotiva che migliorano le prestazioni di comprensione del testo sia in contesti emotivi che neutri.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Il paper presenta MM-Zero, il primo framework basato sul reinforcement learning che permette l'auto-evoluzione a partire da zero dati per i modelli visione-linguaggio, introducendo un innovativo sistema multi-ruolo (Propositore, Programmatore e Risolutore) che genera concetti visivi astratti, li traduce in codice eseguibile e li utilizza per il ragionamento multimodale senza necessità di dati iniziali.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Il paper propone \texttt{RQRE-OVI}, un algoritmo di iterazione dei valori ottimistico basato su approssimazione lineare che calcola l'Equilibrio di Risposta Quantale Sensibile al Rischio (RQRE) in giochi di Markov a somma generale, offrendo un compromesso controllabile tra prestazioni ottimali e robustezza rispetto agli errori di approssimazione e alla molteplicità degli equilibri.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. Ratliff2026-03-11🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Il paper presenta il layer Test-Time Control (TTC), un componente hardware-efficiente basato sul controllo ottimo che integra la pianificazione direttamente nell'architettura dei modelli linguistici, migliorando significativamente le capacità di ragionamento matematico senza ricorrere all'addestramento al momento del test.

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René Vidal2026-03-11🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Il paper propone un quadro unificato di campionamento generativo basato sulla reversibilità temporale e sulla minimizzazione della discrepanza MMD tra traiettorie forward e backward, che permette di campionare distribuzioni complesse su spazi continui, discreti o misti senza richiedere gradienti del target o rilassamenti continui, utilizzando solo valutazioni energetiche.

Lei Li, Zhen Wang, Lishuo Zhang2026-03-11🤖 cs.LG

Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training

Il paper propone un metodo per migliorare l'efficienza del ragionamento nei Transformer a costo di test fisso, introducendo durante l'addestramento un prior di attenzione sensibile alla lunghezza e un controller "Guardian" che, senza aggiungere parametri o latenza durante l'inferenza, riduce l'entropia incrociata di validazione mantenendo invariati i costi computazionali.

Rian Atri2026-03-11🤖 cs.LG

← Precedente Successivo →

cs.LG