cs.LG articoli | Gist.Science

PAC Guarantees for Reinforcement Learning: Sample Complexity, Coverage, and Structure

Questo articolo esamina i progressi compiuti tra il 2018 e il 2025 nelle garanzie PAC per l'apprendimento per rinforzo, proponendo il nuovo framework CSO (Copertura-Struttura-Obiettivo) come strumento interpretativo per analizzare la complessità dei campioni, classificare i risultati teorici e fornire strumenti pratici per gli utenti.

Joshua Steier2026-03-03📊 stat

From GEV to ResLogit: Spatially Correlated Discrete Choice Models for Pedestrian Movement Prediction

Lo studio dimostra che, per la previsione del movimento pedonale in contesti ad alta frequenza, un modello ResLogit che apprende le correlazioni spaziali tramite correzioni residue supera le strutture GEV tradizionali, offrendo un migliore adattamento ai dati e un'interpretazione coerente degli errori.

Rulla Al-Haideri, Bilal Farooq2026-03-03🤖 cs.LG

Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

Il paper introduce "Truth as a Trajectory" (TaT), un metodo che analizza le variazioni geometriche degli stati nascosti tra i livelli dei modelli linguistici invece delle attivazioni statiche, permettendo di distinguere il ragionamento valido dai comportamenti spurii e superando i limiti dei metodi di spiegabilità tradizionali.

Hamed Damirchi, Ignacio Meza De la Jara, Ehsan Abbasnejad + 3 more2026-03-03💬 cs.CL

SWE-Adept: An LLM-Based Agentic Framework for Deep Codebase Analysis and Structured Issue Resolution

Il paper presenta SWE-Adept, un framework basato su agenti LLM che migliora l'analisi e la risoluzione strutturata dei problemi nei repository di codice attraverso un agente di localizzazione con ricerca in profondità guidata e un agente di risoluzione dotato di pianificazione adattiva e controllo versione Git, ottenendo risultati superiori su SWE-Bench.

Kang He, Kaushik Roy2026-03-03💬 cs.CL

MetaState: Persistent Working Memory for Discrete Diffusion Language Models

Il paper presenta MetaState, un'architettura di memoria ricorrente leggera che risolve il problema delle "Isole di Informazione" nei modelli di diffusione linguistica discreta, migliorando la coerenza e la qualità della generazione mantenendo il modello di base congelato.

Kejing Xia, Mingzhe Li, Lixuan Wei + 4 more2026-03-03💬 cs.CL

Provable and Practical In-Context Policy Optimization for Self-Improvement

Il paper introduce ICPO, un metodo che permette ai modelli linguistici di ottimizzare le proprie risposte durante l'inferenza senza modificare i parametri, e propone l'algoritmo ME-ICPO che, supportato da una dimostrazione teorica, raggiunge prestazioni d'eccellenza nel ragionamento matematico garantendo robustezza ed efficienza nei costi.

Tianrun Yu, Yuxiao Yang, Zhaoyang Wang + 6 more2026-03-03🤖 cs.LG

Adaptive Estimation and Inference in Conditional Moment Models via the Discrepancy Principle

Questo lavoro introduce un quadro adattivo basato sul principio di discrepanza per la selezione automatica degli iperparametri in modelli di momenti condizionali mal posti, consentendo stime e inferenze ottimali senza richiedere la conoscenza preventiva della regolarità della funzione di disturbo.

Jiyuan Tan, Vasilis Syrgkanis2026-03-03📊 stat

Causal Effects with Unobserved Unit Types in Interacting Human-AI Systems

Questo lavoro propone un quadro teorico e pratico per stimare gli effetti causali specifici sugli esseri umani in sistemi interagenti con l'IA, dove né i tipi di unità né la rete di interazione sono osservabili, sfruttando una conoscenza a priori della composizione della popolazione e un framework di passaggio di messaggi causali per identificare gli effetti attraverso subpopolazioni aggregate.

William Overman, Sadegh Shirani, Mohsen Bayati2026-03-03📊 stat

Relatively Smart: A New Approach for Instance-Optimal Learning

Questo lavoro introduce il framework di "relatively smart learning", che supera le limitazioni dell'apprendimento PAC intelligente tradizionale richiedendo ai learner supervisionati di competere solo con le migliori garanzie semi-supervisionate "certificabili", dimostrando così che tale rilassamento permette di aggirare i risultati di impossibilità precedenti.

Shaddin Dughmi, Alireza F. Pour2026-03-03📊 stat

UTICA: Multi-Objective Self-Distllation Foundation Model Pretraining for Time Series Classification

Il paper presenta UTICA, un modello fondazionale per la classificazione delle serie temporali basato su auto-distillazione multi-obiettivo in stile DINOv2, che combina invarianza temporale e struttura locale per raggiungere prestazioni all'avanguardia sui benchmark UCR e UEA.

Yessin Moakher, Youssef Attia El Hili, Vasilii Feofanov2026-03-03🤖 cs.LG

Constructing Synthetic Instruction Datasets for Improving Reasoning in Domain-Specific LLMs: A Case Study in the Japanese Financial Domain

Questo studio presenta un metodo generale per costruire dataset di istruzioni sintetiche di alta qualità partendo dal vocabolario specifico di un settore, dimostrando nel dominio finanziario giapponese come l'uso di tracce di ragionamento (Chain-of-Thought) su larga scala migliori le capacità di ragionamento dei modelli linguistici, con risorse ora open-source.

Yuma Okochi, Fabio Milentiansen Sim, Tomoyasu Okada2026-03-03💬 cs.CL

Fed-GAME: Personalized Federated Learning with Graph Attention Mixture-of-Experts For Time-Series Forecasting

Il paper propone Fed-GAME, un framework di apprendimento federato personalizzato che utilizza un grafo implicito dinamico e un aggregatore Mixture-of-Experts con attenzione grafica per migliorare le previsioni delle serie temporali in ambienti eterogenei, superando i limiti delle topologie statiche.

Yi Li, Han Liu, Mingfeng Fan + 3 more2026-03-03🤖 cs.LG

Align and Filter: Improving Performance in Asynchronous On-Policy RL

Il paper propone il metodo TACPO, basato su vincoli di ottimizzazione della politica allineati al vantaggio tramite variazione totale, per mitigare il ritardo della politica (policy lag) nei sistemi di apprendimento per rinforzo on-policy distribuiti e ad alta frequenza di aggiornamento, migliorando così le prestazioni sia in compiti classici che nel ragionamento matematico con LLM.

Homayoun Honari, Roger Creus Castanyer, Michael Przystupa + 3 more2026-03-03⚡ eess

Causal Neural Probabilistic Circuits

Il paper propone il Causal Neural Probabilistic Circuit (CNPC), un modello che integra predittori neurali con circuiti probabilistici causali per migliorare l'interpretabilità e l'accuratezza dei Concept Bottleneck Models gestendo correttamente le dipendenze causali durante le interventi, superando così i limiti dei metodi tradizionali che ignorano tali relazioni.

Weixin Chen, Han Zhao2026-03-03🤖 cs.LG

Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation

Il paper presenta ROSA2, un framework che migliora l'adattamento delle LLM durante l'inferenza in interazioni multi-turno ottimizzando sinergicamente sia le istruzioni testuali che i pesi del modello, riducendo così significativamente gli errori e il numero di turni necessari rispetto agli approcci esistenti.

Chenxing Wei, Hong Wang, Ying He + 4 more2026-03-03🤖 cs.LG

3BASiL: An Algorithmic Framework for Sparse plus Low-Rank Compression of LLMs

Il paper introduce 3BASiL-TM, un metodo efficiente per la compressione one-shot dei Large Language Models basato su una decomposizione in somma di matrici sparse e a basso rango che, grazie a un nuovo algoritmo ADMM a tre blocchi e a un raffinamento di matching dei transformer, riduce significativamente il gap di prestazioni rispetto ai modelli densi e accelera i tempi di compressione rispetto agli stati dell'arte.

Mehdi Makni, Xiang Meng, Rahul Mazumder2026-03-03📊 stat

Invariant-Stratified Propagation for Expressive Graph Neural Networks

Il paper introduce l'Invariant-Stratified Propagation (ISP), un nuovo framework che supera i limiti espressivi delle tradizionali GNN stratificando i nodi in base a invarianti grafici, permettendo così di distinguere posizioni strutturali complesse con un'efficienza computazionale superiore rispetto ai metodi esistenti.

Asela Hevapathige, Ahad N. Zehmakan, Asiri Wijesinghe + 1 more2026-03-03📊 stat

Quasar: Quantized Self-Speculative Acceleration for Rapid Inference via Memory-Efficient Verification

Il paper introduce Quasar, un framework di accelerazione speculativa senza addestramento che utilizza la quantizzazione a basso bit nella fase di verifica per superare il collo di bottiglia della larghezza di banda della memoria, raddoppiando il traffico di memoria e migliorando il throughput end-to-end di 1,28 volte mantenendo un'accuratezza elevata.

Guang Huang, Zeyi Wen2026-03-03🤖 cs.LG

MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning

Il paper presenta MIST-RL, un framework basato sul reinforcement learning che ottimizza la generazione di test unitari tramite mutazioni incrementali, superando i limiti degli approcci basati sulla quantità per ottenere suite di test più compatte ed efficaci che migliorano sia il rilevamento dei difetti che la precisione nella riclassificazione del codice.

Sicheng Zhu, Jiajun Wang, Jiawei Ai + 1 more2026-03-03🤖 cs.LG

Tackling multiphysics problems via finite element-guided physics-informed operator learning

Questo lavoro presenta un framework di apprendimento di operatori informato dalla fisica e guidato dagli elementi finiti, implementato su Folax, che risolve con alta accuratezza problemi multifisici accoppiati su domini arbitrari senza dati etichettati, dimostrando l'efficacia di diverse architetture neurali come FNO e iFOL per la previsione indipendente dalla discretizzazione in scenari complessi.

Yusuke Yamazaki, Reza Najian Asl, Markus Apel + 2 more2026-03-03🤖 cs.LG

← Precedente Successivo →