cs.LG articoli | Gist.Science

Operator Learning Using Weak Supervision from Walk-on-Spheres

Il paper propone il "Walk-on-Spheres Neural Operator" (WoS-NO), un metodo che utilizza supervisione debole tramite il metodo Monte Carlo Walk-on-Spheres per addestrare operatori neurali su equazioni differenziali alle derivate parziali senza dati pre-calcolati, evitando il calcolo di derivate di ordine superiore e ottenendo significativi miglioramenti in precisione, velocità e consumo di memoria rispetto alle tecniche fisicamente informate standard.

Hrishikesh Viswanath, Hong Chul Nam, Xi Deng + 3 more2026-03-04🤖 cs.LG

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Il paper presenta BiCAM, un metodo di mappatura delle attivazioni di classe bidirezionale per Vision Transformers che cattura sia i contributi positivi che negativi per migliorare l'interpretabilità, la fedeltà e il rilevamento di esempi adversariali senza necessità di riaddestramento.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

Questo lavoro propone l'Ottimizzazione delle Politiche Accoppiate (Coupled Policy Optimization), un metodo che regola la diversità tra le politiche in un ensemble tramite vincoli KL per migliorare l'esplorazione e la stabilità nell'apprendimento per rinforzo su larga scala, superando le prestazioni di approcci esistenti in termini di efficienza dei campioni e risultati finali.

Naoki Shitanda, Motoki Omura, Tatsuya Harada + 1 more2026-03-04🤖 cs.AI

Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport

Questo lavoro introduce l'Inferenza della Traiettoria degli Iperparametri (HTI), un approccio basato sul trasporto ottimo lagrangiano condizionale che apprende la dinamica delle distribuzioni di output di una rete neurale al variare degli iperparametri per costruire un modello surrogato capace di prevedere comportamenti a impostazioni non osservate senza costosi riaddestramenti.

Harry Amad, Mihaela van der Schaar2026-03-04🤖 cs.AI

RxnNano:Training Compact LLMs for Chemical Reaction and Retrosynthesis Prediction via Hierarchical Curriculum Learning

Il paper presenta RxnNano, un modello linguistico compatto da 0,5 miliardi di parametri che, grazie a un apprendimento curricolare gerarchico e a nuovi obiettivi di coerenza chimica, supera modelli di dimensioni molto maggiori nella previsione delle reazioni e nella retrosintesi, dimostrando che la comprensione chimica profonda è più cruciale della semplice scalabilità dei parametri.

Ran Li, Shimin Di, Haowei LI + 4 more2026-03-04🤖 cs.AI

ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue

Il paper propone ATPO, un algoritmo di ottimizzazione della politica adattiva basato su alberi che affronta le sfide dell'incertezza nei dialoghi medici multi-turno allocando dinamicamente le risorse di esplorazione e ottimizzando l'efficienza computazionale, permettendo al modello Qwen3-8B di superare GPT-4o su benchmark pubblici.

Ruike Cao, Shaojie Bai, Fugen Yao + 3 more2026-03-04🤖 cs.AI

Is Retraining-Free Enough? The Necessity of Router Calibration for Efficient MoE Compression

Il paper dimostra che la compressione senza riaddestramento dei modelli MoE richiede una calibrazione leggera del router per risolvere il disallineamento con gli esperti, proponendo la distillazione della conoscenza del router per recuperare le prestazioni senza aggiornare i parametri degli esperti.

Sieun Hyeon, Jaeyoung Do2026-03-04🤖 cs.AI

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Questo articolo dimostra che l'evoluzione sostenibile dei modelli linguistici richiede un pipeline auto-sintetico che garantisca un guadagno di informazione apprendibile, raggiungibile attraverso ruoli triadici asimmetrici, crescita della capacità e ricerca proattiva di informazioni per superare i limiti del semplice self-play.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

NExT-Guard: Training-Free Streaming Safeguard without Token-Level Labels

Il paper introduce NExT-Guard, un framework senza addestramento che abilita la sicurezza in streaming per i modelli linguistici monitorando le caratteristiche latenti interpretabili degli Sparse Autoencoder, eliminando così la necessità di costose annotazioni a livello di token e superando le prestazioni dei metodi esistenti.

Junfeng Fang, Nachuan Chen, Houcheng Jiang + 5 more2026-03-04🤖 cs.AI

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

Il paper introduce TimeGS, un nuovo framework per la previsione delle serie temporali che supera i limiti delle rappresentazioni 2D statiche trasformando il problema in un rendering generativo basato su 2D Gaussian Splatting, il quale utilizza kernel gaussiani anisotropi e blocchi di rasterizzazione cronologicamente continui per modellare adattivamente le fluttuazioni e le tendenze temporali ottenendo prestazioni allo stato dell'arte.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction

Il paper presenta MedFeat, un framework di ingegneria delle feature guidato da LLM e consapevole del modello che, integrando conoscenze mediche e segnali di importanza delle feature, migliora le prestazioni predittive cliniche e garantisce robustezza e interpretabilità.

Zizheng Zhang, Yiming Li, Justin Xu + 6 more2026-03-04🤖 cs.AI

MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation

Questo studio rivela che il benchmark MedCalc-Bench misura prevalentemente la memorizzazione di formule e l'accuratezza aritmetica piuttosto che il ragionamento clinico, dimostrando che fornire ai modelli le specifiche dei calcolatori durante l'inferenza ("open-book") supera le prestazioni dei sistemi RL e porta a un audit che corregge oltre 20 errori nel dataset originale.

Artus Krohn-Grimberghe2026-03-04🤖 cs.AI

Characterizing and Predicting Wildfire Evacuation Behavior: A Dual-Stage ML Approach

Questo studio utilizza un approccio di machine learning a due stadi su un ampio campione di residenti statunitensi per identificare sottogruppi comportamentali omogenei e predire l'efficacia delle strategie di evacuazione dagli incendi boschivi, evidenziando come la modalità di trasporto sia prevedibile dalle caratteristiche familiari mentre la tempistica dipenda da condizioni dinamiche.

Sazzad Bin Bashar Polock, Anandi Dutta, Subasish Das2026-03-04🤖 cs.AI

Subspace Geometry Governs Catastrophic Forgetting in Low-Rank Adaptation

Questo lavoro presenta una teoria geometrica che dimostra come l'oblio catastrofico nell'adattamento a basso rango (LoRA) sia governato dagli angoli tra i sottospazi dei gradienti dei compiti, rivelando che l'impatto del rango è significativo solo quando i sottospazi sono simili e fornendo una guida principiale per l'apprendimento continuo.

Brady Steele2026-03-04🤖 cs.LG

Scaling Reward Modeling without Human Supervision

Questo studio presenta un approccio pionieristico per l'addestramento di modelli di ricompensa su larga scala senza supervisione umana, dimostrando che l'apprendimento delle preferenze su dati web non annotati migliora significativamente le prestazioni su benchmark di matematica e sicurezza, superando o eguagliando i modelli supervisionati tradizionali.

Jingxuan Fan, Yueying Li, Zhenting Qi + 4 more2026-03-04🤖 cs.LG

Efficient Sparse Selective-Update RNNs for Long-Range Sequence Modeling

Il paper introduce le suRNN, un'architettura ricorrente non lineare che utilizza interruttori binari a livello neurale per aggiornare lo stato interno solo in presenza di eventi informativi, permettendo così di preservare la memoria a lungo termine e raggiungere prestazioni paragonabili ai Transformer con un'efficienza computazionale superiore.

Bojian Yin, Shurong Wang, Haoyu Tan + 3 more2026-03-04🤖 cs.LG

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

Il documento dimostra che l'addestramento end-to-end dell'attenzione sparsa fallisce nel migliorare le prestazioni rispetto a gate casuali a causa del fenomeno di "assorbimento del routing", dove le proiezioni Q/K/V si adattano al mascheramento imposto, rendendo inefficaci i gate appresi e suggerendo che gli approcci post-hoc sono necessari per decoupling l'apprendimento delle rappresentazioni dalla sparsificazione.

Keston Aquino-Michaels2026-03-04💬 cs.CL

Neural Paging: Learning Context Management Policies for Turing-Complete Agents

Questo lavoro introduce "Neural Paging", un'architettura gerarchica che risolve il collo di bottiglia della finestra di contesto nei modelli linguistici di grandi dimensioni formulando un problema di paging contestuale e proponendo un controller differenziabile che riduce la complessità computazionale del ragionamento a lungo termine da quadratica a lineare rispetto alla lunghezza della sequenza.

Liang Chen, Qi Liu2026-03-04🤖 cs.AI

Safety Training Persists Through Helpfulness Optimization in LLM Agents

Lo studio dimostra che, negli agenti LLM multi-step, l'addestramento alla sicurezza persiste anche dopo un successivo addestramento all'essere utili, e che tutte le configurazioni di ottimizzazione convergono verso una frontiera di Pareto lineare senza riuscire a trovare una strategia che massimizzi simultaneamente entrambi gli obiettivi.

Benjamin Plaut2026-03-04💬 cs.CL

Generalized Discrete Diffusion with Self-Correction

Questo lavoro propone SCDD, un modello di diffusione discreta che riformula l'autocorrezione pre-addestrata utilizzando transizioni di stato esplicite e un processo temporale discreto, eliminando le complessità dei metodi precedenti e migliorando l'efficienza del decoding parallelo senza compromettere la qualità della generazione.

Linxuan Wang, Ziyi Wang, Yikun Bai + 3 more2026-03-04🤖 cs.AI

← Precedente Successivo →