Operator Learning Using Weak Supervision from Walk-on-Spheres

Il paper propone il "Walk-on-Spheres Neural Operator" (WoS-NO), un metodo che utilizza supervisione debole tramite il metodo Monte Carlo Walk-on-Spheres per addestrare operatori neurali su equazioni differenziali alle derivate parziali senza dati pre-calcolati, evitando il calcolo di derivate di ordine superiore e ottenendo significativi miglioramenti in precisione, velocità e consumo di memoria rispetto alle tecniche fisicamente informate standard.

Hrishikesh Viswanath, Hong Chul Nam, Xi Deng + 3 more2026-03-04🤖 cs.LG

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

Questo lavoro propone l'Ottimizzazione delle Politiche Accoppiate (Coupled Policy Optimization), un metodo che regola la diversità tra le politiche in un ensemble tramite vincoli KL per migliorare l'esplorazione e la stabilità nell'apprendimento per rinforzo su larga scala, superando le prestazioni di approcci esistenti in termini di efficienza dei campioni e risultati finali.

Naoki Shitanda, Motoki Omura, Tatsuya Harada + 1 more2026-03-04🤖 cs.AI

Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport

Questo lavoro introduce l'Inferenza della Traiettoria degli Iperparametri (HTI), un approccio basato sul trasporto ottimo lagrangiano condizionale che apprende la dinamica delle distribuzioni di output di una rete neurale al variare degli iperparametri per costruire un modello surrogato capace di prevedere comportamenti a impostazioni non osservate senza costosi riaddestramenti.

Harry Amad, Mihaela van der Schaar2026-03-04🤖 cs.AI

RxnNano:Training Compact LLMs for Chemical Reaction and Retrosynthesis Prediction via Hierarchical Curriculum Learning

Il paper presenta RxnNano, un modello linguistico compatto da 0,5 miliardi di parametri che, grazie a un apprendimento curricolare gerarchico e a nuovi obiettivi di coerenza chimica, supera modelli di dimensioni molto maggiori nella previsione delle reazioni e nella retrosintesi, dimostrando che la comprensione chimica profonda è più cruciale della semplice scalabilità dei parametri.

Ran Li, Shimin Di, Haowei LI + 4 more2026-03-04🤖 cs.AI

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

Il paper introduce TimeGS, un nuovo framework per la previsione delle serie temporali che supera i limiti delle rappresentazioni 2D statiche trasformando il problema in un rendering generativo basato su 2D Gaussian Splatting, il quale utilizza kernel gaussiani anisotropi e blocchi di rasterizzazione cronologicamente continui per modellare adattivamente le fluttuazioni e le tendenze temporali ottenendo prestazioni allo stato dell'arte.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation

Questo studio rivela che il benchmark MedCalc-Bench misura prevalentemente la memorizzazione di formule e l'accuratezza aritmetica piuttosto che il ragionamento clinico, dimostrando che fornire ai modelli le specifiche dei calcolatori durante l'inferenza ("open-book") supera le prestazioni dei sistemi RL e porta a un audit che corregge oltre 20 errori nel dataset originale.

Artus Krohn-Grimberghe2026-03-04🤖 cs.AI

Characterizing and Predicting Wildfire Evacuation Behavior: A Dual-Stage ML Approach

Questo studio utilizza un approccio di machine learning a due stadi su un ampio campione di residenti statunitensi per identificare sottogruppi comportamentali omogenei e predire l'efficacia delle strategie di evacuazione dagli incendi boschivi, evidenziando come la modalità di trasporto sia prevedibile dalle caratteristiche familiari mentre la tempistica dipenda da condizioni dinamiche.

Sazzad Bin Bashar Polock, Anandi Dutta, Subasish Das2026-03-04🤖 cs.AI

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

Il documento dimostra che l'addestramento end-to-end dell'attenzione sparsa fallisce nel migliorare le prestazioni rispetto a gate casuali a causa del fenomeno di "assorbimento del routing", dove le proiezioni Q/K/V si adattano al mascheramento imposto, rendendo inefficaci i gate appresi e suggerendo che gli approcci post-hoc sono necessari per decoupling l'apprendimento delle rappresentazioni dalla sparsificazione.

Keston Aquino-Michaels2026-03-04💬 cs.CL

Neural Paging: Learning Context Management Policies for Turing-Complete Agents

Questo lavoro introduce "Neural Paging", un'architettura gerarchica che risolve il collo di bottiglia della finestra di contesto nei modelli linguistici di grandi dimensioni formulando un problema di paging contestuale e proponendo un controller differenziabile che riduce la complessità computazionale del ragionamento a lungo termine da quadratica a lineare rispetto alla lunghezza della sequenza.

Liang Chen, Qi Liu2026-03-04🤖 cs.AI