LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Il paper presenta LaDiR, un nuovo framework di ragionamento che potenzia i modelli linguistici di grandi dimensioni integrando la generazione autoregressiva con la capacità iterativa di raffinamento dei modelli di diffusione latente, permettendo così una pianificazione e revisione olistica dei processi di ragionamento che migliora accuratezza, diversità e interpretabilità.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Characterizing the Multiclass Learnability of Forgiving 0-1 Loss Functions

Questo lavoro caratterizza l'apprendibilità delle funzioni di perdita 0-1 "perdonanti" nel contesto multiclasse introducendo una nuova dimensione combinatoria, la Generalized Natarajan Dimension, che dimostra essere finita se e solo se la classe di ipotesi è apprendibile, generalizzando così risultati noti su feedback a valori insiemistici e apprendimento con liste.

Jacob Trauger, Tyson Trauger, Ambuj Tewari2026-03-04📊 stat

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Questo lavoro presenta Energy Landscape Steering (ELS), un framework senza riaddestramento che utilizza un modello energetico esterno per guidare dinamicamente le attivazioni interne dei modelli linguistici durante l'inferenza, riducendo significativamente i rifiuti eccessivi di richieste innocue mantenendo al contempo elevate prestazioni di sicurezza.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Quantum Kernel Methods: Convergence Theory, Separation Bounds and Applications to Marketing Analytics

Questo lavoro valuta la fattibilità dei metodi a kernel quantistici per un compito di classificazione dei consumatori nell'era NISQ, presentando una pipeline ibrida Q-SVM che, pur non essendo un benchmark definitivo, dimostra prestazioni promettenti e una maggiore sensibilità rispetto alle controparti classiche, fornendo un punto di partenza concreto per l'integrazione hardware.

Laura Sáez-Ortuño, Santiago Forgas-Coll, Massimiliano Ferrara2026-03-04⚛️ quant-ph

Policy Transfer for Continuous-Time Reinforcement Learning: A (Rough) Differential Equation Approach

Questo lavoro fornisce la prima dimostrazione teorica del trasferimento delle politiche nell'apprendimento per rinforzo a tempo continuo, sfruttando la teoria dei cammini irregolari e la struttura gaussiana per garantire che una politica ottimale appresa possa inizializzare la ricerca di una politica quasi ottimale per problemi correlati, mantenendo o migliorando i tassi di convergenza.

Xin Guo, Zijiu Lyu2026-03-04🤖 cs.LG

Boosted Trees on a Diet: Compact Models for Resource-Constrained Devices

Questo lavoro presenta un metodo di compressione per gli alberi decisionali potenziati che, incentivando il riutilizzo di caratteristiche e soglie durante l'addestramento e ottimizzando il layout di memoria, permette di ottenere modelli compatti con un footprint ridotto di 4-16 volte rispetto a LightGBM, rendendo possibile l'esecuzione autonoma di applicazioni IoT su dispositivi con risorse limitate.

Nina Herrmann, Jan Stenkamp, Benjamin Karic + 2 more2026-03-04🤖 cs.LG

Adversarial Spatio-Temporal Attention Networks for Epileptic Seizure Forecasting

Il paper presenta STAN, una rete neurale avversaria spaziotemporale che, attraverso meccanismi di attenzione unificati e addestramento robusto, raggiunge prestazioni all'avanguardia nella previsione di crisi epilettiche con alta sensibilità e bassi tassi di falsi allarmi, garantendo al contempo efficienza computazionale per l'implementazione in tempo reale.

Zan Li, Kyongmin Yeo, Wesley Gifford + 3 more2026-03-04🤖 cs.AI

Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

Questo studio introduce il primo approccio sistematico all'oblio continuo nei modelli di diffusione testo-immagine, dimostrando che l'aggiunta di tecniche di regolarizzazione, in particolare un metodo di proiezione del gradiente per preservare i concetti semanticamente affini, è fondamentale per prevenire il collasso dell'utilità del modello quando le richieste di rimozione arrivano in sequenza.

Justin Lee, Zheda Mai, Jinsu Yoo + 3 more2026-03-04🤖 cs.LG

SURFACEBENCH: A Geometry-Aware Benchmark for Symbolic Surface Discovery

Il paper introduce SURFACEBENCH, il primo benchmark consapevole della geometria per la scoperta simbolica di superfici tridimensionali, progettato per superare i limiti delle valutazioni attuali misurando l'equivalenza strutturale e geometrica attraverso metriche nello spazio degli oggetti e rivelando le attuali lacune nelle prestazioni dei modelli LLM e di altri framework di regressione simbolica.

Sanchit Kabra, Shobhnik Kriplani, Parshin Shojaee + 1 more2026-03-04🤖 cs.LG

FAST: Topology-Aware Frequency-Domain Distribution Matching for Coreset Selection

Il paper presenta FAST, un nuovo framework di selezione del coreset privo di reti neurali che, sfruttando la teoria dei grafi spettrali e una distanza basata sulla funzione caratteristica in frequenza con fasi disaccoppiate e campionamento progressivo, risolve i limiti delle metodologie esistenti garantendo una corrispondenza distribuzionale superiore, maggiore efficienza energetica e prestazioni accademiche significativamente migliori.

Jin Cui, Boran Zhao, Jiajun Xu + 3 more2026-03-04📊 stat

QiMeng-CRUX: Narrowing the Gap Between Natural Language and Verilog via Core Refined Understanding eXpression for Circuit Design

Il paper presenta QiMeng-CRUX, un approccio che introduce uno spazio intermedio strutturato chiamato CRUX e un framework di addestramento a due stadi per colmare il divario tra descrizioni in linguaggio naturale ambigue e la generazione precisa di codice Verilog, ottenendo prestazioni all'avanguardia nei benchmark di progettazione circuitale.

Lei Huang, Rui Zhang, Jiaming Guo + 9 more2026-03-04🤖 cs.LG