Local Constrained Bayesian Optimization

Il paper propone la Local Constrained Bayesian Optimization (LCBO), un nuovo framework che supera le limitazioni dei metodi a regione di fiducia nei problemi vincolati ad alta dimensionalità alternando discesa locale ed esplorazione guidata dall'incertezza, garantendo teoricamente un tasso di convergenza polinomiale rispetto alla dimensionalità e dimostrando prestazioni superiori rispetto agli stati dell'arte su benchmark fino a 100 dimensioni.

Jing Jingzhe, Fan Zheyi, Szu Hui Ng, Qingpei Hu2026-03-10🤖 cs.LG

Scaling Machine Learning Interatomic Potentials with Mixtures of Experts

Il paper presenta architetture di potenziali interatomici basati su apprendimento automatico che utilizzano miscele di esperti (MoE) e miscele di esperti lineari (MoLE), dimostrando che l'attivazione sparsa con esperti condivisi e il routing elemento per elemento migliorano significativamente l'accuratezza e la stabilità, ottenendo risultati all'avanguardia su diversi benchmark e rivelando una specializzazione degli esperti allineata alle tendenze della tavola periodica.

Yuzhi Liu, Duo Zhang, Anyang Peng, Weinan E, Linfeng Zhang, Han Wang2026-03-10🤖 cs.LG

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Il paper introduce \$OneMillion-Bench, un nuovo benchmark composto da 400 task curati da esperti in ambiti professionali critici come diritto e finanza, progettato per valutare la capacità dei agenti linguistici di gestire scenari complessi del mondo reale attraverso un protocollo di valutazione basato su rubriche che misura accuratezza, coerenza logica e conformità professionale.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Il paper propone SmartThinker, un metodo di ragionamento efficiente basato su GRPO che utilizza una calibrazione progressiva della lunghezza della catena di pensiero per ridurre dinamicamente la ridondanza dei modelli di ragionamento di grandi dimensioni, ottenendo una significativa compressione della lunghezza delle risposte senza compromettere, e anzi migliorando, l'accuratezza su compiti complessi.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Il paper presenta CDRRM, un nuovo framework che utilizza un paradigma di contrasto e sintesi per generare rubriche valutative di alta qualità, migliorando l'interpretabilità, riducendo i pregiudizi e raggiungendo prestazioni all'avanguardia nella modellazione delle ricompense per i LLM con un'efficienza dei dati senza precedenti.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Il paper presenta SFed-LoRA, un nuovo framework per l'addestramento federato di modelli linguistici che introduce un fattore di scala ottimizzato per mitigare l'instabilità e il collasso dei gradienti causati dall'aggregazione di aggiornamenti LoRA su più client, permettendo così un adattamento a rango elevato stabile ed efficiente senza alterare l'architettura del modello.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Questo studio propone un framework di adattamento di dominio basato sull'apprendimento profondo che, attraverso l'allineamento avversariale degli spazi latenti, consente un trasferimento efficace della conoscenza tra dataset eterogenei di RNA-seq, migliorando significativamente la precisione della classificazione dei tumori anche in scenari con dati limitati.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Il paper introduce il framework DC-W2S, che combina metriche di consenso interno e spaziale per selezionare segnali di supervisione affidabili da dati rumorosi, permettendo così l'addestramento efficiente di modelli di ricompensa per processi (PRM) nel ragionamento biologico senza la necessità di annotazioni esperte esaustive.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

Il paper propone ROMI, un nuovo metodo di apprendimento offline basato su modelli che supera i limiti di RAMBO evitando l'iper-conservativismo e l'instabilità dei gradienti attraverso un apprendimento robusto consapevole del valore e un'ottimizzazione adattiva implicitamente differenziabile, ottenendo prestazioni superiori su diversi dataset.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG