SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Il paper propone SmartThinker, un metodo di ragionamento efficiente basato su GRPO che utilizza una calibrazione progressiva della lunghezza della catena di pensiero per ridurre dinamicamente la ridondanza dei modelli di ragionamento di grandi dimensioni, ottenendo una significativa compressione della lunghezza delle risposte senza compromettere, e anzi migliorando, l'accuratezza su compiti complessi.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Il paper presenta CDRRM, un nuovo framework che utilizza un paradigma di contrasto e sintesi per generare rubriche valutative di alta qualità, migliorando l'interpretabilità, riducendo i pregiudizi e raggiungendo prestazioni all'avanguardia nella modellazione delle ricompense per i LLM con un'efficienza dei dati senza precedenti.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Il paper presenta SFed-LoRA, un nuovo framework per l'addestramento federato di modelli linguistici che introduce un fattore di scala ottimizzato per mitigare l'instabilità e il collasso dei gradienti causati dall'aggregazione di aggiornamenti LoRA su più client, permettendo così un adattamento a rango elevato stabile ed efficiente senza alterare l'architettura del modello.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Questo studio propone un framework di adattamento di dominio basato sull'apprendimento profondo che, attraverso l'allineamento avversariale degli spazi latenti, consente un trasferimento efficace della conoscenza tra dataset eterogenei di RNA-seq, migliorando significativamente la precisione della classificazione dei tumori anche in scenari con dati limitati.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Il paper introduce il framework DC-W2S, che combina metriche di consenso interno e spaziale per selezionare segnali di supervisione affidabili da dati rumorosi, permettendo così l'addestramento efficiente di modelli di ricompensa per processi (PRM) nel ragionamento biologico senza la necessità di annotazioni esperte esaustive.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

Il paper propone ROMI, un nuovo metodo di apprendimento offline basato su modelli che supera i limiti di RAMBO evitando l'iper-conservativismo e l'instabilità dei gradienti attraverso un apprendimento robusto consapevole del valore e un'ottimizzazione adattiva implicitamente differenziabile, ottenendo prestazioni superiori su diversi dataset.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Il paper presenta SaiVLA-0, un'architettura Vision-Language-Action ispirata al cervello umano che separa le funzioni in tre moduli (Cerebro, Ponte e Cervelletto) per ottimizzare l'efficienza computazionale, la modularità e le prestazioni nel controllo robotico, dimostrando miglioramenti significativi nei tempi di addestramento e nei tassi di successo.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

Il paper introduce TRIAGE, un framework che scompone l'incertezza in componenti aleatorie ed epistemiche per attivare risposte correttive specifiche nel controllo robotico e nella percezione adattiva, migliorando significativamente il successo dei compiti e l'efficienza computazionale rispetto ai metodi tradizionali che trattano l'incertezza in modo uniforme.

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG