cs.LG articoli | Gist.Science

MJ1: Multimodal Judgment via Grounded Verification

Il paper presenta MJ1, un giudice multimodale addestrato con apprendimento per rinforzo che, grazie a una catena di verifica fondata sull'evidenza visiva e a una ricompensa per la coerenza controfattuale, raggiunge prestazioni superiori a modelli molto più grandi sul benchmark MMRB2 senza aumentare la scala del modello.

Bhavesh Kumar, Dylan Feng, Leonard Tang2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Il paper propone SmartThinker, un metodo di ragionamento efficiente basato su GRPO che utilizza una calibrazione progressiva della lunghezza della catena di pensiero per ridurre dinamicamente la ridondanza dei modelli di ragionamento di grandi dimensioni, ottenendo una significativa compressione della lunghezza delle risposte senza compromettere, e anzi migliorando, l'accuratezza su compiti complessi.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

Il paper propone un approccio di ricerca del massimo prodotto interno (MIPS) ammortizzato che utilizza reti neurali apprese, come SupportNet e KeyNet, per prevedere direttamente le soluzioni ottimali sfruttando le proprietà matematiche delle funzioni di supporto, riducendo così i costi computazionali per distribuzioni di query fisse.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

Il paper propone FedMomentum, un nuovo framework federato che preserva la momentum dell'addestramento LoRA mediante l'aggregazione strutturata e la decomposizione SVD, risolvendo il problema della perdita di momentum e migliorando significativamente velocità di convergenza e accuratezza rispetto agli stati dell'arte.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

Il paper introduce CAMEL, una legge di miscela consapevole della capacità che ottimizza in modo efficiente la selezione dei dati per i grandi modelli linguistici, riducendo i costi di calcolo del 50% e migliorando le prestazioni fino al 3% rispetto ai metodi esistenti.

Jingwei Li, Xinran Gu, Jingzhao Zhang2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

Il paper propone GCGNet, una rete generativa basata su grafi che migliora la previsione delle serie temporali con variabili esogene modellando congiuntamente le correlazioni temporali e tra canali in modo robusto al rumore, superando i limiti delle strategie a due passaggi esistenti.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Il paper presenta CDRRM, un nuovo framework che utilizza un paradigma di contrasto e sintesi per generare rubriche valutative di alta qualità, migliorando l'interpretabilità, riducendo i pregiudizi e raggiungendo prestazioni all'avanguardia nella modellazione delle ricompense per i LLM con un'efficienza dei dati senza precedenti.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Il paper presenta SFed-LoRA, un nuovo framework per l'addestramento federato di modelli linguistici che introduce un fattore di scala ottimizzato per mitigare l'instabilità e il collasso dei gradienti causati dall'aggregazione di aggiornamenti LoRA su più client, permettendo così un adattamento a rango elevato stabile ed efficiente senza alterare l'architettura del modello.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Questo studio propone un framework di adattamento di dominio basato sull'apprendimento profondo che, attraverso l'allineamento avversariale degli spazi latenti, consente un trasferimento efficace della conoscenza tra dataset eterogenei di RNA-seq, migliorando significativamente la precisione della classificazione dei tumori anche in scenari con dati limitati.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

Il paper propone Deterministic Differentiable Pruning (DDP), un metodo di ottimizzazione deterministica che elimina la discrepanza tra addestramento e test tipica delle tecniche stocastiche per il pruning strutturato dei LLM, ottenendo una maggiore efficienza e prestazioni superiori su modelli come Qwen3.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

Hybrid Quantum Neural Network for Multivariate Clinical Time Series Forecasting

Questo lavoro propone un'architettura ibrida quantistico-classica che integra un circuito quantistico variazionale in una rete neurale ricorrente per migliorare l'accuratezza e la robustezza nella previsione multi-orizzonte di segnali fisiologici multivariati in contesti clinici.

Irene Iele, Floriano Caprio, Paolo Soda, Matteo Tortora2026-03-10🤖 cs.LG

Tiny Autoregressive Recursive Models

Questo studio valuta l'efficacia dei Tiny Autoregressive Recursive Models (TRM) confrontandoli con trasformatori standard in compiti algoritmici a livello di caratteri, rivelando che, sebbene alcuni meccanismi di raffinamento a due fasi mostrino prestazioni promettenti, l'architettura completa del TRM autoregressivo non offre guadagni affidabili rispetto alle controparti tradizionali.

Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar2026-03-10🤖 cs.LG

EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs

Il paper presenta EAGLE-Pangu, un sistema riproducibile che implementa il decoding speculativo ad albero su NPU Ascend per il modello Pangu, risolvendo problemi di compatibilità hardware e migliorando il throughput di decodifica fino a 2,46 volte rispetto all'approccio teacher-only.

Chang Han, Yijie Hu, Jingling Liu2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Il paper introduce il framework DC-W2S, che combina metriche di consenso interno e spaziale per selezionare segnali di supervisione affidabili da dati rumorosi, permettendo così l'addestramento efficiente di modelli di ricompensa per processi (PRM) nel ragionamento biologico senza la necessità di annotazioni esperte esaustive.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

Questo studio rivela una minaccia di sicurezza insidiosa in cui un modello linguistico viene sintonizzato per nascondere risposte dannose all'interno di interazioni apparentemente innocue tramite steganografia, eludendo così i rilevamenti di sicurezza sia nelle API proprietarie che nei modelli open-source.

Guangnian Wan, Xinyin Ma, Gongfan Fang, Xinchao Wang2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

Il paper presenta Tau-BNO, un surrogato basato su operatori neurali che accelera drasticamente la simulazione del modello di trasporto tau (NTM) mantenendo alta accuratezza, superando i limiti computazionali dei modelli esistenti e consentendo nuove scoperte meccanicistiche sulla progressione delle tauopatie.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

Il paper propone ROMI, un nuovo metodo di apprendimento offline basato su modelli che supera i limiti di RAMBO evitando l'iper-conservativismo e l'instabilità dei gradienti attraverso un apprendimento robusto consapevole del valore e un'ottimizzazione adattiva implicitamente differenziabile, ottenendo prestazioni superiori su diversi dataset.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Il paper presenta SaiVLA-0, un'architettura Vision-Language-Action ispirata al cervello umano che separa le funzioni in tre moduli (Cerebro, Ponte e Cervelletto) per ottimizzare l'efficienza computazionale, la modularità e le prestazioni nel controllo robotico, dimostrando miglioramenti significativi nei tempi di addestramento e nei tassi di successo.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Il paper presenta FoleyFlow, un nuovo metodo che allinea encoder audio-visivi tramite modellazione mascherata e utilizza un flusso condizionale dinamico per generare audio sincronizzato semanticamente e ritmicamente con i video di input, superando le prestazioni dei metodi precedenti.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

Il paper introduce TRIAGE, un framework che scompone l'incertezza in componenti aleatorie ed epistemiche per attivare risposte correttive specifiche nel controllo robotico e nella percezione adattiva, migliorando significativamente il successo dei compiti e l'efficienza computazionale rispetto ai metodi tradizionali che trattano l'incertezza in modo uniforme.

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG

← Precedente Successivo →