Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

Lo studio valida un modello linguistico di piccole dimensioni ospitato localmente, dimostrando che è in grado di classificare con elevata precisione e affidabilità i tipi di sostanze specifiche (allineati alle categorie DSM-5) presenti nei documenti amministrativi sull'abuso di minori, superando i limiti delle precedenti ricerche basate su rilevazioni binarie.

Brian E. Perron, Dragan Stoll, Bryan G. Victor, Zia Qia, Andreas Jud, Joseph P. RyanTue, 10 Ma💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Il paper presenta MicroCoder-GRPO, un approccio ottimizzato di Reinforcement Learning che risolve i colli di bottiglia nell'addestramento dei modelli di generazione del codice attraverso innovazioni tecniche e nuovi dataset, ottenendo significativi miglioramenti delle prestazioni e fornendo approfondimenti chiave per l'addestramento stabile ed efficace.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Il paper presenta MicroCoder, un dataset curato di problemi di programmazione competitiva recenti e difficili, ottenuto tramite un framework di elaborazione dati in quattro fasi con filtraggio automatico della difficoltà, che dimostra miglioramenti significativi nelle prestazioni dei modelli di generazione del codice su compiti complessi rispetto ai dataset esistenti.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG