Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

该研究验证了一款本地部署的小规模语言模型在儿童福利记录中识别七类 DSM-5 物质滥用情况的有效性,结果显示除低流行度的致幻剂和吸入剂外,该模型对酒精、大麻等五类主要物质的分类与专家人工审核达到了近乎完美的协议。

Brian E. Perron, Dragan Stoll, Bryan G. Victor, Zia Qia, Andreas Jud, Joseph P. RyanTue, 10 Ma💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

该论文针对现代代码生成模型的训练瓶颈,提出了包含条件截断掩码等三项创新的 MicroCoder-GRPO 算法,并配套发布了更具挑战性的 MicroCoder-Dataset 和更高效的 MicroCoder-Evaluator,通过大量实验验证了其在 LiveCodeBench v6 上显著的性能提升及 34 项关键训练洞察。

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

该论文提出了包含自动难度过滤的四阶段数据处理框架,构建了强调新颖性与挑战性的 MicroCoder 数据集,并通过强化学习验证了其在提升代码生成模型解决高难度问题能力方面的显著优势。

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG