Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

この論文は、米国中西部の児童虐待調査記録から DSM-5 に基づく特定の薬物カテゴリを識別する際、200 億パラメータのローカルホスト型小規模言語モデルがアルコールやオピオイドなど主要な 5 種類について極めて高い精度と信頼性を示すことを実証したものである。

Brian E. Perron, Dragan Stoll, Bryan G. Victor, Zia Qia, Andreas Jud, Joseph P. RyanTue, 10 Ma💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

本論文は、現代のコード生成モデルが抱えるトレーニングのボトルネックを解決するため、条件付き切り捨てマスクや多様性に基づく温度選択などの3つの革新を導入した「MicroCoder-GRPO」手法と、より高品質なデータセットおよび評価フレームワークを提案し、LiveCodeBench v6 において基線モデルを大幅に上回る性能向上とトレーニングに関する34の洞察を明らかにしたものである。

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

本論文は、LLM ベースの予測・較正・選択フレームワークを用いた自動難易度フィルタリングを含む 4 段階のデータ処理パイプラインを提案し、これにより構築された高品質な競合プログラミングデータセット「MicroCoder」が、既存のデータセットと比較してコード生成モデルの学習効率と難問に対する性能を大幅に向上させることを実証しています。

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG