Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records
この論文は、米国中西部の児童虐待調査記録から DSM-5 に基づく特定の薬物カテゴリを識別する際、200 億パラメータのローカルホスト型小規模言語モデルがアルコールやオピオイドなど主要な 5 種類について極めて高い精度と信頼性を示すことを実証したものである。
3 件の論文
この論文は、米国中西部の児童虐待調査記録から DSM-5 に基づく特定の薬物カテゴリを識別する際、200 億パラメータのローカルホスト型小規模言語モデルがアルコールやオピオイドなど主要な 5 種類について極めて高い精度と信頼性を示すことを実証したものである。
本論文は、現代のコード生成モデルが抱えるトレーニングのボトルネックを解決するため、条件付き切り捨てマスクや多様性に基づく温度選択などの3つの革新を導入した「MicroCoder-GRPO」手法と、より高品質なデータセットおよび評価フレームワークを提案し、LiveCodeBench v6 において基線モデルを大幅に上回る性能向上とトレーニングに関する34の洞察を明らかにしたものである。
本論文は、LLM ベースの予測・較正・選択フレームワークを用いた自動難易度フィルタリングを含む 4 段階のデータ処理パイプラインを提案し、これにより構築された高品質な競合プログラミングデータセット「MicroCoder」が、既存のデータセットと比較してコード生成モデルの学習効率と難問に対する性能を大幅に向上させることを実証しています。