Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

Cette étude valide qu'un petit modèle de langage hébergé localement peut classer avec une grande fiabilité les types de substances spécifiques selon les catégories du DSM-5 à partir de rapports d'enquête sur la maltraitance infantile, étendant ainsi les travaux antérieurs sur la détection binaire.

Brian E. Perron, Dragan Stoll, Bryan G. Victor, Zia Qia, Andreas Jud, Joseph P. RyanTue, 10 Ma💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Ce papier présente MicroCoder-GRPO, une approche améliorée d'optimisation de politique relative par groupes intégrant des innovations techniques pour surmonter les goulots d'étranglement de l'entraînement des modèles de codage modernes, accompagnée de nouveaux ensembles de données et d'un évaluateur qui permettent d'obtenir des performances compétitives, voire supérieures, à celles des modèles plus grands.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Ce papier présente MicroCoder, un ensemble de données de programmation compétitive soigneusement sélectionné et pondéré par difficulté via un cadre de traitement en quatre étapes, qui démontre que l'entraînement de modèles de code sur des problèmes récents et exigeants améliore significativement leurs performances sur des tâches complexes par rapport aux jeux de données existants.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG