Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

Die Studie validiert, dass ein lokal gehostetes kleines Sprachmodell (20 Milliarden Parameter) zuverlässig spezifische Substanzkategorien gemäß DSM-5 aus Texten der Kinderwohlfahrt extrahieren kann, wobei für fünf Hauptkategorien eine nahezu perfekte Übereinstimmung mit menschlichen Experten erreicht wurde.

Brian E. Perron, Dragan Stoll, Bryan G. Victor, Zia Qia, Andreas Jud, Joseph P. RyanTue, 10 Ma💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Die Arbeit stellt MicroCoder-GRPO vor, einen verbesserten Reinforcement-Learning-Ansatz mit drei Innovationen zur Überwindung von Trainingsengpässen bei Code-Modellen, der in Kombination mit einem neuen Datensatz und einem optimierten Evaluierungsframework signifikante Leistungssteigerungen auf LiveCodeBench v6 erzielt und dabei zeigt, dass sorgfältig trainierte Modelle mit größeren Modellen konkurrieren können.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Die Studie stellt das MicroCoder-Dataset vor, das durch einen systematischen vierstufigen Verarbeitungsprozess und eine KI-gestützte Schwierigkeitsfilterung aus aktuellen Wettbewerbsaufgaben besteht und nachweislich die Leistung von Code-Generierungsmodellen bei komplexen Aufgaben im Vergleich zu herkömmlichen Datensätzen signifikant verbessert.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG