Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

Este estudo valida que um modelo de linguagem pequeno e localmente hospedado consegue classificar com alta precisão tipos específicos de substâncias (alinhados ao DSM-5) em registros de bem-estar infantil, superando as limitações de detecção binária anteriores, exceto para categorias de baixa prevalência.

Brian E. Perron, Dragan Stoll, Bryan G. Victor, Zia Qia, Andreas Jud, Joseph P. RyanTue, 10 Ma💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

O artigo apresenta o MicroCoder-GRPO, uma abordagem aprimorada de Otimização de Política Relativa de Grupo que supera os gargalos de treinamento em modelos de geração de código por meio de três inovações técnicas, resultando em ganhos significativos de desempenho no LiveCodeBench v6 e no fornecimento de um novo conjunto de dados desafiador e de um avaliador mais robusto.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

O artigo apresenta o MicroCoder, um conjunto de dados curado de problemas de programação competitiva recentes e desafiadores, que, ao empregar um framework de processamento de dados com filtragem automática de dificuldade baseada em IA, demonstrou melhorar significativamente o desempenho de modelos de geração de código em tarefas complexas em comparação com conjuntos de dados existentes.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG