More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

O artigo apresenta o EDU-PRM, um novo modelo de recompensa de processo baseado em entropia que elimina a necessidade de anotações manuais ao segmentar automaticamente os passos de raciocínio em pontos de alta incerteza, alcançando desempenho superior com apenas 1,5% dos dados de treinamento e reduzindo o uso de tokens em 32%.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Este estudo aprimora a previsão da Síndrome Metabólica através da avaliação de modelos de aprendizado de máquina combinados com técnicas avançadas de balanceamento de dados e uma nova estrutura híbrida chamada MetaBoost, além de utilizar análise contrafactual para identificar que a glicose no sangue e os triglicerídeos são os fatores mais críticos para a redução do risco.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Este estudo demonstra que, embora a estimativa direta de dificuldade de itens educacionais por modelos de linguagem grandes (LLMs) seja promissora, a abordagem que combina a extração de características cognitivas e linguísticas via LLM com algoritmos de aprendizado de máquina baseados em árvores (como florestas aleatórias e gradient boosting) alcança maior precisão preditiva para itens de matemática e leitura do ensino fundamental, oferecendo um fluxo de trabalho eficiente para reduzir a dependência de testes de campo extensivos.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Este trabalho apresenta o primeiro agente de corrida autônomo baseado em visão, que utiliza apenas dados de câmeras e sensores a bordo para superar os pilotos nativos do Gran Turismo 7 em nível de campeão, eliminando a necessidade de localização precisa externa durante a inferência.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

O artigo propõe o HetGL2R, um framework de aprendizado de aprendizado de ranking baseado em grafos heterogêneos que integra fluxos origem-destino e informações de rotas para capturar dependências espaciais de longo alcance e melhorar a classificação de importância de segmentos rodoviários, superando os métodos existentes em simulações de redes SUMO.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Este estudo utiliza técnicas de interpretabilidade mecânica para demonstrar que a destilação de conhecimento, embora preserve comportamentos funcionais amplos, provoca uma reestruturação interna significativa nos modelos, onde os estudantes reorganizam e comprimem os componentes dos professores, resultando em uma dependência mais forte de menos unidades individuais.

Reilly Haskins, Benjamin Adams2026-03-10🤖 cs.LG

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

O artigo "Ready2Unlearn" apresenta uma abordagem de otimização durante o treinamento que, baseada em princípios de meta-aprendizado, prepara proativamente modelos de aprendizado de máquina para futuros processos de esquecimento (unlearning), permitindo a remoção eficiente e principista de dados específicos sem a necessidade de reagir apenas após solicitações de exclusão.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

O artigo apresenta o HDLxGraph, um novo framework que integra características gráficas de Hardware Description Languages (HDLs), como Árvores de Sintaxe Abstrata e Grafos de Fluxo de Dados, a sistemas de Geração Aumentada por Recuperação (RAG) para superar limitações em tarefas de LLM, validado pelo novo benchmark HDLSearch e demonstrando melhorias significativas na precisão de busca, depuração e conclusão de código em comparação com métodos existentes.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Este artigo apresenta o AgarCL, uma plataforma de pesquisa baseada no jogo Agar.io para o aprendizado por reforço contínuo, que oferece um ambiente não episódico e dinâmico para avaliar algoritmos e métodos de aprendizado contínuo, revelando que os desafios do ambiente vão além do dilema estabilidade-plasticidade.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG