cs.LG artigos | Gist.Science

MUSS: Multilevel Subset Selection for Relevance and Diversity

O artigo apresenta o MUSS, um novo método multilevel para seleção de subconjuntos relevantes e diversos que supera abordagens existentes como MMR e DGDS em precisão e velocidade (até 80 vezes mais rápido), oferecendo além disso uma análise teórica com limites de aproximação aprimorados para aplicações em sistemas de recomendação e RAG.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

O artigo apresenta o EDU-PRM, um novo modelo de recompensa de processo baseado em entropia que elimina a necessidade de anotações manuais ao segmentar automaticamente os passos de raciocínio em pontos de alta incerteza, alcançando desempenho superior com apenas 1,5% dos dados de treinamento e reduzindo o uso de tokens em 32%.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Este estudo aprimora a previsão da Síndrome Metabólica através da avaliação de modelos de aprendizado de máquina combinados com técnicas avançadas de balanceamento de dados e uma nova estrutura híbrida chamada MetaBoost, além de utilizar análise contrafactual para identificar que a glicose no sangue e os triglicerídeos são os fatores mais críticos para a redução do risco.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Este estudo demonstra que, embora a estimativa direta de dificuldade de itens educacionais por modelos de linguagem grandes (LLMs) seja promissora, a abordagem que combina a extração de características cognitivas e linguísticas via LLM com algoritmos de aprendizado de máquina baseados em árvores (como florestas aleatórias e gradient boosting) alcança maior precisão preditiva para itens de matemática e leitura do ensino fundamental, oferecendo um fluxo de trabalho eficiente para reduzir a dependência de testes de campo extensivos.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Este trabalho apresenta o primeiro agente de corrida autônomo baseado em visão, que utiliza apenas dados de câmeras e sensores a bordo para superar os pilotos nativos do Gran Turismo 7 em nível de campeão, eliminando a necessidade de localização precisa externa durante a inferência.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Os autores desenvolvem um framework de resposta linear baseado em mecânica estatística bayesiana para interpretar modelos de linguagem pequenos, permitindo identificar módulos funcionais como cabeças de indução através da análise de susceptibilidades que quantificam a resposta do modelo a perturbações na distribuição de dados.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

O artigo propõe o HetGL2R, um framework de aprendizado de aprendizado de ranking baseado em grafos heterogêneos que integra fluxos origem-destino e informações de rotas para capturar dependências espaciais de longo alcance e melhorar a classificação de importância de segmentos rodoviários, superando os métodos existentes em simulações de redes SUMO.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Este artigo apresenta uma revisão abrangente que consolida benchmarks, propõe uma taxonomia unificada, analisa frameworks de agentes autônomos e protocolos de colaboração, e discute aplicações reais e direções futuras para a evolução dos modelos de linguagem e agentes de IA.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

O artigo apresenta o StablePCA, uma nova estrutura de aprendizado robusto que utiliza relaxação convexa e o algoritmo Mirror-Prox para extrair representações latentes estáveis de dados multi-fonte, superando desafios de otimização não convexa e fornecendo garantias de convergência e certificação de qualidade.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Este artigo propõe um framework de otimização de políticas offline individualizado para processos de decisão de Markov heterogêneos, introduzindo o algoritmo P4L que utiliza variáveis latentes individuais para garantir uma taxa rápida de arrependimento médio e superar métodos tradicionais ao lidar com dados heterogêneos.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Este estudo utiliza técnicas de interpretabilidade mecânica para demonstrar que a destilação de conhecimento, embora preserve comportamentos funcionais amplos, provoca uma reestruturação interna significativa nos modelos, onde os estudantes reorganizam e comprimem os componentes dos professores, resultando em uma dependência mais forte de menos unidades individuais.

Reilly Haskins, Benjamin Adams2026-03-10🤖 cs.LG

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

O artigo "Ready2Unlearn" apresenta uma abordagem de otimização durante o treinamento que, baseada em princípios de meta-aprendizado, prepara proativamente modelos de aprendizado de máquina para futuros processos de esquecimento (unlearning), permitindo a remoção eficiente e principista de dados específicos sem a necessidade de reagir apenas após solicitações de exclusão.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

O artigo apresenta o EgoDex, o maior e mais diverso conjunto de dados de manipulação destreza humana até hoje, composto por 829 horas de vídeos egocêntricos com rastreamento 3D de mãos coletados via Apple Vision Pro, visando superar a escassez de dados para o aprendizado por imitação em robótica e visão computacional.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

O artigo apresenta o FreeKV, um framework de co-otimização entre algoritmo e sistema que, ao utilizar recuperação especulativa e layouts híbridos de memória, melhora drasticamente a eficiência da inferência de LLMs em contextos longos sem sacrificar a precisão.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

Online Decision-Focused Learning

Este artigo propõe os primeiros algoritmos online com garantias teóricas de arrependimento para o Aprendizado Focado em Decisão (DFL) em ambientes dinâmicos, superando desafios como a ausência de gradientes e a não convexidade através de regularização e técnicas de perturbação.

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

O artigo apresenta o Vid2World, uma abordagem geral que transforma modelos de difusão de vídeo pré-treinados em modelos de mundo interativos de alta fidelidade e controláveis, superando as limitações de métodos existentes através da causalização da arquitetura e de um mecanismo de orientação causal para ações.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

O artigo apresenta o MAS-ZERO, um framework inovador de auto-evolução que projeta, critica e refina dinamicamente sistemas multiagentes em tempo de inferência sem supervisão, superando abordagens manuais e automáticas existentes em tarefas de raciocínio, codificação e agentes autônomos.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

O artigo apresenta o HDLxGraph, um novo framework que integra características gráficas de Hardware Description Languages (HDLs), como Árvores de Sintaxe Abstrata e Grafos de Fluxo de Dados, a sistemas de Geração Aumentada por Recuperação (RAG) para superar limitações em tarefas de LLM, validado pelo novo benchmark HDLSearch e demonstrando melhorias significativas na precisão de busca, depuração e conclusão de código em comparação com métodos existentes.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

O artigo apresenta o WikiDBGraph, uma nova suíte de benchmark de grande escala construída a partir de 100.000 bancos de dados relacionais reais interconectados, projetada para avaliar e revelar as limitações dos métodos atuais de aprendizado colaborativo ao lidar com silos de dados desalinhados e fragmentados no mundo real.

Zhaomin Wu, Ziyang Wang, Bingsheng He2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Este artigo apresenta o AgarCL, uma plataforma de pesquisa baseada no jogo Agar.io para o aprendizado por reforço contínuo, que oferece um ambiente não episódico e dinâmico para avaliar algoritmos e métodos de aprendizado contínuo, revelando que os desafios do ambiente vão além do dilema estabilidade-plasticidade.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

← Anterior Próximo →