When Machine Learning Gets Personal: Evaluating Prediction and Explanation

Este artigo propõe um quadro unificado para avaliar como a personalização de modelos de aprendizado de máquina afeta simultaneamente a precisão preditiva e a explicabilidade, revelando que esses impactos podem divergir e estabelecendo limites teóricos para determinar quando efeitos de personalização são estatisticamente testáveis em conjuntos de dados reais.

Louisa Cornelis, Guillermo Bernárdez, Haewon Jeong, Nina MiolaneWed, 11 Ma🤖 cs.LG

On the Impact of the Utility in Semivalue-based Data Valuation

Este artigo introduz o conceito de "assinatura espacial" de um conjunto de dados para mapear pontos em um espaço de baixa dimensão onde utilidades se tornam funcionais lineares, permitindo uma metodologia prática com métrica explícita para avaliar e garantir a robustez da valoração de dados baseada em semivalores frente a mudanças na escolha da utilidade.

Mélissa Tamine, Benjamin Heymann, Maxime Vono, Patrick LoiseauWed, 11 Ma🤖 cs.AI

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

Este artigo apresenta um framework integrado de Real2Sim2Real que utiliza inferência sem verossimilhança para estimar distribuições de parâmetros físicos de objetos lineares deformáveis (DLOs) a partir de dados visuais e proprioceptivos, permitindo o treinamento de políticas visuomotoras em simulação que são transferidas com sucesso para o mundo real de forma zero-shot.

Georgios Kamaras, Subramanian RamamoorthyWed, 11 Ma🤖 cs.LG

Improving clustering quality evaluation in noisy Gaussian mixtures

O artigo apresenta o método de Reescalamento de Importância de Recursos (FIR), uma abordagem teoricamente fundamentada que melhora a avaliação da qualidade de agrupamento em misturas gaussianas ruidosas ao ajustar as contribuições dos recursos, reduzindo o impacto de características irrelevantes e aumentando a robustez dos índices de validação em cenários sem rótulos externos.

Renato Cordeiro de Amorim, Vladimir MakarenkovWed, 11 Ma🤖 cs.LG

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Este artigo propõe uma crítica consequencialista à avaliação de classificação binária, defendendo a adoção de regras de pontuação adequadas como o escore Brier em vez de métricas de limiar fixo, e oferece um novo framework teórico, uma variante do escore Brier e a ferramenta prática `briertools` para alinhar a avaliação de modelos de aprendizado de máquina com a utilidade decisória real.

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. WilsonWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

O artigo apresenta o Stepwise Guided Policy Optimization (SGPO), uma nova abordagem que mitiga a limitação do GRPO em grupos de amostras inteiramente incorretas ao introduzir diversidade de respostas via um modelo julgador passo a passo, acelerando assim o aprendizado de modelos de linguagem grandes em tarefas de raciocínio sem exigir que o julgador gere soluções corretas.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

The Gaussian-Multinoulli Restricted Boltzmann Machine: A Potts Model Extension of the GRBM

O artigo apresenta a Máquina de Boltzmann Restrita Gaussiana-Multinomial (GM-RBM), uma extensão do modelo Potts que substitui unidades ocultas binárias por categóricas de q-estados para melhorar a representação de conceitos multivariados, demonstrando através de benchmarks que essa abordagem discreta oferece desempenho competitivo e superior em tarefas de memória estruturada e raciocínio analógico em comparação com modelos contínuos de capacidade equivalente.

Nikhil Kapasi, Mohamed Elfouly, William Whitehead, Luke TheogarajanWed, 11 Ma🤖 cs.LG

Discovering Symbolic Differential Equations with Symmetry Invariants

Este artigo propõe um método para descobrir equações diferenciais simbólicas a partir de dados, utilizando invariantes de simetria como entidades atômicas para garantir que as equações recuperadas respeitem as leis físicas conhecidas, melhorando assim a precisão e a eficiência de técnicas existentes como regressão esparsa e programação genética.

Jianke Yang, Manu Bhat, Bryan Hu, Yadi Cao, Nima Dehmamy, Robin Walters, Rose YuWed, 11 Ma🤖 cs.LG

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

O artigo apresenta o UltraEdit, um método de edição de modelos de linguagem que dispensa treinamento, dados de sujeitos e memória, permitindo atualizações de conhecimento em tempo real com alta eficiência e escalabilidade em GPUs de consumo, além de introduzir o UltraEditBench, o maior conjunto de dados do campo com mais de 2 milhões de pares de edição.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

Este artigo apresenta uma metodologia sistemática para avaliar modelos de linguagem de grande escala (LLMs) em dispositivos de borda, demonstrando que modelos maiores com quantização pesada superam os menores de alta precisão a partir de um limiar de ~3,5 bits por peso, ao mesmo tempo que oferece diretrizes para otimizar o desempenho sob restrições de recursos.

Qingyu Song, Rui Liu, Wei Lin, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Yining Jiang, Mochun Long, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan, Qiao Xiang, Hong XuWed, 11 Ma🤖 cs.LG

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

O artigo apresenta o Saturn, um framework de Aprendizado por Reforço baseado em Problemas de Satisfatibilidade Booleana (SAT) que supera as limitações de escalabilidade, verificabilidade e controle de dificuldade das tarefas existentes, permitindo treinar LLMs com um currículo progressivo que resulta em melhorias significativas tanto na resolução de problemas SAT quanto em tarefas gerais de matemática e programação.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong DongWed, 11 Ma🤖 cs.AI

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

O artigo apresenta o FrontierCO, um benchmark abrangente que avalia solvers de otimização combinatória baseados em aprendizado de máquina em problemas do mundo real e em escala extrema, revelando uma lacuna de desempenho persistente em relação aos métodos clássicos em instâncias grandes e estruturalmente complexas, embora também identifique casos onde os métodos de ML superam os solvers tradicionais.

Shengyu Feng, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming YangWed, 11 Ma🤖 cs.LG

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

Este artigo propõe o SemiCP, um novo paradigma de predição conformal semi-supervisionada que utiliza uma pontuação de não-conformidade baseada em correspondência de vizinhos mais próximos (NNM) para aproveitar dados não rotulados na calibração, reduzindo significativamente a instabilidade e o erro de cobertura quando há poucos dados rotulados disponíveis.

Xuanning Zhou, Zihao Shi, Hao Zeng, Xiaobo Xia, Bingyi Jing, Hongxin WeiWed, 11 Ma🤖 cs.LG

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Este trabalho propõe o CORA, um método de atribuição de crédito em aprendizado por reforço multiagente cooperativo que utiliza a alocação do núcleo da teoria dos jogos cooperativos para estimar vantagens baseadas em coalizões e promover comportamentos coordenados ótimos, superando as limitações das abordagens tradicionais de compartilhamento global de vantagem.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang LiWed, 11 Ma🤖 cs.AI