A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Este artigo propõe uma crítica consequencialista à avaliação de classificação binária, defendendo a adoção de regras de pontuação adequadas como o escore Brier em vez de métricas de limiar fixo, e oferece um novo framework teórico, uma variante do escore Brier e a ferramenta prática `briertools` para alinhar a avaliação de modelos de aprendizado de máquina com a utilidade decisória real.

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson2026-03-11🤖 cs.AI

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

Este artigo apresenta o MCP Bridge, um proxy RESTful leve e agnóstico a modelos que supera as limitações de execução local do Protocolo de Contexto de Modelo (MCP) ao oferecer conectividade segura e multiplataforma, complementado por modelos Qwen otimizados via aprendizado por reforço que alcançam desempenho superior em tarefas de ferramentas.

Arash Ahmadi, Sarah Sharif, Yaser M. Banad2026-03-11🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

O artigo apresenta o Stepwise Guided Policy Optimization (SGPO), uma nova abordagem que mitiga a limitação do GRPO em grupos de amostras inteiramente incorretas ao introduzir diversidade de respostas via um modelo julgador passo a passo, acelerando assim o aprendizado de modelos de linguagem grandes em tarefas de raciocínio sem exigir que o julgador gere soluções corretas.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

O artigo apresenta o UltraEdit, um método de edição de modelos de linguagem que dispensa treinamento, dados de sujeitos e memória, permitindo atualizações de conhecimento em tempo real com alta eficiência e escalabilidade em GPUs de consumo, além de introduzir o UltraEditBench, o maior conjunto de dados do campo com mais de 2 milhões de pares de edição.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

O artigo apresenta o Saturn, um framework de Aprendizado por Reforço baseado em Problemas de Satisfatibilidade Booleana (SAT) que supera as limitações de escalabilidade, verificabilidade e controle de dificuldade das tarefas existentes, permitindo treinar LLMs com um currículo progressivo que resulta em melhorias significativas tanto na resolução de problemas SAT quanto em tarefas gerais de matemática e programação.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Este trabalho propõe o CORA, um método de atribuição de crédito em aprendizado por reforço multiagente cooperativo que utiliza a alocação do núcleo da teoria dos jogos cooperativos para estimar vantagens baseadas em coalizões e promover comportamentos coordenados ótimos, superando as limitações das abordagens tradicionais de compartilhamento global de vantagem.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

O artigo apresenta o ChannelTokenFormer, um framework baseado em Transformer que resolve simultaneamente os desafios de dependências entre canais, amostragem assíncrona e valores ausentes em previsões de séries temporais multivariadas do mundo real, demonstrando superior robustez e precisão em benchmarks públicos e dados industriais privados.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

O artigo apresenta o OPENXRD, um framework abrangente de benchmarking para avaliar a capacidade de modelos de linguagem (LLMs) e multimodais (MLLMs) de assimilar informações contextuais em perguntas sobre difração de raios-X, demonstrando que materiais revisados por especialistas e modelos de porte médio obtêm os maiores ganhos de desempenho em comparação com conteúdos gerados por IA e modelos muito grandes.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim2026-03-11🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

O artigo apresenta a Latent Policy Steering (LPS), uma abordagem que aprimora políticas visuomotoras em cenários com poucos dados ao pré-treinar um Modelo de Mundo usando fluxo óptico como representação de ação agnóstica ao corpo, permitindo aproveitar dados de múltiplas efetuações e, subsequentemente, selecionar as melhores ações para o robô-alvo, resultando em melhorias significativas de desempenho tanto em simulação quanto no mundo real.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Este estudo apresenta um framework baseado em agentes de LLM para simular a evolução das atitudes dos cidadãos dos EUA em relação à China entre 2005 e 2025, demonstrando que a introdução de um agente "advogado do diabo" é a estratégia mais eficaz para mitigar vieses de mídia e promover opiniões mais alinhadas com a cognição humana, ao mesmo tempo que revela vieses inerentes dependentes da origem geográfica dos modelos.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong Li2026-03-11🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

O artigo propõe o método SFDA-PFT, uma abordagem leve de adaptação de domínio sem fonte que utiliza tradução de características no espaço latente para personalizar modelos de reconhecimento de expressões faciais usando apenas dados de alvo neutros, superando as limitações de métodos existentes e evitando a geração instável de imagens.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI