The Yokai Learning Environment: Tracking Beliefs Over Space and Time

Este artigo apresenta o Yokai Learning Environment (YLE), um novo benchmark de código aberto para coordenação zero-shot que supera as limitações do Hanabi Learning Environment ao exigir que agentes cooperantes construam terreno comum através do rastreamento de crenças sobre cartas móveis e do raciocínio sob dicas ambíguas, revelando que os métodos de IA de última geração que dominam o Hanabi falham em manter modelos internos consistentes com parceiros desconhecidos no YLE.

Constantin Ruhdorfer, Matteo Bortoletto, Johannes Forkel, Jakob Foerster, Andreas Bulling2026-03-12🤖 cs.AI

From Next Token Prediction to (STRIPS) World Models

Este artigo investiga se a previsão do próximo token pode gerar modelos de mundo capazes de planejamento em ambientes simbólicos, demonstrando que, embora o modelo "STRIPS Transformer" tenha um viés indutivo forte, um transformer padrão com atenção de quebra de vara (stick-breaking) alcança maior precisão e generalização, permitindo a extração de modelos STRIPS válidos para planejamento em estados e objetivos não vistos.

Carlos Núñez-Molina, Vicenç Gómez, Hector Geffner2026-03-12🤖 cs.AI

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

O artigo "BiasBusters" apresenta um novo benchmark e analisa a existência de viés sistemático na seleção de ferramentas por modelos de linguagem grandes, identificando que a alinhamento semântico, a ordem de apresentação e a exposição prévia são os principais fatores causais, e propõe uma estratégia de mitigação eficaz que combina filtragem e amostragem uniforme para promover uma distribuição mais justa entre provedores.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

O artigo apresenta o MonitorVLM, um novo framework visão-linguagem que utiliza um conjunto de dados específico de mineração, um módulo de filtro de cláusulas e um amplificador de comportamento para detectar automaticamente violações de segurança em vídeos de operações de mineração, superando significativamente os modelos de base em precisão e recall.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Este artigo apresenta a primeira avaliação sistemática de aprendizado auto-supervisionado para o estágio do sono usando EEG vestível, demonstrando que essa abordagem supera os métodos supervisionados ao alcançar precisão clínica com apenas 5% a 10% dos dados rotulados e reduzir significativamente a dependência de anotações manuais.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

O artigo propõe o HyWA, um método que utiliza uma hiper-rede para gerar pesos personalizados em camadas específicas de um modelo de detecção de atividade vocal, superando as técnicas existentes ao melhorar a precisão média e facilitar a implantação através do reuso da mesma arquitetura.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

O artigo apresenta o MVCustom, um novo framework baseado em difusão que resolve o desafio de gerar múltiplas vistas de um objeto personalizado com controle de pose de câmera, utilizando uma representação de campo de características para consistência geométrica e técnicas de renderização e completamento de latentes para garantir fidelidade e alinhamento perspectivo.

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

Este artigo propõe um quadro teórico baseado na "ansatz de estrutura de autovalores de Hermite" (HEA) que permite prever as curvas de aprendizado da regressão por kernel em conjuntos de dados reais, como CIFAR-5m e ImageNet, utilizando apenas estatísticas de dados brutos e demonstrando que redes MLP também aprendem polinômios de Hermite conforme previsto pelo modelo.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

Expert Evaluation of LLM World Models: A High-TcT_c Superconductivity Case Study

Este estudo avalia a capacidade de seis sistemas de Modelos de Linguagem de Grande Escala (LLMs) de responder a perguntas especializadas sobre supercondutividade de alta temperatura, demonstrando que sistemas personalizados com Geração Aumentada por Recuperação (RAG) superam modelos fechados comerciais em precisão factual e suporte evidencial.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

O artigo apresenta o DeepEyesV2, um modelo multimodal agêntico que utiliza um pipeline de treinamento em duas etapas (inicialização a frio seguida de aprendizado por reforço) e o benchmark RealX-Bench para desenvolver a capacidade de invocar ativamente ferramentas externas, como execução de código e busca na web, integrando-as eficazmente ao raciocínio em tarefas do mundo real.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

O artigo apresenta o método "What We Don't C", uma abordagem baseada em *flow matching* latente que desentrelaça subespaços ao remover explicitamente informações condicionais, gerando representações residuais significativas que facilitam a descoberta e o controle de fatores de variação não capturados em conjuntos de dados de alta dimensão.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

O artigo apresenta o D-GAP, um método de aumento de dados agnóstico ao conjunto e guiado por gradientes que melhora a robustez fora de domínio em visão computacional ao realizar interpolação adaptativa no espectro de amplitude e mistura complementar no espaço de pixels, reduzindo o viés de aprendizado em frequências específicas e restaurando detalhes espaciais.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

O artigo apresenta o REMSA, um agente consciente de restrições que automatiza a seleção de modelos fundamentais para sensoriamento remoto, utilizando um banco de dados estruturado e um fluxo de trabalho orientado por tarefas para interpretar consultas em linguagem natural e identificar os modelos mais adequados com base em critérios de implantação e desempenho.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Este artigo apresenta um framework hierárquico de dupla estratégia para o esquecimento seletivo em modelos de linguagem grandes aplicados à saúde, que remove conhecimento especializado sensível preservando competências médicas fundamentais com alta eficiência e garantias de privacidade.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG