BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

O artigo "BiasBusters" apresenta um novo benchmark e analisa a existência de viés sistemático na seleção de ferramentas por modelos de linguagem grandes, identificando que a alinhamento semântico, a ordem de apresentação e a exposição prévia são os principais fatores causais, e propõe uma estratégia de mitigação eficaz que combina filtragem e amostragem uniforme para promover uma distribuição mais justa entre provedores.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

O artigo apresenta o MonitorVLM, um novo framework visão-linguagem que utiliza um conjunto de dados específico de mineração, um módulo de filtro de cláusulas e um amplificador de comportamento para detectar automaticamente violações de segurança em vídeos de operações de mineração, superando significativamente os modelos de base em precisão e recall.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Este artigo apresenta a primeira avaliação sistemática de aprendizado auto-supervisionado para o estágio do sono usando EEG vestível, demonstrando que essa abordagem supera os métodos supervisionados ao alcançar precisão clínica com apenas 5% a 10% dos dados rotulados e reduzir significativamente a dependência de anotações manuais.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

O artigo propõe o HyWA, um método que utiliza uma hiper-rede para gerar pesos personalizados em camadas específicas de um modelo de detecção de atividade vocal, superando as técnicas existentes ao melhorar a precisão média e facilitar a implantação através do reuso da mesma arquitetura.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

O artigo apresenta o MVCustom, um novo framework baseado em difusão que resolve o desafio de gerar múltiplas vistas de um objeto personalizado com controle de pose de câmera, utilizando uma representação de campo de características para consistência geométrica e técnicas de renderização e completamento de latentes para garantir fidelidade e alinhamento perspectivo.

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

Este artigo propõe um quadro teórico baseado na "ansatz de estrutura de autovalores de Hermite" (HEA) que permite prever as curvas de aprendizado da regressão por kernel em conjuntos de dados reais, como CIFAR-5m e ImageNet, utilizando apenas estatísticas de dados brutos e demonstrando que redes MLP também aprendem polinômios de Hermite conforme previsto pelo modelo.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

Expert Evaluation of LLM World Models: A High-TcT_c Superconductivity Case Study

Este estudo avalia a capacidade de seis sistemas de Modelos de Linguagem de Grande Escala (LLMs) de responder a perguntas especializadas sobre supercondutividade de alta temperatura, demonstrando que sistemas personalizados com Geração Aumentada por Recuperação (RAG) superam modelos fechados comerciais em precisão factual e suporte evidencial.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

O artigo apresenta o DeepEyesV2, um modelo multimodal agêntico que utiliza um pipeline de treinamento em duas etapas (inicialização a frio seguida de aprendizado por reforço) e o benchmark RealX-Bench para desenvolver a capacidade de invocar ativamente ferramentas externas, como execução de código e busca na web, integrando-as eficazmente ao raciocínio em tarefas do mundo real.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

O artigo apresenta o método "What We Don't C", uma abordagem baseada em *flow matching* latente que desentrelaça subespaços ao remover explicitamente informações condicionais, gerando representações residuais significativas que facilitam a descoberta e o controle de fatores de variação não capturados em conjuntos de dados de alta dimensão.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

O artigo apresenta o D-GAP, um método de aumento de dados agnóstico ao conjunto e guiado por gradientes que melhora a robustez fora de domínio em visão computacional ao realizar interpolação adaptativa no espectro de amplitude e mistura complementar no espaço de pixels, reduzindo o viés de aprendizado em frequências específicas e restaurando detalhes espaciais.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

O artigo apresenta o REMSA, um agente consciente de restrições que automatiza a seleção de modelos fundamentais para sensoriamento remoto, utilizando um banco de dados estruturado e um fluxo de trabalho orientado por tarefas para interpretar consultas em linguagem natural e identificar os modelos mais adequados com base em critérios de implantação e desempenho.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Este artigo apresenta um framework hierárquico de dupla estratégia para o esquecimento seletivo em modelos de linguagem grandes aplicados à saúde, que remove conhecimento especializado sensível preservando competências médicas fundamentais com alta eficiência e garantias de privacidade.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

O artigo apresenta o CostNav, um novo benchmark que avalia agentes de IA física com base em análises econômicas realistas e dados industriais, revelando que os métodos atuais de navegação, embora focados no sucesso da tarefa, não são economicamente viáveis para aplicações comerciais no mundo real.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

O artigo apresenta o IndiMathBench, um benchmark verificado por humanos composto por 312 teoremas em Lean 4 derivados de olimpíadas de matemática indianas e criados por meio de um pipeline assistido por IA, que demonstra os desafios contínuos da autoformalização e do raciocínio matemático em modelos de linguagem de ponta.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

O artigo apresenta o C3, um método de quantificação de incerteza que treina modelos de geração de vídeo controláveis para estimar e visualizar com precisão, em nível de subpixel, a confiança de suas previsões, permitindo a detecção de alucinações e falhas tanto dentro quanto fora da distribuição de treinamento.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

O artigo apresenta o Trio, um framework de geração molecular que integra modelagem de linguagem baseada em fragmentos, aprendizado por reforço e busca em árvore Monte Carlo para criar um paradigma de descoberta de fármacos em ciclo fechado, superando métodos existentes ao gerar ligantes com maior afinidade de ligação, propriedades farmacológicas aprimoradas e acessibilidade sintética, além de expandir significativamente a diversidade química.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI