Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Este artigo propõe um framework híbrido leve para o jogo das Amazonas que integra um Autoencoder de Atenção em Grafos e o GPT-4o-mini para superar limitações de recursos, alcançando desempenho superior ao modelo base e a métodos tradicionais através de filtragem estrutural e dados sintéticos.

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

O artigo apresenta o IH-Challenge, um conjunto de dados de aprendizado por reforço projetado para melhorar a hierarquia de instruções em modelos de linguagem de ponta, resultando em maior robustez contra ataques de segurança, redução de comportamentos inseguros e manutenção da utilidade do modelo.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

Este artigo apresenta um framework de aprendizado por reforço multiagente baseado em Proximal Policy Optimization (PPO) para coordenar frotas de drones na entrega dinâmica e priorizada de suprimentos médicos, demonstrando, através de dados geográficos reais, que a abordagem PPO clássica supera estratégias assíncronas e sequenciais em cenários de logística de saúde sob incerteza.

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Este estudo avalia a sensibilidade de 11 modelos fundamentais de segmentação de imagens a prompts humanos em tomografias computadorizadas musculoesqueléticas, revelando que o desempenho varia significativamente entre modelos e estratégias de prompt, e que a performance reportada com prompts ideais tende a superestimar os resultados em cenários reais guiados por humanos.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Este trabalho apresenta um novo framework guiado por linguagem para análise cognitiva de defeitos em compósitos de fibra de carbono usando termografia infravermelha ativa e modelos visão-linguagem pré-treinados, permitindo a detecção e localização de defeitos subsuperficiais em cenários zero-shot sem a necessidade de conjuntos de dados de treinamento específicos.

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

Adaptive RAN Slicing Control via Reward-Free Self-Finetuning Agents

Este artigo propõe um novo framework de auto-ajuste que permite a agentes de IA internalizar experiências em seus parâmetros através de um mecanismo de reflexão bi-perspectiva e aprendizado sem recompensas manuais, superando as limitações de modelos de linguagem tradicionais e demonstrando superioridade em eficiência de amostragem e estabilidade na otimização dinâmica de fatiamento de Redes de Acesso Rádio (RAN).

Yuanhao Li, Haozhe Wang, Geyong Min, Nektarios Georgalas, Wang Miao2026-03-12🤖 cs.AI

CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

Este artigo apresenta o CUAAudit, uma meta-avaliação em larga escala que demonstra que, embora os Modelos Visuais-Linguísticos (VLMs) possam atuar como auditores eficazes para Agentes de Uso de Computador (CUAs), eles enfrentam limitações significativas em ambientes complexos e heterogêneos, exibindo degradação de desempenho e desacordo substancial entre modelos, o que destaca a necessidade crítica de considerar a confiabilidade e a incerteza dos avaliadores na implantação de CUAs no mundo real.

Marta Sumyk, Oleksandr Kosovan2026-03-12🤖 cs.AI

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Este estudo empírico demonstra que, ao contrário da hipótese de que o alinhamento moral exige algoritmos focados em diversidade, métodos de maximização de recompensa (RLVR) são igualmente eficazes para o raciocínio moral, pois as respostas de alta recompensa nesse domínio formam distribuições mais concentradas do que em tarefas matemáticas.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences

Este artigo estabelece um quadro matemático unificado chamado "Gradient Flow Drifting" que demonstra a equivalência entre o modelo Drifting e o fluxo de gradiente de Wasserstein da divergência KL forward sob aproximação de estimativa de densidade por kernel, permitindo a criação de uma nova família de modelos generativos que combinam diferentes divergências para evitar colapso e borramento de modos, inclusive em variedades Riemannianas.

Jiarui Cao, Zixuan Wei, Yuxin Liu2026-03-12🤖 cs.LG

Recover to Predict: Progressive Retrospective Learning for Variable-Length Trajectory Prediction

O artigo propõe o Framework Retrospectivo Progressivo (PRF), uma abordagem modular que utiliza unidades de retrospectiva e uma estratégia de treinamento com início rotativo para melhorar a previsão de trajetórias em cenários de observações incompletas e variáveis, superando as limitações dos métodos existentes que dependem de mapeamentos diretos.

Hao Zhou, Lu Qi, Jason Li, Jie Zhang, Yi Liu, Xu Yang, Mingyu Fan, Fei Luo2026-03-12🤖 cs.AI

Reinforcement Learning with Conditional Expectation Reward

O artigo propõe a Recompensa de Expectativa Condicional (CER), um método que utiliza o próprio modelo de linguagem como verificador implícito para fornecer sinais de recompensa graduais e eliminar a dependência de regras de verificação externas, ampliando assim a eficácia do Aprendizado por Reforço com Recompensas Verificáveis (RLVR) para domínios de raciocínio de resposta livre.

Changyi Xiao, Caijun Xu, Yixin Cao2026-03-12🤖 cs.LG

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

Este artigo propõe um quadro de trabalho inovador que intercala planeamento de tarefas e de movimentos através de um ciclo de aprendizagem incremental, onde um planeador de movimentos fornece feedback simbólico sobre conflitos espaciais e temporais para guiar um planeador de tarefas na geração de planos viáveis para navegação de múltiplos objetos em espaços partilhados.

Elisa Tosello, Arthur Bit-Monnot, Davide Lusuardi, Alessandro Valentini, Andrea Micheli2026-03-12🤖 cs.AI

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

O artigo apresenta o DxEvolve, um agente de diagnóstico autoevolutivo que emula a cognição clínica ao requisitar exames interativamente e externalizar a experiência acumulada, superando significativamente os modelos tradicionais em precisão diagnóstica e oferecendo um caminho auditável para a evolução contínua da inteligência artificial na medicina.

Ruiyang Ren, Yuhao Wang, Yunsen Liang, Lan Luo, Jing Liu, Haifeng Wang, Cong Feng, Yinan Zhang, Chunyan Miao, Ji-Rong Wen, Wayne Xin Zhao2026-03-12🤖 cs.AI

A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction

Este artigo apresenta um framework de modelagem de humanos digitais agnóstico a plataformas que integra o headset OpenBCI Galea e o ambiente de jogo SuperTux para capturar dados multimodais sincronizados e estruturados, facilitando pesquisas reprodutíveis e éticas em interação multimodal e acessibilidade sem depender de modelos de IA específicos ou modificações arquitetônicas.

Daniel J. Buxton, Mufti Mahmud, Jordan J. Bird, Thomas Hughes-Roberts, David J. Brown2026-03-12🤖 cs.AI