Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Este artículo presenta un marco híbrido ligero para el juego de las Amazonas que integra modelos de lenguaje grandes con aprendizaje basado en grafos para superar las limitaciones de recursos, logrando un rendimiento superior al de su modelo base mediante el uso de datos sintéticos y mecanismos de filtrado estructural.

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

El artículo presenta IH-Challenge, un conjunto de datos de aprendizaje por refuerzo diseñado para mejorar la jerarquía de instrucciones en modelos de lenguaje avanzados, logrando una mayor robustez contra ataques de inyección y jailbreaks sin comprometer su utilidad general.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

Este artículo presenta un marco de aprendizaje por refuerzo multiagente basado en Proximal Policy Optimization (PPO) para coordinar flotas de drones en la entrega de suministros médicos, demostrando mediante datos geográficos reales que la versión clásica de PPO supera a las estrategias asíncronas y secuenciales en la gestión de logística sanitaria dinámica y bajo incertidumbre.

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Este estudio evalúa la sensibilidad de once modelos fundacionales para la segmentación de imágenes médicas de musculo-esqueléticas, revelando que el rendimiento varía significativamente según la estrategia de prompt y la anatomía, y que el uso de prompts humanos reduce el rendimiento en comparación con los prompts ideales, lo que complica la selección del modelo óptimo para entornos clínicos reales.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Este trabajo presenta un marco novedoso de análisis cognitivo de defectos en polímeros reforzados con fibra de carbono (CFRP) mediante termografía infrarroja activa y modelos de visión-linguaje, que elimina la necesidad de conjuntos de datos de entrenamiento específicos mediante el uso de adaptadores ligeros para lograr una detección y localización de defectos subsuperficiales en configuración *zero-shot*.

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

Adaptive RAN Slicing Control via Reward-Free Self-Finetuning Agents

Este artículo propone un marco de auto-afinamiento sin recompensas que utiliza un mecanismo de reflexión bi-perspectiva para permitir que agentes de IA aprendan continuamente y distilen experiencias en sus parámetros, demostrando un rendimiento superior a los métodos tradicionales en la optimización dinámica del rebanado de redes de acceso radio (RAN).

Yuanhao Li, Haozhe Wang, Geyong Min, Nektarios Georgalas, Wang Miao2026-03-12🤖 cs.AI

CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

Este estudio presenta CUAAudit, una meta-evaluación a gran escala que demuestra que, aunque los Modelos de Lenguaje y Visión (VLM) pueden actuar como auditores autónomos efectivos para agentes de uso informático, su fiabilidad disminuye en entornos complejos y heterogéneos, revelando limitaciones fundamentales en su precisión, calibración y acuerdo inter-modelo.

Marta Sumyk, Oleksandr Kosovan2026-03-12🤖 cs.AI

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Este estudio empírico demuestra que, contrariamente a la hipótesis de que el alineamiento moral requiere algoritmos que fomenten la diversidad, los métodos de maximización de recompensas (RLVR) son igual o más efectivos que los enfoques de coincidencia de distribución, debido a que las respuestas de alto valor en el razonamiento moral presentan una distribución más concentrada que en el razonamiento matemático.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences

Este trabajo presenta un marco matemático unificado que demuestra la equivalencia entre el modelo generativo "Drifting" y el flujo de gradiente de Wasserstein de la divergencia KL bajo aproximación KDE, extendiendo este enfoque a otras divergencias, variedades riemannianas y estrategias mixtas para mitigar simultáneamente el colapso y el desenfoque de modos.

Jiarui Cao, Zixuan Wei, Yuxin Liu2026-03-12🤖 cs.LG

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Este artículo presenta un marco innovador para sistemas de agentes auto-mejorables que extrae aprendizajes estructurados de las trayectorias de ejecución mediante análisis semántico y atribución de decisiones, permitiendo la recuperación contextual de estrategias, recuperaciones y optimizaciones que logran mejoras significativas en la finalización de tareas complejas.

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi Thomas2026-03-12🤖 cs.AI

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

Este artículo presenta un marco novedoso que intercala planificadores de tareas y de movimiento en un bucle de aprendizaje incremental, donde el planificador de movimiento proporciona retroalimentación simbólica para guiar al programador hacia soluciones factibles, demostrando su eficacia en entornos logísticos y de trabajo compartido con restricciones espaciotemporales complejas.

Elisa Tosello, Arthur Bit-Monnot, Davide Lusuardi, Alessandro Valentini, Andrea Micheli2026-03-12🤖 cs.AI

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

El artículo presenta DxEvolve, un agente de diagnóstico autoevolutivo que emula la cognición clínica mediante un flujo de trabajo de investigación interactiva, logrando mejoras significativas en la precisión diagnóstica y estableciendo un camino auditable para la evolución continua de la inteligencia artificial clínica.

Ruiyang Ren, Yuhao Wang, Yunsen Liang, Lan Luo, Jing Liu, Haifeng Wang, Cong Feng, Yinan Zhang, Chunyan Miao, Ji-Rong Wen, Wayne Xin Zhao2026-03-12🤖 cs.AI

A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction

Este artículo presenta un marco de modelado digital humano multimodal e independiente de la plataforma que integra sensores biométricos (como el casco OpenBCI Galea) y un entorno de juego reproducible (SuperTux) para generar datos fisiológicos estructurados y sincronizados, facilitando así investigaciones futuras sobre interacción inclusiva e impulsada por IA sin depender de modelos de inferencia específicos.

Daniel J. Buxton, Mufti Mahmud, Jordan J. Bird, Thomas Hughes-Roberts, David J. Brown2026-03-12🤖 cs.AI