A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Este artículo presenta un marco robusto y eficiente de Aprendizaje por Refuerzo Multiagente para el control de semáforos que, mediante la aleatorización de ratios de giro, un espacio de acción de ajuste exponencial y observaciones basadas en vecinos, supera a las bases de referencia existentes reduciendo el tiempo de espera promedio en más del 10% y mejorando la generalización en escenarios de tráfico dinámicos.

Sheng-You Huang, Hsiao-Chuan Chang, Yen-Chi Chen, Ting-Han Wei, I-Hau Yeh, Sheng-Yao Kuan, Chien-Yao Wang, Hsuan-Han Lee, I-Chen Wu2026-03-13🤖 cs.AI

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

Este artículo identifica el fenómeno de "auto-bloqueo de información" en agentes de LLM que utilizan aprendizaje por refuerzo para el razonamiento activo, donde la exploración deficiente crea un ciclo vicioso que impide la adquisición de conocimiento, y propone una solución efectiva que inyecta críticas direccionales para mitigar este problema y lograr mejoras significativas en el rendimiento.

Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng2026-03-13🤖 cs.AI

SommBench: Assessing Sommelier Expertise of Language Models

El artículo presenta SommBench, un nuevo benchmark multilingüe diseñado para evaluar la capacidad de los modelos de lenguaje para emular el juicio sensorial experto de un sommelier mediante tareas de teoría del vino, completado de características y maridaje, revelando que, aunque los modelos destacan en teoría, aún enfrentan dificultades significativas en la predicción de características y el maridaje de alimentos y vinos.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

Increasing intelligence in AI agents can worsen collective outcomes

El estudio demuestra que, en escenarios de recursos escasos, el aumento de la inteligencia y la diversidad de los agentes de IA puede empeorar los resultados colectivos al generar sobrecarga sistémica, mientras que la formación de tribus mitiga este riesgo, indicando que el impacto de la sofisticación de la IA depende enteramente de la relación entre la capacidad disponible y el tamaño de la población.

Neil F. Johnson2026-03-13💰 q-fin

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Este artículo presenta el "IsoCompute Playbook", un marco que optimiza la asignación de recursos computacionales para el aprendizaje por refuerzo de modelos de lenguaje grandes, demostrando que aumentar el número de rodajes paralelos por problema mejora la eficiencia de manera predecible y adaptándose a la dificultad del problema.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

A Quantitative Characterization of Forgetting in Post-Training

Este trabajo proporciona una caracterización cuantitativa del olvido en el entrenamiento continuo de modelos generativos, demostrando teóricamente que los objetivos de divergencia KL inversa evitan el colapso de la masa de tareas anteriores y limitan el desplazamiento de componentes mediante la superposición de distribuciones, a diferencia de la KL directa que conduce al olvido masivo.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

El artículo introduce el benchmark MADQA y un protocolo de evaluación para demostrar que, aunque los agentes multimodales pueden igualar la precisión humana en la búsqueda de documentos, lo logran mediante búsquedas estocásticas y fuerza bruta en lugar de un razonamiento estratégico genuino, manteniendo una brecha significativa de rendimiento frente a un oráculo ideal.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

El artículo presenta "Proof-Carrying Materials" (PCM), un marco de certificación de seguridad falsificable que combina falsificación adversaria, intervalos de confianza y verificación formal para superar las limitaciones de los potenciales interatómicos aprendidos por máquina, logrando un aumento del 25% en el descubrimiento de materiales estables mediante la detección de fallos arquitectónicos específicos y la reducción de falsos negativos.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabajo presenta WORKSWORLD, un nuevo dominio para planificadores numéricos independientes del dominio que automatiza la planificación y programación conjunta de flujos de trabajo de datos distribuidos, permitiendo definir orígenes y destinos sin especificar el grafo completo y logrando resolver cadenas lineales de hasta 14 componentes en ocho sitios con recursos de hardware estándar.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Este artículo presenta Portfolio-CEGAR-SEQ, un algoritmo paralelo que aprovecha la potencia de los procesadores multinúcleo modernos combinando múltiples estrategias de disposición y programación de objetos para optimizar la impresión 3D secuencial, logrando un rendimiento superior y un menor uso de placas de impresión en comparación con el algoritmo CEGAR-SEQ original.

Pavel Surynek2026-03-13🤖 cs.AI