Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Este artículo presenta un marco práctico para evaluar y optimizar asistentes de compras conversacionales multiagente en producción, introduciendo una rúbrica de evaluación multidimensional y dos estrategias de optimización de prompts (Sub-agent GEPA y MAMuT GEPA) validadas mediante un asistente de compras de alimentos a escala industrial.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

Bridging Pedagogy and Play: Introducing a Language Mapping Interface for Human-AI Co-Creation in Educational Game Design

Este artículo presenta una herramienta web basada en lenguaje natural controlado que facilita la co-creación entre humanos e IA en el diseño de juegos educativos, permitiendo a los instructores no expertos mapear explícitamente la pedagogía en la jugabilidad para preservar la agencia humana y alinear los objetivos de aprendizaje con la mecánica del juego.

Daijin Yang, Erica Kleinman, Casper Harteveld2026-03-05🤖 cs.AI

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

Esta tesis doctoral presenta un marco de imagen de campo integral que combina sistemas de captura, algoritmos de segmentación y redes neuronales de reconstrucción 3D para superar las limitaciones de los métodos actuales y permitir la caracterización morfológica automatizada y precisa de agregados de construcción en diversos escenarios, desde partículas individuales hasta pilas de stock.

Haohang Huang2026-03-05🤖 cs.AI

Mozi: Governed Autonomy for Drug Discovery LLM Agents

El paper presenta Mozi, una arquitectura de doble capa que combina la flexibilidad de la IA generativa con la rigurosidad de la biología computacional mediante un sistema supervisor-trabajador y grafos de habilidades estandarizados, logrando así agentes de LLM gobernados y fiables para la descubrimiento de fármacos que mitigan la acumulación de errores y garantizan la validez científica.

He Cao, Siyu Liu, Fan Zhang + 7 more2026-03-05🤖 cs.AI

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Este trabajo presenta InEdit-Bench, el primer benchmark diseñado para evaluar la capacidad de los modelos generativos multimodales de razonar sobre trayectorias lógicas intermedias en la edición de imágenes, revelando mediante una evaluación exhaustiva las deficiencias actuales de estos sistemas en escenarios complejos que requieren comprensión causal y dinámica.

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang + 6 more2026-03-05🤖 cs.AI

MAGE: Meta-Reinforcement Learning for Language Agents toward Strategic Exploration and Exploitation

El artículo presenta MAGE, un marco de aprendizaje por refuerzo meta que capacita a los agentes de modelos de lenguaje para lograr una exploración y explotación estratégicas mediante un entrenamiento basado en episodios múltiples y técnicas de normalización, superando a los métodos existentes en la adaptación a entornos no estacionarios y la generalización frente a oponentes desconocidos.

Lu Yang, Zelai Xu, Minyang Xie + 4 more2026-03-05🤖 cs.AI

AI4S-SDS: A Neuro-Symbolic Solvent Design System via Sparse MCTS and Differentiable Physics Alignment

El artículo presenta AI4S-SDS, un sistema neuro-simbólico de diseño de solventes que integra una búsqueda en árbol Monte Carlo (MCTS) esparsa y un motor de física diferenciable para superar las limitaciones de los agentes LLM, logrando una exploración eficiente y diversa que ha permitido descubrir una nueva formulación de revelador de fotoresist con rendimiento superior al de los benchmarks comerciales.

Jiangyu Chen2026-03-05🤖 cs.AI

Generalization Properties of Score-matching Diffusion Models for Intrinsically Low-dimensional Data

Este trabajo establece límites de error finitos para modelos de difusión basados en puntuación que demuestran que estos modelos se adaptan a la geometría intrínseca de los datos de baja dimensión, mitigando la maldición de la dimensionalidad mediante tasas de convergencia que dependen de la dimensión de Wasserstein (p,q)(p,q) en lugar de la dimensión ambiental, sin requerir suposiciones restrictivas de soporte compacto o densidad suave.

Saptarshi Chakraborty, Quentin Berthet, Peter L. Bartlett2026-03-05🤖 cs.AI

UrbanHuRo: A Two-Layer Human-Robot Collaboration Framework for the Joint Optimization of Heterogeneous Urban Services

El artículo presenta UrbanHuRo, un marco de colaboración humano-robot de dos capas que optimiza conjuntamente servicios urbanos heterogéneos mediante la integración de entregas y sensores, logrando mejoras significativas en la cobertura de sensores, los ingresos de los repartidores y la reducción de pedidos atrasados.

Tonmoy Dey, Lin Jiang, Zheng Dong + 1 more2026-03-05🤖 cs.AI