A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Este artículo propone un marco de evaluación de clasificación binaria basado en la teoría de la decisión y el uso de reglas de puntuación propias como la puntuación Brier, respaldado por una herramienta práctica en Python y una variante técnica mejorada, para superar la dependencia actual de métricas de umbral fijo en la literatura de aprendizaje automático.

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson2026-03-11🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

El artículo presenta SGPO, un marco de optimización de políticas que mitiga la limitación de GRPO de no aprender de grupos de respuestas incorrectas al introducir diversidad mediante un modelo juez paso a paso, logrando así mejorar el rendimiento de modelos de razonamiento al permitirles aprender de sus errores sin requerir soluciones correctas.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

Let's Verify Math Questions Step by Step

Este trabajo presenta MathQ-Verify, una pipeline de cinco etapas que valida rigurosamente la corrección y completitud de problemas matemáticos para filtrar preguntas mal planteadas, mejorando significativamente la calidad de los conjuntos de datos y el rendimiento de los modelos de lenguaje grandes.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao Zhang2026-03-11🤖 cs.AI

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

El artículo presenta Saturn, un marco de aprendizaje por refuerzo basado en problemas de satisfacibilidad booleana (SAT) que supera las limitaciones de escalabilidad, verificabilidad y control de dificultad de las tareas existentes, logrando mejoras significativas en las capacidades de razonamiento de modelos de lenguaje grandes tanto en problemas SAT como en tareas matemáticas y de programación.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Este artículo presenta la primera revisión sistemática sobre la integración de modelos fundacionales en la robótica de servicio móvil, analizando cómo estas tecnologías abordan desafíos técnicos clave, habilitan aplicaciones en entornos reales y plantean consideraciones éticas y futuras para el desarrollo de robots autónomos seguros y adaptables.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Este trabajo propone CORA, un método de asignación de ventajas en el aprendizaje por refuerzo multiagente cooperativo que utiliza la teoría de juegos cooperativos y el concepto de "núcleo" para asignar créditos basados en las contribuciones de las coaliciones, mejorando así la optimización de las políticas y el comportamiento coordinado.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

El artículo presenta ChannelTokenFormer, un marco unificado basado en Transformers que aborda simultáneamente la dependencia entre canales, la asincronía en la muestreo y los valores faltantes para lograr un pronóstico robusto y preciso de series temporales multivariadas en escenarios del mundo real.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

El artículo presenta OPENXRD, un marco de referencia integral que evalúa la capacidad de modelos de lenguaje grandes y multimodales para integrar información contextual en preguntas de difracción de rayos X, revelando que los modelos de tamaño medio se benefician más de este contexto y que la calidad experta del material supera a la generada por IA.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim2026-03-11🤖 cs.AI

QSpark: Towards Reliable Qiskit Code Generation

El artículo presenta QSpark, un enfoque que utiliza el ajuste fino del modelo Qwen2.5-Coder-32B con optimización por preferencia (ORPO) y optimización de políticas relativas grupales (GRPO) para generar código Qiskit más fiable, logrando un rendimiento superior al de los modelos de propósito general en tareas básicas e intermedias, aunque aún enfrenta desafíos en problemas avanzados.

Kiana Kheiri, Aamna Aamir, Andriy Miranskyy + 1 more2026-03-11🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

El artículo presenta "Latent Policy Steering" (LPS), un enfoque que mejora las políticas visuomotoras en regímenes de pocos datos mediante el preentrenamiento de un modelo de mundo con representaciones de acción agnósticas al cuerpo (como el flujo óptico) y su posterior ajuste fino para guiar la selección de acciones, logrando mejoras significativas tanto en simulación como en robots reales.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Este estudio presenta un marco de agentes LLM para simular la evolución de las actitudes de los ciudadanos estadounidenses hacia China entre 2005 y 2025, demostrando que un agente "abogado del diablo" es la estrategia más efectiva para mitigar los sesgos derivados del encuadre mediático y generar opiniones más objetivas y similares a las humanas.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong Li2026-03-11🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Este artículo presenta SFDA-PFT, un método eficiente de adaptación de dominio sin fuente que utiliza una traducción de características en el espacio latente para personalizar modelos de reconocimiento de expresiones faciales utilizando únicamente datos de expresiones neutras del objetivo, evitando así la generación de imágenes y preservando la privacidad.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI