ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

El artículo presenta ACE-Brain-0, un cerebro fundacional generalista que utiliza la inteligencia espacial como andamio universal para unificar el razonamiento espacial, la conducción autónoma y la manipulación robótica en un único modelo multimodal, logrando un alto rendimiento en 24 benchmarks mediante una nueva metodología de especialización y reconciliación.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

El paper presenta MOSAIC, un marco de post-entrenamiento que alinea modelos de lenguaje agentes para el uso seguro de herramientas mediante la toma explícita de decisiones de seguridad y el aprendizaje por refuerzo basado en preferencias, logrando reducir significativamente los comportamientos dañinos y las fugas de privacidad sin comprometer el rendimiento en tareas benignas.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

Polynomial, trigonometric, and tropical activations

Este artículo demuestra que las funciones de activación basadas en bases ortonormales, como los polinomios de Hermite, la base trigonométrica de Fourier y una base tropicalizada, permiten entrenar modelos profundos de manera estable sin mecanismos de anclaje, ofreciendo además una interpretación polinómica de las redes y una aproximación precisa a activaciones clásicas para tareas de ajuste fino.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Este artículo propone un enfoque novedoso de aprendizaje por refuerzo que ajusta finamente los modelos de lenguaje grandes para generar estimaciones de confianza calibradas junto con sus respuestas, optimizando una recompensa basada en la regla de puntuación logarítmica para alinear la confianza expresada con la precisión real y generalizar a tareas no vistas.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

El artículo presenta Vision-R1, un modelo de lenguaje multimodal que mejora las capacidades de razonamiento mediante el aprendizaje por refuerzo, utilizando un conjunto de datos de cadena de pensamiento generado automáticamente y una estrategia de supresión progresiva del pensamiento para alcanzar un rendimiento competitivo en benchmarks matemáticos multimodales.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL