CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents
El artículo presenta CostNav, un nuevo benchmark que evalúa la viabilidad económica real de los agentes de IA física para la navegación mediante el análisis de costos y beneficios utilizando datos regulatorios y financieros de la industria, revelando que los métodos actuales, aunque exitosos en tareas simplificadas, no son económicamente viables en escenarios del mundo real.