⚛️ quantum physics

Towards Real-time Control of a CartPole System on a Quantum Computer

Este artículo presenta una investigación de extremo a extremo de un agente híbrido cuántico-clásico mínimo que controla un sistema CartPole en un procesador cuántico superconductor físico, demostrando que un modelo de un solo qubit supera a sus contrapartes clásicas mientras identifica compensaciones críticas entre los presupuestos de disparos y las frecuencias de control, y logra retroalimentación de baja latencia mediante la programación directa de la electrónica de lectura.

Autores originales: Nguyen Truong Thu Ngo, Väinö Mehtola, Jérome Lenssen, Peiyong Wang, Francesco Cosco, Tien-Fu Lu, James Q. Quach

Publicado 2026-05-05

📖 5 min de lectura🧠 Análisis profundo

CC BY 4.0

Autores originales: Nguyen Truong Thu Ngo, Väinö Mehtola, Jérome Lenssen, Peiyong Wang, Francesco Cosco, Tien-Fu Lu, James Q. Quach

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que estás intentando enseñar a un robot a equilibrar una escoba sobre su mano. Este es un desafío clásico en robótica llamado "CartPole". Por lo general, enseñamos a los robots utilizando computadoras clásicas (las del tipo que hay en tu portátil). Pero, ¿qué pasaría si intentáramos enseñárselo utilizando una computadora cuántica?

Este artículo es un boletín de calificaciones sobre ese experimento. Los investigadores plantearon tres grandes preguntas:

¿Puede una computadora cuántica diminuta aprender a equilibrar la escoba más rápido que una computadora normal?
¿Se confunde el robot si lo entrenamos a una velocidad pero le pedimos que trabaje a una velocidad diferente?
¿Podemos hacer que la computadora cuántica sea lo suficientemente rápida para controlar realmente al robot en tiempo real, o es demasiado lenta?

Aquí está el desglose de sus hallazgos, utilizando analogías simples.

1. El "Cerebro Pequeño" vs. El "Cerebro Grande"

La Configuración:
Los investigadores construyeron un cerebro de robot "híbrido". Es mayormente una computadora normal, pero tiene una parte cuántica diminuta (un solo "qubit", que es como una moneda cuántica que puede estar en cara, cruz o ambas a la vez). Lo compararon con un "cerebro grande" hecho enteramente de componentes de computadora estándar (una red neuronal profunda).

El Resultado:
El pequeño cerebro cuántico fue un demonio de la velocidad.

La Analogía: Imagina a dos estudiantes tomando un examen. El estudiante del "Cerebro Grande" necesita leer el libro de texto 430 veces antes de obtener una A. El estudiante del "Pequeño Cerebro Cuántico" solo necesita leerlo 160 veces para obtener la misma A.
El Truco: Este aumento de velocidad ocurrió incluso cuando el cerebro cuántico tuvo que adivinar sus respuestas lanzando la moneda muchas veces (un método llamado "parameter-shift") en lugar de conocer la respuesta perfectamente. Demostró que incluso un modelo cuántico muy pequeño puede ser sorprendentemente eficiente en el aprendizaje.

2. El Problema del "Bache" (Entrenamiento vs. Conducción)

La Configuración:
En el mundo real, un robot necesita tomar decisiones muy rápidamente (como 50 veces por segundo). Sin embargo, las computadoras cuánticas son ruidosas y lentas. Para obtener una respuesta clara de la moneda cuántica, a menudo tienes que lanzarla muchas veces (llamadas "disparos" o "shots").

El Intercambio: Si lanzas la moneda muy pocas veces, la respuesta es ruidosa (como intentar escuchar un susurro en una tormenta). Si la lanzas demasiadas veces, tarda demasiado, y el robot se cae antes de poder reaccionar.

El Experimento:
Los investigadores entrenaron al robot a diferentes velocidades y luego lo probaron a diferentes velocidades para ver si se confundiría. Crearon un enorme "mapa de calor" (como un mapa meteorológico) que mostraba qué tan bien equilibraba el robot bajo diferentes condiciones.

El Resultado:

La Velocidad de "Inferencia" es lo Más Importante: No importaba qué tan rápido se entrenó el robot. Lo que importaba era qué tan rápido estaba conduciendo (inferencia). Si se permitía que el robot tomara decisiones rápidamente (alta frecuencia), se equilibraba bien. Si se le obligaba a conducir lentamente, se caía.
Más Lanzamientos = Más Estabilidad: Si el robot tenía que conducir lentamente, podían solucionarlo dándole más "disparos" (lanzando la moneda más veces para obtener una respuesta clara).
El Punto Dulce: Tienes que encontrar un equilibrio. Necesitas que el robot conduzca rápido y tenga suficiente tiempo para obtener una respuesta cuántica clara. El artículo proporciona un mapa para ayudar a los ingenieros a encontrar este equilibrio perfecto para futuros robots.

3. El "Embotellamiento" vs. La "Autopista" (Latencia)

La Configuración:
Esta es la parte más crítica. Incluso si la computadora cuántica aprende bien, es inútil si es demasiado lenta para reaccionar en tiempo real.

El Problema: Normalmente, cuando usas una computadora cuántica en la nube, tienes que enviar tu solicitud a través de mucha "burocracia" (capas de software, compiladores, retrasos de internet). Es como intentar conducir un coche de carreras por una ciudad con señales de alto, semáforos y zonas de construcción.
La Vieja Forma: Usando el software estándar, el robot solo podía tomar una decisión aproximadamente 0.14 veces por segundo. Estaba esencialmente dormido.

El Avance:
Los investigadores decidieron eludir la "burocracia". Programaron el hardware de la computadora cuántica directamente, como un piloto de carreras tomando un atajo por una autopista privada.

El Resultado: Al eliminar a los intermediarios, aceleraron al robot en 40 veces. El robot ahora podía tomar decisiones 6.2 veces por segundo.
El Límite: Aunque 6.2 veces por segundo es una gran mejora, aún no es lo suficientemente rápido para una escoba que necesita ser equilibrada 50 veces por segundo. Sin embargo, demuestra que el "embotellamiento" era el problema principal, no la física cuántica en sí misma.

La Conclusión

Este artículo es una "prueba de concepto" que dice:

Sí, un pequeño cerebro cuántico puede aprender una tarea de equilibrio más rápido que un gran cerebro clásico.
Sí, podemos mapear exactamente qué tan rápido y qué tan precisa necesita ser la computadora cuántica para evitar que el robot se caiga.
Sí, podemos hacer que las computadoras cuánticas sean lo suficientemente rápidas para ser útiles en el control, pero solo si dejamos de usar el software estándar lento y hablamos directamente con el hardware.

Los investigadores aún no construyeron un coche autónomo ni un robot médico. Solo demostraron que el motor (el aprendizaje cuántico) funciona, y descubrieron cómo eliminar los embotellamientos (latencia) para que eventualmente pueda conducir más rápido.

Resumen Técnico: Hacia el Control en Tiempo Real de un Sistema CartPole en una Computadora Cuántica

Enunciado del Problema
La aplicación del Aprendizaje por Refuerzo Cuántico (QRL) a sistemas de control en tiempo real enfrenta obstáculos significativos en cuanto a latencia de hardware, susceptibilidad al ruido y convergencia del aprendizaje. Si bien la investigación teórica sobre Aprendizaje Automático Cuántico (QML) sugiere ventajas potenciales en la eficiencia de muestras y la representación de alta dimensión, el despliegue práctico en dispositivos Cuánticos de Escala Intermedia Ruidosos (NISQ) sigue siendo limitado. Los estudios existentes a menudo se basan en simulaciones idealizadas o no abordan los cuellos de botella críticos de latencia de la ejecución cuántica basada en la nube estándar, lo que los hace inadecuados para tareas de control en bucle cerrado sensibles a la latencia. El desafío específico abordado en este trabajo es la brecha entre las evaluaciones solo de simulación y la ejecución de un agente híbrido cuántico-clásico en una Unidad de Procesamiento Cuántico (QPU) superconductora física bajo restricciones de tiempo real.

Metodología
Los autores presentan una investigación integral de extremo a extremo de un agente híbrido cuántico-clásico mínimo aplicado a la referencia CartPole.

Entorno y Codificación del Estado: La tarea consiste en estabilizar un péndulo invertido sobre un carrito. El agente utiliza un vector de características reducido de tres dimensiones (velocidad del carrito, ángulo del péndulo, velocidad angular del péndulo) en lugar del estado completo de cuatro dimensiones, motivado por las restricciones de una arquitectura de un solo qubit.
Arquitectura del Agente:
- Modelo Híbrido: El agente emplea un circuito cuántico variacional (VQC) de un solo qubit conectado a capas clásicas totalmente conectadas. El VQC utiliza una puerta Hadamard seguida de una secuencia de tres rotaciones ( $R_z-R_y-R_z$ ) para codificar el estado en la esfera de Bloch, y una rotación $R_x$ entrenable. El valor esperado de una medición de Pauli-Z se introduce en redes clásicas de actor y crítico (cada una con 32 neuronas ocultas).
- Línea Base Clásica: Una red actor-crítico totalmente clásica con estructuras de capas ocultas idénticas (128 y 256 unidades) sirve como línea base.
- Entrenamiento: Ambos modelos utilizan el método Actor-Crítico con Gradientes de Política. El agente híbrido se entrena utilizando la regla de desplazamiento de parámetros para la estimación de gradientes en backends basados en disparos, así como gradientes analíticos para comparación.
Categorías Experimentales:
1. Referencia Sin Ruido: Comparación de las tasas de convergencia entre agentes clásicos e híbridos utilizando Qiskit BasicSimulator.
2. Compatibilidad Entrenamiento-Inferencia: Un estudio sistemático que mapea la compensación entre la tasa del bucle de control (frecuencia de inferencia) y el presupuesto de disparos de medición. Los agentes entrenados a diversas frecuencias (20–100 Hz) se evaluaron en diferentes frecuencias de inferencia y conteos de disparos (128–1024) en un backend que emula ruido (FakeAdonis).
3. Ejecución de Hardware de Baja Latencia: Despliegue de una política entrenada en el VTT Q5 (una QPU superconductora de 5 qubits). Crucialmente, los autores eludieron la pila de software estándar de alto nivel Qiskit/IQM. En su lugar, programaron directamente la electrónica de lectura de Zurich Instruments (HDAWG y UHFQA) mediante tablas de comandos (CT), eliminando la sobrecarga de la recompilación de código y la carga de formas de onda para cada cambio de parámetro.

Contribuciones Clave

Eficiencia de Muestras de Agentes Híbridos Mínimos: El estudio demuestra que un agente híbrido de un solo qubit puede resolver el entorno CartPole en sustancialmente menos episodios (aprox. 162 episodios) que una red actor-crítico clásica comparable (aprox. 429 episodios), incluso cuando se entrena utilizando la regla de desplazamiento de parámetros con evaluaciones de disparos finitos.
Análisis de Compensación en Tiempo de Inferencia: Los autores proporcionan matrices de rendimiento que cuantifican la relación entre la frecuencia de control de inferencia y el conteo de disparos. Los resultados indican que frecuencias de inferencia más altas mejoran consistentemente la estabilidad del equilibrio. Además, aumentar el presupuesto de disparos reduce la frecuencia de inferencia mínima requerida para lograr un equilibrio casi máximo, destacando la necesidad de encontrar un punto medio óptimo entre estas dos restricciones.
Reducción de Latencia mediante Control de Bajo Nivel: Al eludir la pila de software estándar y utilizar la programación directa de tablas de comandos en la electrónica de control, los autores lograron una mejora de un orden de magnitud en la velocidad de ejecución. En el procesador VTT Q5, la tasa de iteración aumentó de ~0.14 Hz (pila estándar) a más de 6.2 Hz (ruta de bajo nivel) para 128 disparos, representando una aceleración de más de 40x.

Resultados

Dinámica de Aprendizaje: En simulaciones sin ruido, el agente híbrido convergió significativamente más rápido que la línea base clásica. El uso de gradientes de desplazamiento de parámetros resultó en una convergencia ligeramente más lenta que los gradientes analíticos, pero mantuvo una ventaja clara sobre el modelo clásico.
Restricciones de Despliegue: El estudio de compatibilidad reveló que las restricciones en tiempo de inferencia (frecuencia y conteo de disparos) son los determinantes principales de la estabilidad, en lugar de la frecuencia de entrenamiento. Una discrepancia entre las frecuencias de entrenamiento e inferencia tuvo un efecto secundario en comparación con el conteo de disparos y la frecuencia de inferencia.
Rendimiento del Hardware: En el VTT Q5, la ruta de ejecución de bajo nivel permitió tasas de iteración de 6.23 Hz (128 disparos) hasta 2.71 Hz (1024 disparos). Si bien las puntuaciones absolutas de episodios en hardware fueron conservadoras debido a la falta de mitigación de errores de lectura y condiciones de inferencia no ideales, el sistema demostró con éxito el control en bucle cerrado. Los resultados mostraron que con un presupuesto de disparos suficiente (por ejemplo, 1024 disparos), el sistema podía lograr puntuaciones de equilibrio casi perfectas (500) a pesar del ruido del hardware.

Significado y Afirmaciones
El artículo afirma proporcionar un paso fundamental hacia la consecución de retroalimentación de control en bucle cerrado en tiempo real en hardware cuántico. No afirma una aceleración cuántica teórica en el sentido de la teoría de la complejidad, dada la naturaleza de baja dimensión de CartPole. En cambio, el significado radica en:

Cuantificación de Límites: El trabajo cuantifica los límites actuales del control asistido por cuántica, específicamente las compensaciones entre el conteo de disparos, la frecuencia de control y la latencia.
Hoja de Ruta Práctica: Delinea un camino práctico para demostraciones en tiempo real al demostrar que es necesario eludir las pilas de software estándar para alcanzar el rendimiento de decenas de hercios requerido para la retroalimentación en tiempo real.
Viabilidad de Modelos Mínimos: Valida que los modelos mínimos de un solo qubit pueden actuar como agentes de aprendizaje efectivos en bucles de RL cuando se combinan con una codificación apropiada y un posprocesamiento clásico ligero, incluso bajo restricciones de ruido realista y disparos finitos.

Los autores concluyen que, si bien las tasas actuales de iteración de hardware NISQ (varios hercios) aún no han alcanzado completamente el régimen de decenas de hercios requerido para un control en tiempo real robusto, la tubería de baja latencia demostrada proporciona un inicio viable para lograr dicho rendimiento en iteraciones futuras.

1. El "Cerebro Pequeño" vs. El "Cerebro Grande"

2. El Problema del "Bache" (Entrenamiento vs. Conducción)

3. El "Embotellamiento" vs. La "Autopista" (Latencia)

La Conclusión

Resumen Técnico: Hacia el Control en Tiempo Real de un Sistema CartPole en una Computadora Cuántica

Más como este