Scalable Quantum Reinforcement Learning on NISQ Devices with Dynamic-Circuit Qubit Reuse and Grover Optimization
O artigo apresenta um framework escalável e eficiente de aprendizado por reforço quântico para dispositivos NISQ que elimina a barreira de escalabilidade linear de qubits em processos de decisão de Markov quânticos, utilizando circuitos dinâmicos com reutilização de qubits e otimização de Grover para reduzir a complexidade de qubits de O(T) para O(1) enquanto mantém a fidelidade das trajetórias.