Dynamic Deep-Reinforcement-Learning Algorithm in Partially Observable Markov Decision Processes

Este estudo apresenta três novas abordagens de aprendizado por reforço profundo em processos de decisão de Markov parcialmente observáveis, destacando a eficácia da inclusão de trajetórias de ação em redes LSTM e propondo o algoritmo H-TD3, que utiliza estados ocultos do ator para treinar o crítico, melhorando o tempo computacional sem comprometer o desempenho.

Saki Omi, Hyo-Sang Shin, Namhoon Cho, Antonios Tsourdos

Publicado 2026-03-04
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está dirigindo um carro em uma estrada de neblina densa. Você não consegue ver o que está à frente (o estado real do mundo), apenas vê o que o seu painel mostra, que pode estar com falhas, piscando ou mostrando informações erradas devido à neblina e a interferências. Além disso, você precisa lembrar o que fez nos últimos segundos para entender para onde o carro está indo.

Este artigo da Universidade Cranfield trata exatamente desse problema: como ensinar uma inteligência artificial (IA) a tomar decisões inteligentes quando ela não tem acesso a todas as informações e o mundo ao redor é caótico e imprevisível.

Aqui está uma explicação simples, usando analogias do dia a dia:

1. O Problema: O "Piloto Cego"

Na maioria dos testes de IA, o computador vê tudo perfeitamente (como um carro em um dia de sol). Mas no mundo real, os sensores falham, há ruído e coisas imprevisíveis acontecem. Isso é chamado de POMDP (Processo de Decisão de Markov Parcialmente Observável).

  • A analogia: É como tentar jogar xadrez olhando apenas para metade do tabuleiro e, às vezes, o adversário move as peças sem você ver.

2. A Solução Antiga: A Memória (RNN)

Para lidar com isso, os cientistas usam redes neurais que têm "memória" (chamadas RNN ou LSTM). Elas funcionam como um diário de bordo. O agente olha para o que viu no passado para tentar adivinhar o que está acontecendo agora.

  • O problema: A maioria desses "diários" só anotava o que o agente via (as observações), mas ignorava o que o agente fez (as ações).

3. A Grande Descoberta: A Importância de Anotar o que Você Fez

Os autores descobriram que, para entender o mundo, você precisa saber não apenas o que você viu, mas também o que você fez para chegar lá.

  • A analogia: Imagine que você está em um quarto escuro e bate na parede.
    • Se você só anotar "ouvi um barulho", não sabe se a parede é de madeira ou de gesso.
    • Se você anotar "bati com força (ação) e ouvi um barulho seco (observação)", você aprende que a parede é de madeira.
    • Conclusão do estudo: Incluir a história das ações (o que o agente fez) junto com as observações (o que ele viu) torna a IA muito mais robusta e inteligente, especialmente quando há "ruído" ou interferências.

4. As Novas Arquiteturas: Como Organizar o Diário

O artigo propõe três novas formas de organizar esse "diário de bordo" para que a IA aprenda melhor:

  • Abordagem 1 e 2 (LSTM-TD3 modificada): Em vez de ter duas entradas separadas (uma para o passado e outra para o presente), eles sugerem tratar tudo como uma única história contínua. É como ler um livro do início ao fim, em vez de tentar ler o último capítulo e depois voltar para ler o primeiro. Isso ajuda a IA a entender a causalidade (causa e efeito) de forma mais natural.

  • Abordagem 3 (H-TD3): O "Gênio da Economia"
    Esta é a parte mais criativa. Treinar duas IAs (uma que decide o que fazer e outra que avalia se foi bom) para lerem o mesmo diário é caro e demora (computacionalmente).

    • A solução H-TD3: Imagine que o "Agente Decisor" (o piloto) lê o diário e escreve um resumo no final. Em vez de o "Avaliador" (o chefe) ter que ler o diário inteiro do zero, ele apenas pega o resumo que o piloto já fez e usa isso para avaliar.
    • O benefício: Isso economiza muito tempo de processamento (computação) sem perder a qualidade da decisão. É como o piloto já ter feito o trabalho pesado de resumir a viagem para o chefe.

5. Os Resultados: Testando na Prática

Os pesquisadores testaram tudo isso em uma simulação de um pêndulo (um braço robótico tentando ficar em pé). Eles jogaram vários tipos de "sujeira" nos dados:

  • Ruído aleatório: Como estática no rádio.
  • Ondas periódicas: Como uma interferência que vai e volta.
  • Esconder informações: Como tirar um dos sensores do painel.

O que aconteceu?

  1. As IAs que liam tanto o que viram quanto o que fizeram (ações) aprenderam muito mais rápido e se saíram melhor do que as que só liam o que viram.
  2. Quanto mais longo o "diário" (história), melhor a IA lidava com interferências complexas.
  3. O algoritmo H-TD3 foi o campeão de eficiência: aprendeu quase tão bem quanto os outros, mas gastou muito menos tempo de processador, pois usou o "resumo" do piloto para o chefe.

Resumo Final

Este artigo nos ensina que, para criar IAs que funcionem no mundo real (cheio de imprevistos e falhas de sensor), não basta olhar para o presente. É preciso lembrar do passado e, crucialmente, lembrar das ações que tomamos. Além disso, eles criaram uma maneira inteligente de fazer duas IAs trabalharem juntas sem desperdiçar tempo de computador, compartilhando o "resumo" da experiência.

É como ensinar um piloto a voar em tempestade: ele precisa lembrar de cada manobra que fez e de como o avião reagiu, e o instrutor não precisa reler todo o diário de bordo, basta confiar no resumo inteligente que o piloto já fez.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →