TADPO: Reinforcement Learning Goes Off-road

Dit paper introduceert TADPO, een nieuwe versterkingsleerbenadering die PPO uitbreidt met off-policy trajecten voor begeleiding en on-policy trajecten voor exploratie, waarmee voor het eerst een op visie gebaseerd RL-systeem succesvol is ingezet voor hoogwaardig off-road rijden op een volledig schaalvoertuig via zero-shot sim-naar-real-overdracht.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een auto bestuurt die nog nooit eerder een weg heeft gezien. Geen asfalt, geen verkeersborden, geen GPS-kaartjes. Alleen maar zand, modder, steile hellingen en rotsen. Dit is de wereld van "off-road" rijden. Voor een mens is dit al lastig, maar voor een computer is het een nachtmerrie.

De onderzoekers van deze paper (TADPO) hebben een slimme oplossing bedacht om een robotauto dit te laten leren. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: De "Gokke" en de "Lange Reis"

Normale zelfrijdende auto's op de snelweg zijn als een speler die een spelletje speelt met een perfecte handleiding. Maar in het bos of de woestijn is er geen handleiding.

  • Het is een lange reis: De auto moet kilometers vooruit plannen, niet alleen de volgende seconde.
  • De beloning is vaag: Als de auto 100 meter rijdt zonder te crashen, is dat goed. Maar waarom was het goed? Welke stuurknopdruk was precies goed? Dat is moeilijk te zeggen voor een computer.
  • Gokken is duur: Als een computer zomaar alles probeert (zoals een peuter die alles aanraakt), crasht hij constant. In de echte wereld is dat duur en gevaarlijk.

2. De Oplossing: De "Meester" en de "Leerling"

De onderzoekers hebben een nieuw systeem bedacht dat ze TADPO noemen. Je kunt het zien als een school voor auto's, maar dan met een heel slimme methode.

Stel je voor dat je een Leerling hebt (de auto die we willen trainen) en een Meester (een slimme computer die al weet hoe het moet, maar die we niet direct in de echte auto willen zetten).

  • De Meester (De Expert): Deze Meester heeft een "superkracht". Hij kan zien wat er onder de grond zit en weet precies hoe de auto zich moet gedragen. Hij rijdt rond in een simpele computerwereld (een simulator) en maakt een perfecte route. Hij is als een ervaren bergbeklimmer die de weg kent.
  • De Leerling (De Student): Deze auto heeft geen superkrachten. Hij ziet alleen wat een gewone camera ziet (net als wij). Hij moet leren van de Meester, maar hij mag ook zelf experimenteren.

3. De Slimme Truc: Hoe ze samenwerken

Normaal gesproken zou de Leerling alleen van de Meester kopiëren (nabootsen) of alleen maar zelf proberen (gokken). TADPO doet beide tegelijk, maar op een slimme manier:

  • Het "Kijk-en-Leren" Moment: Als de Meester een perfecte bocht neemt, kijkt de Leerling toe en zegt: "Oh, zo moet ik dat doen!" De Leerling leert van de ervaringen van de Meester.
  • Het "Zelf-Proberen" Moment: Maar de Leerling is niet alleen een kopie. Soms zegt hij: "Ik ga het zelf proberen!" Hij rijdt dan zelf door het terrein.
  • De Gouden Regel: Als de Leerling iets doet wat beter is dan wat de Meester zou doen, mag hij dat onthouden. Als hij iets doet wat slechter is, wordt hij gecorrigeerd door de Meester.

Dit is als een skateboarder die een pro-rijder observeert. De pro rijdt over een muur (de Meester). De leerling kijkt toe, probeert het na te doen, en als hij valt, kijkt hij naar de pro om te zien wat hij verkeerd deed. Maar als de leerling een nieuwe, coole truc bedenkt die de pro niet kent, leert de pro misschien ook van de leerling (in dit geval helpt de leerling de Meester om de leerling te verbeteren).

4. Het Resultaat: Van Computer naar Echt Leven

Het meest verbazingwekkende deel van dit onderzoek is wat ze daarna deden.

  1. Ze trainden de auto alleen maar in de computer (in de simulator).
  2. Ze namen die exacte "hersenen" van de auto en zetten ze in een echte, grote terreinwagen (een Sabercat van 2 ton).
  3. Ze reden de auto de echte wereld in, zonder de auto nog maar één keer aan te passen of te "fijntunen".

Het resultaat? De auto kon:

  • Over steile hellingen rijden zonder om te vallen.
  • Snel door modder en stenen rijden.
  • Obstakels (zoals vaten) ontwijken alsof hij daar altijd al gereden had.

Waarom is dit belangrijk?

Vroeger moest je een auto programmeren met duizenden regels: "Als je een steen ziet, draai dan links." Maar de wereld is te complex voor regels.
Met TADPO hebben ze een auto gemaakt die leert zoals een mens: door te kijken naar een expert en door zelf te proberen. En het beste? Het werkt direct in de echte wereld, zonder dat je eerst maandenlang in de modder moet rijden om het te leren.

Kortom: Ze hebben een auto getraind in een virtueel bos, en die auto rijdt nu als een pro in het echte bos, zonder ooit daar te zijn geweest. Dat is de kracht van TADPO.