PEPA: a Persistently Autonomous Embodied Agent with Personalities

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die niet alleen een lijstje met taken afvinkt, maar eigenlijk leeft. Een robot die niet wacht tot je zegt "ga nu naar de keuken", maar zelf bedenkt: "Ik ben een beetje moe, ik ga even rusten," of "Ik ben nieuwsgierig, ik ga die nieuwe kamer verkennen."

Dat is precies wat de onderzoekers in dit papier hebben bedacht met PEPA. Laten we het uitleggen alsof we het over een levend wezen hebben, in plaats van over complexe code.

1. Het Probleem: Robots die als poppenkastfiguren werken

Tot nu toe gedragen robots zich als poppenkastfiguren. Ze doen alleen wat ze van tevoren hebben geleerd. Als je ze niet vertelt wat ze moeten doen, staan ze stil of doen ze iets willekeurigs. Ze hebben geen "wil" van binnen.

In de echte wereld is dat een probleem. Stel je een robot voor die een bejaardenzorg moet verzorgen of een planeet moet verkennen. Je kunt niet 24/7 bij hem in de buurt staan om te zeggen wat hij moet doen. Hij moet zelf kunnen beslissen: Wanneer moet ik eten (opladen)? Wanneer moet ik voorzichtig zijn? Wanneer moet ik iets nieuws proberen?

2. De Oplossing: Geef de robot een "Persoonlijkheid"

De onderzoekers zeggen: "Wat als we robots een persoonlijkheid geven, net als mensen?"

Stel je voor dat persoonlijkheid de DNA is van een robot.

Een avontuurlijke robot (zoals een hond die alles wil snuffelen) zal altijd nieuwe plekken opzoeken, zelfs als het een beetje riskant is.
Een voorzichtige robot (zoals een ouderwetse oma) zal liever op zijn plaats blijven en alleen bewegen als het 100% veilig is.
Een luie robot zal alles doen om energie te besparen en zo min mogelijk bewegen.

In plaats van dat de robot een vaste opdracht krijgt ("Ga naar kamer 3"), bepaalt zijn persoonlijkheid wat hij wil doen. De "wil" komt dus van binnen, niet van buitenaf.

3. Hoe werkt het? (De Drie Hersenen)

De robot heeft een slimme hersenstructuur met drie lagen, die samenwerken als een goed georganiseerd gezin:

Sys3 (De Dromer / De Chef): Dit is het deel dat de persoonlijkheid beheert. Het kijkt naar de herinneringen van de robot ("Gisteren viel ik bijna van de trap") en denkt na: "Vandaag moet ik voorzichtig zijn." Het bedenkt doelen voor de dag, zoals "Ik ga vandaag de zolder verkennen" of "Ik ga nu even rusten omdat mijn batterij laag is."
Sys2 (De Planner / De Strategist): Dit deel luistert naar de Dromer en bedenkt hoe hij die doelen bereikt. "Oké, ik moet de zolder op. Hoe kom ik daar? Via de lift of de trap? Welke route is het veiligst?" Het gebruikt slimme berekeningen om de beste route te kiezen.
Sys1 (De Lijf / De Uitvoerder): Dit is het fysieke deel: de wielen, de armen en de camera's. Het voert de bewegingen uit en kijkt wat er gebeurt. "Oeps, de trap is glad," of "Ik heb de knop van de lift gedrukt."

Het magische deel: Na elke dag kijkt de Dromer (Sys3) terug naar wat de Lijf (Sys1) heeft gedaan. Als de robot bijna zijn batterij leeg liep, denkt de Dromer: "Volgende keer moet ik eerder stoppen." Zo leert de robot van zijn eigen ervaringen en wordt hij elke dag een beetje slimmer en beter in zijn rol, zonder dat iemand hem opnieuw hoeft te programmeren.

4. Het Experiment: De Robot in het Kantoorgebouw

De onderzoekers hebben dit getest met een vierpotige robot (een robot-hond) in een echt kantoorgebouw met meerdere verdiepingen.

De Uitdaging: De robot moest zelfstandig liften nemen, trappen oplopen en beslissen wanneer hij moest stoppen om op te laden.
Het Resultaat:
- De avontuurlijke robot liep overal rond, verkende elke hoek en deed veel nieuwe dingen.
- De voorzichtige robot bleef dicht bij de startplek en deed alleen wat hij zeker wist.
- De luie robot deed zo weinig mogelijk bewegingen om energie te sparen.

Bijzonder was dat de robot na een paar dagen "leren" veel beter werd. Op dag 1 vielen ze bijna allemaal uit door een lege batterij. Maar op dag 3, na hun eigen ervaringen te hebben verwerkt, wisten ze allemaal hun batterij te behouden en hun dag te overleven. Ze hadden zichzelf aangepast!

Samenvatting in één zin

PEPA is een robot die niet wacht op commando's, maar een eigen karakter heeft; hij droomt zijn eigen doelen, leert van zijn fouten en past zich aan, net als een levend wezen dat in de wereld probeert te overleven en te gedijen.

Het is alsof je een robot niet bouwt als een machine, maar opvoedt als een huisdier met een eigen karakter.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Huidige ingebouwde agenten (embodied agents) zijn afhankelijk van extern opgestelde doelen en scripts. Dit beperkt hun vermogen tot langdurige, autonome inzet in dynamische, ongestructureerde omgevingen waar continue menselijke tussenkomst onpraktisch is. Bestaande systemen missen een intrinsiek organisatorisch principe om doelen zelfstandig te genereren en gedrag te evolueren zonder externe supervisie. De kernvraag is: hoe kan een agent coherent, zelfgestuurd gedrag behouden over lange perioden zonder vaste taakspecificaties, terwijl het zich aanpast aan nieuwe ervaringen en fysieke beperkingen (zoals energie en veiligheid)?

Methodologie: PEPA Architectuur

De auteurs stellen PEPA (Persistently Autonomous Embodied Agent with Personalities) voor. Dit is een drie-laags cognitieve architectuur die persoonlijkheid gebruikt als een intrinsiek principe voor doelgeneratie. Het systeem werkt via een gesloten lus van doelgeneratie, uitvoering, geheugenconsolidatie en reflectie.

De architectuur bestaat uit drie interactieve systemen:

Sys3 (Persoonlijkheid en Doelgeneratie):
- Functie: Dit is het "motivationele centrum". Het synthetiseert gebruikersgedefinieerde persoonlijkheidstrekken (gebaseerd op het Big Five-model: Openheid, Gewetensvolheid, Extraversie, Vriendelijkheid, Neuroticisme), zelfmodellerende interne staten (bijv. batterijniveau) en historische herinneringen.
- Output: Het genereert hiërarchische doelen (ultieme doelen en dagelijkse doelen) en intrinsieke beloningsfuncties.
- Mechanisme: Aan het einde van elke dag voert Sys3 reflectie uit op episodische herinneringen om de dagelijkse doelen en beloningen aan te passen, waardoor het agent leert zonder hertraining.
Sys2 (Beslissing en Redenering):
- Functie: Het cognitieve en planningskern. Het combineert de intrinsieke beloning van Sys3 met extrinsieke omgevingsfeedback om acties te selecteren die de totale verwachte nuttigheid maximaliseren.
- Implementatie: Tijdens training wordt een LLM-gebaseerde Monte Carlo Tree Search (MCTS) gebruikt om hoge kwaliteit beslissingen te genereren. Voor real-time inzet wordt een lichtgewicht, gedistilleerd BERT-model gebruikt om latentieproblemen van LLM's te omzeilen.
Sys1 (Perceptie, Uitvoering en Geheugenregistratie):
- Functie: De fysieke interface die beslissingen verankert in de realiteit.
- Taken: Het verzamelt multimodale sensordata (LiDAR, RGB-D camera, proprioceptie), voert acties uit (locomotie, manipulatie, expressie) en monitort systeemstaten.
- Geheugen: Het registreert gestructureerde episodische herinneringen (actiecommando's, staten voor/na, uitkomst, resource-verbruik) in een hiërarchisch tijdsbestek. Deze herinneringen worden teruggevoerd naar Sys3 voor reflectie.

Formele Formulering:
Het probleem wordt gemodelleerd als een Gedeeltelijk Waarneembare Markov Beslissingsproces (POMDP) met een samengestelde beloningsfunctie:
$R_{total} = R_{intrinsic} + R_{extrinsic}$
Waarbij $R_{intrinsic}$ dynamisch wordt gegenereerd op basis van persoonlijkheid en geheugen, en $R_{extrinsic}$ gebaseerd is op taakgerelateerde feedback. Het systeem streeft naar "Open-Ended Evolution" (OEE), waarbij de gedragsbaan nooit binnen een eindige horizon herhaalt.

Belangrijkste Bijdragen

Eerste Realisatie van Persistente Autonomie: Dit is het eerste werk dat een fysieke agent realiseert met persoonlijkheid die in staat is tot zelf-evolutie onder echte fysieke beperkingen, geleid door intrinsieke doelen in plaats van externe scripts.
Cognitieve Architectuur met Gesloten Lus: Een concrete implementatie met een novel mechanisme voor zelf-evolutie, waarbij ervaringen worden opgeslagen als episodisch geheugen, onderworpen aan persoonlijkheidsconditie reflectie, en geoptimaliseerd via planning.
Validatie in de Wereld: De framework is getest op een vierpotige robot (quadruped) in een kantoorgebouw met meerdere verdiepingen, inclusief complexe taken zoals het nemen van liften en trappen. De code en demo's zijn openbaar gemaakt.

Resultaten

De auteurs hebben het systeem getest op een Unitree Go2-W robot met een Piper-arm in een realistische omgeving.

Fysieke Uitdagingen: Het systeem slaagde erin liften te nemen en trappen te beklimmen/dalen. Voor trappenhelling werd een nieuwe "height-aligned costmap" ontwikkeld die 100% succes boekte in vergelijking met 0% succes voor bestaande methoden met vaste hoogtesneden.
Persoonlijkheidsgedrag: Vijf verschillende persoonlijkheidsprototypen (Lazy, Playful, Cautious, Working, Curious) vertoonden stabiele en onderscheidbare gedragspatronen:
- Lazy: Prioriteerde rust en energiebesparing.
- Playful: Maximaliseerde verkenning maar paste zich aan bij lage batterij.
- Cautious: Vermijdde risico's en verkenning volledig.
Zelf-Evolutie en Veiligheid:
- Op Dag 1 faalden alle agenten door batterijuitputting.
- Door dagelijkse reflectie en aanpassing van doelen (bijv. het verlagen van de verkenningstheresold bij lage batterij), slaagden alle agenten op Dag 3 erin om 24 uur te overleven met een resterende batterij van 72% tot 100%.
- De agenten leerden hun gedrag aan te passen aan hun persoonlijkheid terwijl ze tegelijkertijd veiligheidsbeperkingen respecteerden.

Betekenis

Het paper toont aan dat persoonlijkheidstrekken kunnen dienen als een robuust, intrinsiek organisatorisch principe voor langdurige autonomie in robots. In plaats van robots te programmeren met vaste regels voor elke situatie, biedt PEPA een kader waarin robots hun eigen doelen genereren en gedrag evolueren op basis van hun "karakter". Dit is een cruciale stap naar robots die echt autonoom kunnen opereren in complexe, open-ended omgevingen (zoals zorg of ruimtexploratie) zonder constante menselijke supervisie, waarbij ze zowel doelgericht als veilig blijven.

PEPA: a Persistently Autonomous Embodied Agent with Personalities

1. Het Probleem: Robots die als poppenkastfiguren werken

2. De Oplossing: Geef de robot een "Persoonlijkheid"

3. Hoe werkt het? (De Drie Hersenen)

4. Het Experiment: De Robot in het Kantoorgebouw

Samenvatting in één zin

Probleemstelling

Methodologie: PEPA Architectuur

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers