Apple: Toward General Active Perception via Reinforcement Learning

Dit paper introduceert APPLE, een op versterkingslering gebaseerd framework dat een transformer-gebaseerde perceptiemodule en een beslissingsbeleid gezamenlijk traint om een algemeen en taakonafhankelijk systeem voor actieve waarneming in de robotica te realiseren.

Tim Schneider, Cristiana de Farias, Roberto Calandra, Liming Chen, Jan Peters

Gepubliceerd 2026-03-02
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🍎 Wat is APPLE? (De "Slimme Verkenners")

Stel je voor dat je in een donkere kamer staat en je moet een object vinden dat ergens op de grond ligt. Je kunt niets zien. Wat doe je? Je steekt je handen uit en begint te voelen. Je voelt een hoekje, dan een glad oppervlak, dan een kromme lijn. Naarmate je meer voelt, vormt je brein een beeld: "Ah, dit is een lepel!"

Dit noemen we actieve waarneming. Je bent niet passief (wachten tot het licht aangaat), maar je doet iets om informatie te verzamelen.

Het probleem is dat robots hier vaak slecht in zijn. De meeste robots zijn als een blinde die vasthoudt aan één vaste route: "Ik voel eerst links, dan rechts, dan midden." Als het object niet daar ligt, faalt de robot.

APPLE (Active Perception Policy Learning) is een nieuwe manier om robots te leren hoe ze slim moeten "snuffelen". Het is alsof we de robot niet alleen een kaart geven, maar hem leren uitvinden hoe hij het beste kan zoeken.

🧠 Hoe werkt het? (De Twee-in-één Robot)

In het verleden hadden robots vaak twee gescheiden hersenen:

  1. Eén hersen voor bewegen (waar moet ik mijn hand heen bewegen?).
  2. Eén hersen voor herkennen (wat voel ik?).

Deze werkten vaak niet goed samen. APPLE doet iets anders. Het gebruikt één groot, slim brein (een Transformer, hetzelfde type technologie dat ook in ChatGPT zit) dat twee dingen tegelijk doet:

  • De Verkenner: Beslist waar de sensor (bijvoorbeeld een tactiele vinger) naartoe moet.
  • De Gokker: Raadt op elk moment wat het object is, gebaseerd op wat hij tot nu toe heeft gevoeld.

De Metafoor van de Gokker:
Stel je voor dat je een spelletje doet waarbij je blindelings een object moet raden.

  • Bij elke stap mag je een stukje voelen.
  • Na elke aanraking moet je gokken: "Is het een bal of een kubus?"
  • Als je gok fout is, krijg je een "straf" (een negatieve score).
  • Als je gok goed is, krijg je een "beloning".

APPLE leert door te proberen. Het probeert verschillende bewegingen. Als een bepaalde beweging (bijvoorbeeld "draai een beetje naar links") leidt tot een betere gok, onthoudt de robot: "Ah, dat was een slimme zet!" Als een beweging leidt tot een slechte gok, leert het: "Dat was niet handig."

Zo leert de robot vanzelf de beste manier om te zoeken, zonder dat een mens hoeft te zeggen: "Ga eerst naar links."

🎮 De Proefpotten (De Testen)

De onderzoekers hebben APPLE getest op verschillende "speelborden" om te zien of het echt slim is:

  1. De "Cirkel of Vierkant" Test:
    De robot moet op een scherm een cirkel of vierkant vinden, maar kan maar een heel klein stukje tegelijk zien (alsof je door een koker kijkt).

    • Resultaat: De robot leerde snel om de kleurveranderingen op de achtergrond te volgen om het object te vinden, in plaats van willekeurig rond te snuffelen.
  2. De "Tactiele MNIST" Test (De 3D cijfers):
    Dit is als een 3D-versie van de bekende cijferherkennings-test. De robot moet met een vinger een 3D-cijfer (bijv. een '5') voelen en raden welk cijfer het is.

    • Resultaat: De robot leerde systematisch over het cijfer te strijken om de vorm te begrijpen. Het haalde bijna 90% nauwkeurigheid.
  3. De "Volume" Test:
    Nu moet de robot niet alleen raden wat het is, maar ook hoe groot het is.

    • Resultaat: Dit was lastiger, maar APPLE slaagde er toch in om een goede schatting te maken door de vorm goed te verkennen.
  4. De "Sleutel" Test (Toolbox):
    De robot moet een sleutel vinden in een rommelige doos en bepalen hoe hij ligt (draaiing en positie).

    • Resultaat: De robot leerde een slimme strategie: eerst een cirkelbeweging maken om de sleutel te vinden, en dan langs het handvat glijden om te voelen welke kant de opening op wijst.

🏆 Waarom is dit zo speciaal?

  1. Geen "Recept" nodig:
    Oude methoden waren als een receptboekje: "Als je een hoek voelt, ga dan naar rechts." APPLE heeft geen recept nodig. Het leert de "receptuur" zelf door te oefenen. Je kunt het op een nieuwe taak zetten (bijv. van een cirkel naar een sleutel) en het leert het nieuwe spel snel aan, zonder dat je de code hoeft aan te passen.

  2. Efficiënter dan de concurrent:
    De onderzoekers vergeleken het met een oude methode genaamd HAM. HAM was als een student die alleen uit zijn hoofd leert en daarna alles vergeet als hij een fout maakt. APPLE is als een student die een repetitieboek heeft. Hij kan oude fouten en succesvolle momenten opnieuw bekijken en eruit leren. Hierdoor leert APPLE veel sneller en met minder "oefentijd".

  3. Alles-in-één:
    Of je nu wilt weten wat iets is (classificatie) of hoe groot het is (regressie), APPLE gebruikt dezelfde basis. Het is een "algemene" oplossing, niet een "speciale" oplossing voor één ding.

🚀 Wat betekent dit voor de toekomst?

Voor nu is APPLE nog een beetje "hongerig" naar oefentijd (het moet veel oefenen in een simulatie voordat het goed is). Maar het laat zien dat robots in de toekomst veel beter kunnen omgaan met onzekerheid.

Stel je een robot voor die in een rommelige werkplaats werkt. Hij kan niet zien waar de schroevendraaiers liggen, maar hij kan ze voelen. Met APPLE kan zo'n robot zelf beslissen hoe hij zijn hand beweegt om de juiste schroevendraaier te vinden, zonder dat een programmeur voor elke mogelijke situatie een nieuwe instructie hoeft te schrijven.

Kortom: APPLE is de robot die leert dat "snuffelen" niet willekeurig is, maar een slimme strategie is om de wereld te begrijpen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →