HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Dit onderzoek introduceert HarvestFlex, het eerste systeem dat vision-language-action (VLA)-policies succesvol toepast voor het oogsten van aardbeien in een ongestructureerde kasomgeving met slechts vier uur tele-geopereerde demonstratiegegevens, waarbij een aangepaste pi_0.5-politiek een slagingspercentage van 74,0% bereikte.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

HarvestFlex: De Slimme Aardbeienplukker die Leren via Kijken en Doen

Stel je voor dat je een robot wilt bouwen die aardbeien plukt in een kas. Dat klinkt simpel, maar in de praktijk is het een nachtmerrie voor een computer. Aardbeien zijn kwetsbaar (ze worden snel blauw), ze zitten vaak verstopt tussen bladeren, en het licht in een kas kan flitsen en spiegelen als een discotheek.

De onderzoekers van dit papier hebben een oplossing bedacht die ze HarvestFlex noemen. In plaats van de robot te programmeren met duizenden regels over "hoe je een aardbei vastpakt", hebben ze de robot laten leren door te kijken en te doen, net zoals een mens dat doet.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. De Robot als een Nieuwe Leerling

Stel je voor dat je een nieuwe stagiair hebt die nog nooit aardbeien heeft geplukt. Je kunt hem niet alleen een handleiding geven; je moet hem laten zien hoe het gaat.

  • De Oefening: De onderzoekers hebben een mens in een VR-bril (virtuele realiteit) laten zitten. Deze persoon zag de kas alsof hij er zelf was en gebruikte een controller om de robotarm te besturen.
  • Het Resultaat: Ze hebben zo'n 3,7 uur aan beelden en bewegingen opgenomen. De robot heeft deze "herinneringen" geleerd. Het is alsof je de robot een video hebt gegeven van iemand die perfect plukt, en de robot heeft gekeken: "Oké, zo doe ik het."

2. De Drie Ogen van de Robot

Een gewone camera is niet genoeg. Als je een aardbei vastpakt, blokkeren je eigen handen vaak het zicht. Daarom heeft HarvestFlex drie camera's:

  • Twee vaste camera's: Dit zijn als de ogen van de tuinman die over het veld kijken. Ze zien waar de rijpe aardbeien zitten en waar de obstakels zijn.
  • Een pols-camera: Dit is als een bril die de robot op zijn "hand" draagt. Zodra hij dichtbij komt, ziet hij precies hoe de aardbei eruitziet, zelfs als hij tussen de bladeren zit.

Belangrijk: De robot gebruikt geen ingewikkelde 3D-kaarten of dieptemetingen. Hij vertrouwt puur op de kleuren en beelden, net zoals wij dat doen.

3. De "Grote Brein" (VLA)

De robot gebruikt een heel slim systeem dat ze een VLA noemen (Vision-Language-Action).

  • Stel je dit voor: Een super-intelligente assistent die niet alleen naar de foto's kijkt, maar ook begrijpt wat je zegt.
  • De opdracht: De mens zegt: "Pluk alle rijpe aardbeien."
  • Het denken: De robot kijkt naar de beelden, denkt na over wat "rijp" betekent, en bedenkt direct: "Oké, ik ga naar links, pak die ene vast, en leg hem in de bak." Hij hoeft niet eerst een aparte software te draaien om de aardbei te vinden en dan een andere om te bewegen. Alles gebeurt in één brein.

4. De Grote Uitdaging: De "Glijdende" Beweging

Het moeilijkste deel is het losmaken van de aardbei. Als je te hard trekt, breekt hij. Als je te zacht bent, blijft hij zitten.

  • Het probleem: Als de robot te lang moet wachten om na te denken (verwerkingstijd), kan hij trillen of de aardbei missen.
  • De oplossing: De onderzoekers hebben een slimme truc bedacht. Ze hebben het "denken" (de robot die naar de beelden kijkt) gescheiden van het "doen" (de robot die beweegt).
    • Vergelijk het met een orkest: De dirigent (het denken) speelt een stukje muziek vooruit, en de muzikanten (de beweging) spelen het direct af. Zo haperen ze niet als de dirigent even moet nadenken. Dit maakte de robot veel stabieler.

5. Wat was het resultaat?

Na slechts een paar uur "leren" (wat voor een mens een paar dagen zou zijn om te trainen), kon de robot:

  • 74% van de aardbeien succesvol plukken en in de bak leggen.
  • Slechts 4% van de aardbeien beschadigen (ze werden niet blauw).
  • Het kostte ongeveer 33 seconden per aardbei.

Vergelijking:
Een traditionele robot (die met losse onderdelen werkt: eerst zoeken, dan plannen, dan bewegen) is sneller (8 seconden per aardbei), maar hij geeft vaak op als er een blad voor de aardbei zit. De nieuwe robot is trager, maar hij is slimmer: hij probeert het gewoon opnieuw als hij faalt, in plaats van te stoppen.

Conclusie: Waarom is dit cool?

Vroeger moest je een team van ingenieurs hebben om een robot te bouwen die aardbeien plukt. Je moest alles handmatig programmeren.
Met deze nieuwe methode kun je met één persoon en een paar uur aan video's een robot trainen die in de echte wereld werkt. Het is alsof je een robot niet bouwt, maar hem opvoedt door hem te laten kijken hoe het moet.

Het is nog niet perfect (soms ziet hij de aardbei niet door de bladeren), maar het is een enorme stap in de richting van robots die echt kunnen helpen in de landbouw, zonder dat we duizenden euro's hoeven uit te geven aan ingewikkelde software.