NaviMaster: Learning a Unified Policy for GUI and Embodied Navigation Tasks

NaviMaster introduceert als eerste unificerende agent die GUI-navigatie en embodied navigation binnen één raamwerk combineert door een gemeenschappelijke MDP-formulering, een verenigde versterkingsleerstrategie en een afstandsgevoelige beloning te gebruiken, wat resulteert in superieure prestaties op diverse benchmarks.

Zhihao Luo, Wentao Yan, Jingyu Gong, Min Wang, Zhizhong Zhang, Xuhong Wang, Yuan Xie, Xin Tan

Gepubliceerd 2026-03-26
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

NaviMaster: De Alles-kunnen-Navigatie-robot

Stel je voor dat je twee verschillende soorten robots hebt. De ene is een digitale bestuursknop (een "GUI-agent") die je helpt om op je telefoon of computer apps te openen, te klikken en te typen. De andere is een fysieke robot (een "embodied agent") die door een echt huis of een virtueel gebouw loopt om voorwerpen te vinden.

Tot nu toe waren dit twee totaal verschillende robots. Ze leerden van elkaar gescheiden, hadden verschillende hersenen en konden niet met elkaar praten. Dat was inefficiënt en duur.

NaviMaster is de nieuwe, slimme oplossing: het is de eerste "super-robot" die beide taken in één brein heeft. Het is alsof je een robot maakt die zowel je telefoon kan bedienen als door je huis kan lopen, zonder dat je twee aparte systemen nodig hebt.

Hier is hoe het werkt, vertaald in simpele taal met een paar creatieve vergelijkingen:

1. Het Grote Idee: Alles is een "Doel op een Doel"

De onderzoekers hebben ontdekt dat het voor een robot eigenlijk niet uitmaakt of hij op een scherm klikt of door een kamer loopt. In beide gevallen kijkt hij naar iets (een foto van een scherm of een foto van een kamer) en moet hij beslissen: "Waar moet ik nu naartoe?"

Ze hebben een nieuwe manier bedacht om dit te leren, noem het de "Visuele Doel-Route".

  • De Vergelijking: Stel je voor dat je een schatkaart tekent.
    • Bij een telefoon: Je kijkt naar het scherm en zegt: "Ik moet klikken op dat knopje daar."
    • Bij een robot in een kamer: In plaats van alleen te zeggen "loop vooruit", zegt de robot: "Ik moet lopen naar dat punt daar in de kamer."
  • Door dit te doen, kunnen ze de instructies voor een telefoon en voor een robot op precies dezelfde manier schrijven. Het is alsof je twee verschillende talen (Nederlands en Frans) vertaalt naar één universele taal (Morse), zodat de robot alles in één keer kan leren.

2. De Leermethode: De "Dense Reward" (De Gouden Sterren)

Vroeger leerden robots door te proberen en te falen. Als ze het goed deden, kregen ze een beloning (een sterretje). Als ze het fout deden, kregen ze niets.

  • Het Oude Probleem: Stel je voor dat je een robot leert om een knop te vinden. Als hij 1 centimeter naast de knop klikt, krijgt hij geen sterretje. Voor de robot is dat alsof hij helemaal niets heeft gedaan. Hij leert niet waarom hij net iets naast zat.
  • De Nieuwe Oplossing (NaviMaster): NaviMaster gebruikt een "Afstands-bewuste beloning".
    • De Vergelijking: Het is alsof je een kind leert schieten met een boog.
      • Oude manier: Als je raak schiet, krijg je een gouden medaille. Als je 1 cm naast zit, krijg je niets.
      • NaviMaster manier: Als je 1 cm naast zit, krijg je een zilveren medaille. Als je 5 cm naast zit, krijg je een bronzen medaille.
    • Hierdoor leert de robot veel sneller en slimmer. Hij begrijpt dat "bijna goed" beter is dan "helemaal fout", en hij kan zich langzaam verbeteren.

3. Het Resultaat: Een Robot die Alles Snapt

Omdat NaviMaster zowel op telefoons als in ruimtes is getraind, wordt hij een echte meesterspeler.

  • Generalisatie: Als je NaviMaster iets leert in een virtueel huis, kan hij dat principe toepassen op een nieuwe app die hij nog nooit heeft gezien. Hij begrijpt het concept van "ruimte" en "doelen", niet alleen de specifieke knoppen.
  • Efficiëntie: In plaats van twee robots te bouwen en te trainen, bouw je er één. Dat bespaart tijd, energie en rekenkracht.

Samenvattend

NaviMaster is als een multitaskende meesterkok.

  • Vroeger had je een kok die alleen sushi kon maken (GUI) en een kok die alleen pizza kon maken (Embodied). Ze werkten in aparte keukens.
  • NaviMaster is de kok die in één keuken staat, met één set messen, en zowel perfecte sushi als pizza kan maken. Hij gebruikt een slimme methode (de afstands-bewuste beloning) om te leren dat "net iets naast het doel" nog steeds een goede poging is, waardoor hij veel sneller de perfecte meesterkok wordt.

Dit onderzoek laat zien dat als we robots leren om naar de wereld te kijken als één groot, samenhangend plaatje (waar "klikken" en "lopen" eigenlijk hetzelfde zijn), we veel slimmere en flexibeler robots kunnen bouwen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →