NaviMaster: Learning a Unified Policy for GUI and Embodied Navigation Tasks

Each language version is independently generated for its own context, not a direct translation.

NaviMaster: De Alles-kunnen-Navigatie-robot

Stel je voor dat je twee verschillende soorten robots hebt. De ene is een digitale bestuursknop (een "GUI-agent") die je helpt om op je telefoon of computer apps te openen, te klikken en te typen. De andere is een fysieke robot (een "embodied agent") die door een echt huis of een virtueel gebouw loopt om voorwerpen te vinden.

Tot nu toe waren dit twee totaal verschillende robots. Ze leerden van elkaar gescheiden, hadden verschillende hersenen en konden niet met elkaar praten. Dat was inefficiënt en duur.

NaviMaster is de nieuwe, slimme oplossing: het is de eerste "super-robot" die beide taken in één brein heeft. Het is alsof je een robot maakt die zowel je telefoon kan bedienen als door je huis kan lopen, zonder dat je twee aparte systemen nodig hebt.

Hier is hoe het werkt, vertaald in simpele taal met een paar creatieve vergelijkingen:

1. Het Grote Idee: Alles is een "Doel op een Doel"

De onderzoekers hebben ontdekt dat het voor een robot eigenlijk niet uitmaakt of hij op een scherm klikt of door een kamer loopt. In beide gevallen kijkt hij naar iets (een foto van een scherm of een foto van een kamer) en moet hij beslissen: "Waar moet ik nu naartoe?"

Ze hebben een nieuwe manier bedacht om dit te leren, noem het de "Visuele Doel-Route".

De Vergelijking: Stel je voor dat je een schatkaart tekent.
- Bij een telefoon: Je kijkt naar het scherm en zegt: "Ik moet klikken op dat knopje daar."
- Bij een robot in een kamer: In plaats van alleen te zeggen "loop vooruit", zegt de robot: "Ik moet lopen naar dat punt daar in de kamer."
Door dit te doen, kunnen ze de instructies voor een telefoon en voor een robot op precies dezelfde manier schrijven. Het is alsof je twee verschillende talen (Nederlands en Frans) vertaalt naar één universele taal (Morse), zodat de robot alles in één keer kan leren.

2. De Leermethode: De "Dense Reward" (De Gouden Sterren)

Vroeger leerden robots door te proberen en te falen. Als ze het goed deden, kregen ze een beloning (een sterretje). Als ze het fout deden, kregen ze niets.

Het Oude Probleem: Stel je voor dat je een robot leert om een knop te vinden. Als hij 1 centimeter naast de knop klikt, krijgt hij geen sterretje. Voor de robot is dat alsof hij helemaal niets heeft gedaan. Hij leert niet waarom hij net iets naast zat.
De Nieuwe Oplossing (NaviMaster): NaviMaster gebruikt een "Afstands-bewuste beloning".
- De Vergelijking: Het is alsof je een kind leert schieten met een boog.
  - Oude manier: Als je raak schiet, krijg je een gouden medaille. Als je 1 cm naast zit, krijg je niets.
  - NaviMaster manier: Als je 1 cm naast zit, krijg je een zilveren medaille. Als je 5 cm naast zit, krijg je een bronzen medaille.
- Hierdoor leert de robot veel sneller en slimmer. Hij begrijpt dat "bijna goed" beter is dan "helemaal fout", en hij kan zich langzaam verbeteren.

3. Het Resultaat: Een Robot die Alles Snapt

Omdat NaviMaster zowel op telefoons als in ruimtes is getraind, wordt hij een echte meesterspeler.

Generalisatie: Als je NaviMaster iets leert in een virtueel huis, kan hij dat principe toepassen op een nieuwe app die hij nog nooit heeft gezien. Hij begrijpt het concept van "ruimte" en "doelen", niet alleen de specifieke knoppen.
Efficiëntie: In plaats van twee robots te bouwen en te trainen, bouw je er één. Dat bespaart tijd, energie en rekenkracht.

Samenvattend

NaviMaster is als een multitaskende meesterkok.

Vroeger had je een kok die alleen sushi kon maken (GUI) en een kok die alleen pizza kon maken (Embodied). Ze werkten in aparte keukens.
NaviMaster is de kok die in één keuken staat, met één set messen, en zowel perfecte sushi als pizza kan maken. Hij gebruikt een slimme methode (de afstands-bewuste beloning) om te leren dat "net iets naast het doel" nog steeds een goede poging is, waardoor hij veel sneller de perfecte meesterkok wordt.

Dit onderzoek laat zien dat als we robots leren om naar de wereld te kijken als één groot, samenhangend plaatje (waar "klikken" en "lopen" eigenlijk hetzelfde zijn), we veel slimmere en flexibeler robots kunnen bouwen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande agents voor Graphical User Interface (GUI) navigatie (bijv. het bedienen van apps op een telefoon) en Embodied Navigation (bijv. een robot die door een fysieke of gesimuleerde ruimte beweegt) hebben zich tot nu toe ontwikkeld als gescheiden domeinen. Dit leidt tot vier fundamentele uitdagingen:

Gebrek aan synergie: Er worden twee aparte modellen gebruikt, wat de trainings- en implementatiekosten verhoogt en interactie tussen de taken verhindert.
Slechte generalisatie: Bestaande modellen presteren goed binnen hun eigen domein (in-domein), maar falen vaak bij taken buiten hun trainingsdistributie (Out-of-Domain of OOD).
Inefficiëntie: Veel huidige methoden gebruiken Reinforcement Learning (RL) met een spare reward (alleen beloning bij succes/fail), wat het leerproces traag maakt.
Onjuiste redenering: Modellen genereren soms correcte gedachten maar verkeerde acties, omdat hun begrip voornamelijk uit tekst is gedistilleerd en niet uit visuele observaties.

De kern van het probleem is dat beide taken, ondanks oppervlakkige verschillen, fundamenteel identiek zijn: een agent moet op basis van egocentrische visuele observaties (wat de camera ziet) een besluit nemen om een doel te bereiken, zonder directe toegang tot een globale state.

Methodologie: NaviMaster

NaviMaster is het eerste unified agent dat beide taken binnen één framework combineert. De aanpak bestaat uit drie pijlers:

1. Visual-Target Trajectoire Collectie

Om GUI en Embodied taken te verenigen, introduceert NaviMaster een uniek formaat voor trajectdata:

Unificatie van Actieruimte: De auteurs definiëren drie actietypes: specifieke acties (bijv. 'Back', 'Stop'), view-shifting acties (scrollen/keren) en localisatie acties.
Visuele Doelen: Het grootste verschil tussen GUI (klikken op een coördinaat) en Embodied (bewegen naar een punt) is opgelost door in beide gevallen een visueel doel (een coördinaat in het beeld) te introduceren. Embodied acties worden herformuleerd van MOVEFORWARD naar MOVETO (x, y), waarbij (x, y) een doelpositie in het huidige zichtveld is.
Redenering (Reasoning Thoughts): Elke stap in een traject wordt verrijkt met een "gedachte" ( $t_i$ ) gegenereerd door een LLM (GPT-4o). Deze gedachte legt uit waarom een actie wordt genomen vanuit een eerstepers-perspectief, wat helpt bij het begrijpen van context en intentie.
Data: Het systeem combineert bestaande GUI-datasets (zoals GUI-Odyssey) met gesimuleerde 3D-omgevingen (zoals Matterport 3D/Habitat), waarbij de trajecten worden omgezet naar dit uniforme formaat.

2. Unified Reinforcement Learning Framework

In plaats van Supervised Fine-Tuning (SFT) alleen, gebruikt NaviMaster Group Relative Policy Optimization (GRPO).

Het model leert een uniek beleid dat werkt over een distributie van Markov Decision Processes (MDP's).
Door te trainen op gemengde data (GUI + Embodied), leert het model structurele representaties zoals visuele objectpermanentie en ruimtelijke redenering die universeel toepasbaar zijn.
Het model gebruikt de geschiedenis van acties en redeneringen als context om de volgende actie te voorspellen.

3. Distance-Aware Dense Reward

Een cruciale innovatie is de beloningsfunctie. In tegenstelling tot eerdere werken die een binaire beloning gebruiken (0 of 1), introduceert NaviMaster een dichte, afstandsbewuste beloning voor de 'grounding' (het lokaliseren van het doel):

Format Reward: Controleert of de output correct is gestructureerd (JSON).
Type Reward: Controleert of het type actie (bijv. klikken vs. scrollen) correct is.
Grounding Dense Reward: Dit is het belangrijkste onderdeel. Het geeft een hogere beloning naarmate de voorspelde coördinaten dichter bij het waarheid-gebaseerde doel liggen.
- Voor GUI: Pixel-afstand in de screenshot.
- Voor Embodied: Pixel-afstand gecombineerd met diepte-informatie (depth map) om te voorkomen dat objecten die dicht bij elkaar lijken in 2D, maar ver uit elkaar liggen in 3D, onterecht beloond worden.

Kernbijdragen

Eerste Unified Agent: NaviMaster is het eerste systeem dat GUI en Embodied navigatie succesvol verenigt in één enkel model.
Visual-Target Pipeline: Een nieuwe methode om data uit beide domeinen te aggregeren tot een uniforme trajectvorm met redenering, wat de data-diversiteit en generalisatie verhoogt.
Verbeterde RL-strategie: Een uniek RL-framework met een afstandsbewuste dichte beloning die de trainings-efficiëntie en ruimtelijke precisie aanzienlijk verbetert ten opzichte van binaire beloningen.

Resultaten

NaviMaster werd getest op diverse benchmarks, met name op Out-of-Domain (OOD) data (testsets die verschillen van de trainingsdata).

GUI Navigatie: NaviMaster presteerde consistent beter dan state-of-the-art baselines (zoals OS-Atlas, UI-R1, en GPT-4o) op meerdere benchmarks (AC-High/Low, AITW, OmniAct, etc.). Het toonde sterke generalisatie, zelfs op data die niet in de trainingsset zat.
Ruimtelijke Affordance: Bij het voorspellen van waar objecten of vrije ruimtes zich bevinden (object referring en free space referring), behaalde NaviMaster de beste resultaten, wat aantoont dat het model fijne visueel-ruimtelijke relaties begrijpt.
Embodied Navigatie: Op de ObjectNav benchmark (Habitat simulator) behaalde het model een Success Rate (SR) van 33.10% en een Success weighted by Path Length (SPL) van 12.60%, een aanzienlijke verbetering ten opzichte van de basismodellen.
Ablatie Studies: Experimenten bevestigden dat het mengen van data (50% GUI / 50% Embodied) de beste prestaties oplevert en dat de dichte beloning essentieel is voor snellere en betere convergentie dan een spare beloning.

Betekenis en Impact

Het paper markeert een belangrijke stap in de ontwikkeling van algemene navigatie-agents. Door te bewijzen dat GUI en fysieke navigatie isomorf zijn op het niveau van perceptie en besluitvorming, opent NaviMaster de weg voor:

Kostenefficiëntie: In plaats van twee gespecialiseerde modellen, volstaat één uniek model.
Robuustheid: Agents die beter kunnen omgaan met nieuwe omgevingen en taken waar ze niet specifiek voor zijn getraind.
Toekomstige Integratie: Het legt de basis voor toekomstige agents die naadloos kunnen schakelen tussen het bedienen van een digitale interface en het uitvoeren van fysieke taken in de echte wereld (bijv. een robot die een app op een tablet bedient om een taak in het huis uit te voeren).

De code, data en checkpoints zijn openbaar beschikbaar, wat de reproduceerbaarheid en verdere onderzoek in dit domein stimuleert.