All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation

Each language version is independently generated for its own context, not a direct translation.

🤖 De Dilemma: De Robot die alles vergeet

Stel je een robot voor die moet leren navigeren door een huis op basis van taalcommando's (bijvoorbeeld: "Loop naar de keuken en sla linksaf"). Dit heet Vision-and-Language Navigation (VLN).

Het probleem is dat robots vaak maar één ding goed kunnen. Als je de robot traint om in een zonnige kamer te lopen, vergeet hij vaak hoe hij in een donkere kamer moet lopen. Als je hem daarna traint voor de donkere kamer, vergeet hij weer hoe hij in de zonnige kamer moet lopen. Dit noemen onderzoekers "catastrophic forgetting" (catastrofaal vergeten). Het is alsof je een student hebt die elke keer dat hij een nieuw vak leert, de kennis van het vorige vak volledig uit zijn hoofd wist.

In de echte wereld moet een robot echter de hele dag door kunnen werken: in de ochtendzon, 's avonds in het donker, bij mist of als de camera overbelicht raakt door felle lichten. De auteurs van dit papier willen een robot bouwen die de hele dag, in elke situatie, kan navigeren zonder ooit iets te vergeten.

🧩 De Oplossing: TuKA (De "Tucker-Adapter")

Om dit op te lossen, hebben de onderzoekers een nieuwe methode bedacht genaamd TuKA (Tucker Adaptation).

De oude manier (LoRA): De "Enkele Vork"
Bestaande methoden gebruiken vaak een simpele aanpassing (zoals LoRA). Dit is alsof je voor elke nieuwe situatie een nieuwe, losse vork aan je bestek toevoegt. Als je 10 situaties hebt, heb je 10 vorken. Ze werken apart van elkaar en delen geen kennis. Als je een nieuwe vork nodig hebt, moet je vaak de oude wegleggen.

De nieuwe manier (TuKA): De "Multifunctionele Zwitserse Mess"
TuKA is slimmer. Het ziet navigatiekennis niet als losse vorken, maar als een hoogwaardig, 4-dimensionaal object (een tensor).
Stel je voor dat je kennis opbouwt als een gigantisch, transparant legpuzzel:

De Basis (Gedeelde kennis): Er is een centraal stuk dat voor iedereen geldt. Bijvoorbeeld: "Hoe loop ik rechtdoor?" of "Hoe draai ik links?". Dit is het fundament dat nooit verandert.
De Scène-stukken: Er zijn losse stukken voor specifieke locaties (bijv. "Hoe ziet de woonkamer eruit?").
De Omgevings-stukken: Er zijn losse stukken voor de lichtomstandigheden (bijv. "Hoe zie ik in het donker?" of "Hoe zie ik door de mist?").

Hoe werkt het?
In plaats van een nieuwe robot te bouwen voor elke situatie, pakt TuKA de centrale basis en plakt er precies de juiste scène-stuk en omgevings-stuk bij.

Gaat de robot van een zonnige kamer naar een donkere kamer? Dan wisselt hij alleen het "licht-stuk" uit, maar blijft de "loop-richting" en de "kamer-indeling" hetzelfde.
Dit zorgt ervoor dat de robot zijn kennis ontkoppelt: hij weet precies wat hij moet onthouden (de basis) en wat hij moet aanpassen (de specifieke omstandigheden).

🧠 De Leerstrategie: "Decoupled Knowledge Incremental Learning"

Om te voorkomen dat de robot toch iets vergeet, gebruiken ze een slimme leerstrategie (DKIL).

De Gedeelde Basis: Deze wordt met de grootste zorg behandeld. Het is alsof je een oude, kostbare familiefoto bewaart in een brandveilige kluis. Je mag er bijna niets aan veranderen, want dat is de basis van alles wat de robot weet.
De Specifieke Experts: Voor de nieuwe situaties (zoals "overbelichting") worden er nieuwe, losse "experts" aangesteld. Deze experts leren alleen hun specifieke taak en storen de andere experts niet.
Orthogonaliteit: De onderzoekers zorgen ervoor dat de nieuwe experts niet in de weg lopen van de oude. Het is alsof je in een groot kantoor verschillende kamers hebt. Als iemand in Kamer A werkt, kan dat geen invloed hebben op wat er in Kamer B gebeurt.

🏆 Het Resultaat: AlldayWalker

De robot die hieruit voortkomt, heet AlldayWalker.
In tests heeft deze robot laten zien dat hij veel beter presteert dan de huidige beste robots.

Hij vergeet bijna niets: Zelfs na het leren van 24 verschillende situaties (verschillende kamers + verschillende lichtomstandigheden) kan hij nog steeds perfect navigeren in de eerste situatie die hij leerde.
Hij is flexibel: Hij kan direct schakelen van een helder daglicht naar een donkere, mistige omgeving zonder te struikelen.

🌍 Waarom is dit belangrijk?

Vroeger moesten robots voor elke nieuwe omgeving opnieuw getraind worden, wat tijd kostte en leidde tot fouten. Met TuKA en AlldayWalker kunnen we robots bouwen die echt leefbaar zijn in onze dynamische wereld. Ze kunnen de hele dag door werken, van de ochtendzon tot de avondmist, en blijven slim en veilig, zonder dat we ze hoeven te resetten of opnieuw te programmeren.

Kort samengevat:
In plaats van een robot te maken die één ding doet en daarna alles vergeet, hebben de onderzoekers een robot gemaakt die een multitasker is. Hij heeft een stevig fundament en kan voor elke situatie een specifiek "pakje" aantrekken, zonder zijn basisvaardigheden kwijt te raken.

Each language version is independently generated for its own context, not a direct translation.

Titel: All-Day Multi-Scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation

Auteurs: Xudong Wang, Gan Li, et al. (Shenyang Institute of Automation, Chinese Academy of Sciences, etc.)
Publicatie: ICLR 2026

1. Het Probleem: All-Day Multi-Scenes Lifelong VLN

Het paper adresseert een fundamentele beperking in Vision-and-Language Navigation (VLN): de moeilijkheid voor robotagenten om zich continu aan te passen aan diverse scènes en omstandigheden zonder eerder geleerde kennis te verliezen (catastrophic forgetting).

Context: VLN-agenten moeten instructies in natuurlijke taal volgen om door een omgeving te navigeren. In de echte wereld variëren deze omgevingen sterk in scène (bijv. verschillende gebouwen) en omgevingscondities (bijv. dag/nacht, slecht weer, overbelichting, mist).
De Uitdaging: Bestaande methoden, zoals het fijnafstemmen (fine-tuning) op een specifieke situatie, leiden vaak tot "catastrophic forgetting", waarbij de agent vergeet hoe hij in andere situaties moet navigeren.
Definitie: De auteurs formaliseren dit als het AML-VLN (All-Day Multi-Scenes Lifelong VLN) probleem. Het doel is een agent te bouwen die een sequentie van taken leert (combinaties van scènes en omgevingscondities) en deze kennis behoudt, zelfs wanneer de taak-ID tijdens de inferentie onbekend is.
Beperking van bestaande oplossingen: Parameter-efficiënte adapters zoals LoRA (Low-Rank Adaptation) en hun varianten (bijv. MoE-LoRA) gebruiken tweedimensionale matrices. Deze zijn beperkt in het vastleggen van multi-hiërarchische kennis (de complexe interactie tussen gedeelde vaardigheden, scènespecifieke kennis en omgevings-specifieke kennis).

2. Methodologie: Tucker Adaptation (TuKA)

Om de beperkingen van matrixgebaseerde adapters te overwinnen, stellen de auteurs Tucker Adaptation (TuKA) voor. Deze methode verheft de adaptatie naar een hogere dimensie door kennis te representeren als een hoog-orde tensor.

A. Architectuur: TuKA

In plaats van een tweedimensionale matrix te gebruiken, decomposeert TuKA de aanpassingsgewichten met behulp van Tucker-decompositie. Voor een navigatietaken $T_t$ met een specifieke scène $s$ en omgeving $e$ , wordt de update $\Delta W$ als volgt berekend:

$\Delta W_t = U_1 \cdot (G \times_3 U_3[s, :] \times_4 U_4[e, :]) \cdot (U_2)^T$

Waarbij:

$G$ (Core Tensor): Een gedeelde kern die interacties tussen alle patronen vastlegt en de gedeelde navigatievaardigheden leert.
$U_1$ en $U_2$ (Encoder/Decoder): Gedeelde factormatrices die de transformatie van de tensor naar de LLM-backbone mogelijk maken.
$U_3$ (Scene Experts): Een set factormatrices die specifieke kennis voor elke scène ( $M$ scènes) representeren.
$U_4$ (Environment Experts): Een set factormatrices die specifieke kennis voor elke omgevingsconditie ( $N$ omgevingen, zoals laag licht of overbelichting) representeren.

Door de specifieke rijen $U_3[s, :]$ en $U_4[e, :]$ te selecteren, wordt de hoog-orde tensor gereduceerd tot een tweedimensionale matrix die compatibel is met de LLM-backbone, terwijl de hiërarchische structuur behouden blijft.

B. Strategie: Decoupled Knowledge Incremental Learning (DKIL)

Om catastrofisch vergeten te voorkomen tijdens het continue leren, introduceren ze een strategie die gedeelde en specifieke kennis strikt scheidt:

Gedeelde Kennis Consolidatie: De kern $G$ en de encoder/decoder ( $U_1, U_2$ ) worden bijgewerkt met Elastic Weight Consolidation (EWC). Dit straft veranderingen in parameters die belangrijk waren voor eerdere taken, zodat de basisvaardigheden behouden blijven.
Specifieke Expert Beperking: De experts voor specifieke scènes en omgevingen ( $U_3, U_4$ ) worden geconstrueerd om consistent te blijven met eerder geleerde kennis voor die specifieke entiteiten (Consistency Loss).
Orthogonaliteit: Om te voorkomen dat nieuwe taakkennis de oude verdringt, wordt een orthogonaliteitsconstraint toegepast op de experts. Nieuwe experts moeten orthogonaal zijn op de subruimtes van eerder geleerde experts.

C. Inferentie en Zoeken

Tijdens de inferentie in een onbekende scène wordt een tweestaps matching uitgevoerd op basis van visuele kenmerken (CLIP-features):

Bepaal de meest waarschijnlijke scène-index $s$ door vergelijkingsmeting met opgeslagen scène-kenmerken.
Bepaal de meest waarschijnlijke omgevings-index $e$ op dezelfde manier.
Reconstrueer de adapter $\Delta W$ met de corresponderende experts en voer de navigatie uit.

3. Experimenteel Platform: AllDay-Habitat

Om dit probleem te evalueren, hebben de auteurs een nieuw benchmark-platform ontwikkeld: AllDay-Habitat.

Dit is een uitbreiding van de Habitat-simulator.
Het synthetiseert degradatie-modellen voor drie specifieke omstandigheden: scattering (mist/nevel), low-light (donker) en overexposure (te helder).
Het benchmark bevat 24 sequentiële taken (combinaties van 5 simulatiescènes en 2 real-wereld scènes met verschillende omstandigheden), plus extra real-wereld deployementen.

4. Resultaten

De voorgestelde agent, AlldayWalker (gebaseerd op TuKA + DKIL), werd getest tegen state-of-the-art (SOTA) baselines, waaronder diverse LoRA-varianten (HydraLoRA, BranchLoRA, SD-LoRA), EWC, en test-time adaptatiemethoden.

Prestaties: AlldayWalker behaalde consistent de hoogste scores op alle metrieken:
- Success Rate (SR): Gemiddeld 65% (tegenover 56% voor de beste concurrent SD-LoRA).
- SPL (Success weighted by Path Length): Gemiddeld 58%.
- OSR (Oracle Success Rate): Gemiddeld 68%.
Vergeetgedrag (Forgetting Rate): AlldayWalker vertoonde het laagste vergeten gedrag (F-SR gemiddeld 11%, vergeleken met 18% voor SD-LoRA en >50% voor eerdere methoden).
Ablatie-studies:
- Vierde-orde tensoren (TuKA) presteerden significant beter dan derde-orde tensoren, wat aantoont dat het ontkoppelen van scène- en omgevingskennis cruciaal is.
- Het delen van de kern ( $G$ ) en encoder/decoder ( $U_1, U_2$ ) bleek essentieel voor het behoud van gedeelde kennis.
- De methode bleef stabiel zelfs bij uitbreiding naar 30 taken en generaliseerde goed naar volledig ongezette scènes.

5. Belangrijkste Bijdragen

Formalisatie van AML-VLN: Het definiëren van een nieuw probleemkader voor levenslang leren in VLN over meerdere scènes en omgevingscondities.
TuKA (Tucker Adaptation): Een nieuwe parameter-efficiënte methode die multi-hiërarchische kennis representeren als een hoog-orde tensor, waardoor een betere ontkoppeling van gedeelde en specifieke kennis mogelijk is dan met matrixgebaseerde LoRA.
DKIL Strategie: Een leerstrategie die gedeelde subruimtes consolideert en specifieke experts constraineert om catastrofisch vergeten te voorkomen.
AlldayWalker Agent & Benchmark: De ontwikkeling van een levenslange VLN-agent en een uitgebreid simulatieplatform (AllDay-Habitat) met degradatiemodellen voor realistische evaluatie.

6. Significance

Dit werk is van groot belang voor de robuuste inzet van robots in de echte wereld. Het toont aan dat hoog-orde tensor-decompositie een krachtig middel is om complexe, hiërarchische kennis in continue leeropdrachten te structureren. Door het vermogen om zich aan te passen aan "all-day" condities (dag/nacht, weer, verschillende locaties) zonder vergeten, maakt dit onderzoek een stap dichter bij autonome robots die langdurig en flexibel kunnen opereren in dynamische, onvoorspelbare omgevingen, zoals in de zorg, reddingsoperaties of huishoudelijke assistentie.