NeSy-Route: A Neuro-Symbolic Benchmark for Constrained Route Planning in Remote Sensing

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een uitdagende wandeltocht plant in een onbekend landschap, maar je hebt geen kaart, alleen een foto van bovenaf en een lijst met regels.

"Je mag niet door de modder lopen."
"Je moet de weg vermijden die te steil is."
"Je wilt de kortste weg, maar wel de veiligste."

Dit is precies wat een computer moet doen als hij een drone, een auto of een reddingswerker moet sturen op basis van satellietbeelden. Maar tot nu toe waren de tests voor deze computers (die we 'Multimodale Grootte Taalmodellen' of MLLMs noemen) te makkelijk. Ze vroegen alleen: "Wat zie je op de foto?" of "Is dit een boom?". Ze vroegen nooit: "Hoe kom je veilig van punt A naar punt B?"

In dit paper introduceren de auteurs NeSy-Route. Laten we dit uitleggen alsof het een nieuwe, super-strict examen is voor slimme robots.

1. Het Probleem: De "Leerling" die niet kan plannen

Stel je voor dat je een schoolkinderen hebt die heel goed kunnen beschrijven wat ze zien (ze kunnen een boom herkennen en weten dat het een boom is). Maar als je ze vraagt om een route te plannen door een bos zonder in de modder te zakken, raken ze in paniek. Ze weten wat er is, maar niet hoe ze erdoorheen moeten navigeren.

Bestaande tests waren als een meerkeuzetoets: "Welke van deze drie routes is het beste?". De computer kon raden of een beetje slimme logica gebruiken. Maar in het echte leven (bijvoorbeeld bij een aardbeving) moet de computer zelf een route uitvinden, niet kiezen uit een lijstje.

2. De Oplossing: NeSy-Route (De "Neuro-Symbolische" Routeplanner)

De auteurs hebben een nieuw examenbedacht, NeSy-Route. Het is een enorme database met meer dan 10.000 verschillende scenario's. Het is uniek omdat het een combinatie is van twee soorten intelligentie:

Neuro (De "Gevoelige" kant): Het model kijkt naar de foto en probeert te begrijpen wat het ziet (zoals een mens).
Symbolisch (De "Logische" kant): Het model moet strikte regels volgen (zoals een computerprogramma).

Het examen bestaat uit drie niveaus, net als een videogame met steeds zwaardere levels:

Level 1: De Regels begrijpen (De "Vertaler")
De computer krijgt een tekst: "Je bent een wandelaar met stevige laarzen. Je mag over gras en zand, maar niet door water of dicht struikgewas."
De computer moet deze tekst omzetten in een strikte lijst van regels.
- Vergelijking: Het is alsof je een recept leest en moet beslissen welke ingrediënten je mag gebruiken en welke je moet weggooien.
Level 2: De Regels koppelen aan de Foto (De "Detective")
Nu krijgt de computer de foto. Hij moet de regels van Level 1 toepassen op de foto. "Ah, dat stukje op de foto is water (verboden), en dat stukje is asfalt (toegestaan)."
- Vergelijking: Je kijkt naar een plattegrond en markeert met een rode stift waar je niet mag lopen en met een groene stift waar je wel mag lopen.
Level 3: De Route plannen (De "Navigator")
Nu moet de computer een lijn trekken van punt A naar punt B die alleen over de groene stukjes gaat en zo kort mogelijk is.
- Vergelijking: Je tekent de perfecte wandelroute op je kaart, waarbij je elke modderpoel en elke boom vermijdt.

3. Waarom is dit zo slim? (Het "Magische" Deel)

Het grootste probleem bij eerdere tests was: "Hoe weten we of het antwoord van de computer wel goed is?"
Bij NeSy-Route gebruiken de auteurs een slimme truc. Ze laten een perfecte computer (een wiskundig algoritme genaamd A-Star) eerst de perfecte route berekenen.

Dit is het antwoordmodel.
Vervolgens laten ze de AI (de student) proberen dezelfde route te vinden.
Als de AI een route tekent die door een meer loopt, is het fout. Als de route te lang is, is het fout.

Dit zorgt voor een eerlijke en onfeilbare beoordeling. Het is alsof je een wiskundeleraar hebt die het antwoord al op het bord heeft staan, zodat je precies kunt zien hoeveel punten de student mist.

4. Wat hebben ze ontdekt? (De "Schokeffect")

Toen ze de beste AI-modellen van vandaag de dag (zoals de slimste versies van GPT en Qwen) op dit examen zetten, was het resultaat schokkend:

Ze zijn goed in lezen: Ze begrijpen de regels van Level 1 best goed.
Ze zijn slecht in kijken: Ze raken in de war als ze de regels moeten koppelen aan de foto (Level 2). Ze zien soms water als gras.
Ze zijn slecht in plannen: Zelfs als ze de foto goed zien, kunnen ze geen goede route plannen (Level 3). Ze lopen vaak vast, maken omwegen of raken in de modder.

De conclusie: De huidige slimme computers zijn als uitstekende bibliothecarissen die alles over kaarten weten, maar als je ze vraagt om zelf door een doolhof te lopen, struikelen ze over hun eigen voeten. Ze missen het vermogen om te plannen.

Samenvatting in één zin

NeSy-Route is een nieuw, super-strict examen dat laat zien dat onze slimste AI's nog niet klaar zijn om zelfstandig reddingsmissies of logistieke routes in complexe werelden te plannen; ze moeten nog leren hoe ze van "zien" naar "doen" moeten springen.

NeSy-Route: A Neuro-Symbolic Benchmark for Constrained Route Planning in Remote Sensing

1. Het Probleem: De "Leerling" die niet kan plannen

2. De Oplossing: NeSy-Route (De "Neuro-Symbolische" Routeplanner)

3. Waarom is dit zo slim? (Het "Magische" Deel)

4. Wat hebben ze ontdekt? (De "Schokeffect")

Samenvatting in één zin

Probleemstelling

Methodologie: NeSy-Route

1. Geautomatiseerd Data-Generatie Framework

2. Hiërarchische Evaluatie Taakstructuur

3. Evaluatiemetrics

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

NeSy-Route: A Neuro-Symbolic Benchmark for Constrained Route Planning in Remote Sensing

1. Het Probleem: De "Leerling" die niet kan plannen

2. De Oplossing: NeSy-Route (De "Neuro-Symbolische" Routeplanner)

3. Waarom is dit zo slim? (Het "Magische" Deel)

4. Wat hebben ze ontdekt? (De "Schokeffect")

Samenvatting in één zin

Probleemstelling

Methodologie: NeSy-Route

1. Geautomatiseerd Data-Generatie Framework

2. Hiërarchische Evaluatie Taakstructuur

3. Evaluatiemetrics

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents