CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Het paper introduceert CostNav, een nieuw benchmark voor fysieke AI-agenten dat navigatieprestaties evalueert op basis van realistische economische kosten en inkomsten door gebruik te maken van industriestandaarddata, en onthult dat bestaande methoden voor autonome bezorging nog niet economisch levensvatbaar zijn.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee

Gepubliceerd Thu, 12 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

CostNav: De "Rekenmachine" voor Robotbezorgers

Stel je voor dat je een nieuwe bezorgdienst start met zelfrijdende robots. Je hebt een fantastische robot die perfect door de stad kan lopen, nooit tegen een boom botst en altijd op tijd is. In de wereld van onderzoekers is dit een groot succes: de robot heeft de taak volbracht!

Maar in de echte wereld, waar je moet betalen voor stroom, reparaties en verzekeringen, kan diezelfde robot je failliet laten gaan.

Dit is precies het probleem dat het nieuwe onderzoekspapier CostNav aanpakt. Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Gouden Kooi" van de Simulatie

Tot nu toe hebben onderzoekers robotnavigatie getest in virtuele werelden die lijken op een gouden kooi.

  • De oude manier: Ze keken alleen of de robot de doos met pizza op de juiste plek zette. Als de robot dat deed, kregen ze een "A" voor hun cijfer.
  • Het probleem: Ze keken niet naar de prijskaartjes. Wat als de robot wel de pizza bezorgt, maar onderweg zo hard schokt dat de pizza in de doos smelt? Of wat als hij tegen een lantaarnpaal botst en de paal vervangen moet worden? Of wat als hij zo langzaam loopt dat de klant boos wordt en de bezorging annuleert?

In de oude tests waren deze dingen "niet belangrijk". In de echte wereld kosten ze echter geld.

2. De Oplossing: CostNav (De Echte Rekenmachine)

De onderzoekers hebben CostNav bedacht. Dit is geen simpele test meer, maar een financieel dashboard.

Stel je voor dat je een robot test alsof het een nieuw restaurant is. Je kijkt niet alleen of het eten lekker is (de taak voltooid), maar je rekent ook uit:

  • Hoeveel kost de huur van het pand (hardware)?
  • Hoeveel kost het eten dat we weggooien als het koud wordt (spoilage)?
  • Hoeveel moet je betalen als je per ongeluk een voorbijganger verwondt (verzekering)?
  • Hoeveel kost de elektriciteit?

CostNav doet precies dit. Het neemt de bewegingen van de robot en zet die om in dollars en centen.

3. Hoe werkt het? (De Vergelijkingen)

Het team heeft een zeer realistische virtuele stad gebouwd (met Isaac Sim, een krachtige simulatie-engine). Hierin laten ze robots rondrijden met een bak popcorn (omdat popcorn makkelijk uit elkaar valt als je schokt).

Ze kijken naar drie belangrijke dingen:

  • De "Schok" (Jerk): Als de robot te hard remt of draait, valt de popcorn uit elkaar. In CostNav betekent dit: geen geld voor de robot, want de klant krijgt een nieuwe bestelling.
  • De "Botsing" (Collision): Als de robot tegen een prullenbak of een lantaarnpaal botst, is dat niet alleen een "foutje". CostNav rekent uit hoeveel het kost om die prullenbak te vervangen of de robot te repareren.
  • De "Veiligheid": Als de robot tegen een wandelaar botst, is dat niet alleen een "nee". CostNav gebruikt medische data om te berekenen hoeveel een blessure kost (verzekering, juridische kosten).

4. Wat vonden ze? (De Verbluffende Resultaten)

Ze hebben 7 verschillende robotsystemen getest:

  • De "Oude School" robots: Robots met dure sensoren (LiDAR) en strakke regels.
  • De "Nieuwe" robots: Robots die leren door te kijken (AI) en soms goedkoper zijn.

Het grote nieuws:
Geen enkele robot die ze testten, was winstgevend. Ze maakten allemaal verlies.

  • De beste robot (genaamd CANVAS) verloor ongeveer $27 per bezorging.
  • De slechtste verloor bijna $47 per bezorging.

De les:
Het is alsof je een taxi-bedrijf runt waarbij je voor elke rit die je maakt, $30 verliest. Je kunt de rit wel perfect rijden, maar als je de kosten niet dekt, is je bedrijf failliet.

Interessant genoeg deed een simpele robot met alleen een camera (geen dure LiDAR) het beter dan de dure robots met LiDAR. De dure robots botsten vaker of waren te voorzichtig, wat tijd kostte en de winst opeet.

5. Waarom is dit belangrijk?

Vroeger zeiden onderzoekers: "Kijk, onze robot kan perfect navigeren!"
Nu zegt CostNav: "Kijk, jullie robot is technisch goed, maar economisch dood."

CostNav dwingt ontwikkelaars om niet alleen te denken aan "hoe kom ik van A naar B", maar aan "hoe kom ik van A naar B zonder mijn bedrijf te ruïneren?". Het is de brug tussen de laboratoriumdroom en de zakelijke realiteit.

Samenvattend

CostNav is als een financieel stress-test voor robots. Het laat zien dat het niet genoeg is om een robot te bouwen die "slim" is. Je moet een robot bouwen die ook slim omgaat met geld. Zolang robots niet winstgevend kunnen bezorgen, blijven ze in de laboratoriumfase hangen en komen ze nooit op de straten van onze steden.

De boodschap is duidelijk: Stop met alleen kijken naar succespercentages, en begin te kijken naar de winstmarge.