Lang2Lift: A Language-Guided Autonomous Forklift System for Outdoor Industrial Pallet Handling

Das Paper stellt Lang2Lift vor, ein autonomes Gabelstaplersystem für den Außenbereich, das natürliche Sprachbefehle nutzt, um mittels tiefenlernbasierter Wahrnehmung und Bewegungsplanung Gabeln präzise in Paletten einzuführen.

Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz, Tobias Glueck, Minh Nhat Vu, Andreas Kugi

Veröffentlicht 2026-02-26
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie stehen auf einer riesigen, chaotigen Baustelle. Überall liegen Paletten herum: einige mit Betonblöcken, andere mit Holzbalken, wieder andere mit Ziegelsteinen. Ein paar sind im Schnee begraben, andere stehen im Schatten. Normalerweise müsste ein erfahrener Gabelstaplerfahrer hier hinkommen, sich alles genau ansehen und dann entscheiden: „Okay, ich nehme die Palette mit den roten Ziegeln links neben dem Kran."

Das Problem bei alten, automatisierten Robotern ist, dass sie wie sehr sture Schüler sind. Sie können nur das tun, was sie exakt gelernt haben. Wenn eine Palette anders liegt oder ein neuer Gegenstand auf ihr ist, geben sie auf. Sie brauchen eine neue Programmierung für jeden einzelnen Fall.

Die Forscher in diesem Papier haben eine Lösung namens Lang2Lift entwickelt. Man kann es sich wie einen Roboter mit einem sehr guten Sprachverständnis und einem scharfen Auge vorstellen.

Hier ist die einfache Erklärung, wie das funktioniert:

1. Der „Sprach-Übersetzer" (Das Gehirn)

Statt komplizierten Code zu schreiben, kann ein Mensch dem Roboter einfach etwas sagen wie: „Heb die Palette mit dem Betonblock oben drauf auf" oder „Nimm die Palette neben dem Betonmischer."

Das System nimmt diesen Satz und übersetzt ihn sofort in eine visuelle Suchanfrage. Es nutzt eine moderne KI (eine sogenannte „Grundlagen-Modell"-KI), die ähnlich funktioniert wie ein sehr kluger Assistent, der schon Millionen von Bildern gesehen hat. Dieser Assistent weiß, wie ein Betonblock aussieht, wie ein Holzstapel aussieht und wo sich ein Mixer befindet. Er muss nicht erst für jede neue Baustelle neu lernen.

2. Der „Maler" (Das Auge)

Sobald der Roboter weiß, wonach er sucht, muss er genau sehen, wo die Palette ist.

  • Schritt A: Die KI findet erst einmal grob, wo die gesuchte Palette ist (wie ein Suchscheinwerfer).
  • Schritt B: Ein zweites Werkzeug (genannt SAM-2) kommt ins Spiel. Stellen Sie sich das wie einen sehr präzisen Maler vor, der die Umrisse der Palette genau nachzeichnet. Er schneidet die Palette digital aus dem Hintergrund heraus, damit der Roboter genau weiß: „Hier sind die Kanten, hier ist der Platz für meine Gabel."

3. Der „Ziel-Lotse" (Die 3D-Position)

Jetzt weiß der Roboter nicht nur, dass die Palette da ist, sondern auch genau, wie sie liegt. Ist sie schief? Wie tief muss er die Gabel stecken?
Das System berechnet die 3D-Position (Höhe, Neigung, Drehung) so genau, als würde es eine unsichtbare Schablone über die Palette legen. Besonders clever: Es löst das Problem der Symmetrie. Eine Palette sieht von vorne und von hinten oft gleich aus. Das System entscheidet aber: „Ich muss von dieser Seite herkommen, damit die Gabel in die richtigen Löcher passt."

4. Der „Fahrer" (Die Bewegung)

Sobald die Position feststeht, übernimmt der Fahrplan. Der Roboter steuert den Gabelstapler selbstständig zur Palette. Er fährt nicht nur geradeaus, sondern berücksichtigt, dass ein Gabelstapler mit Gabeln hinten wie ein Gelenkfahrzeug ist (er kann nicht einfach wie ein Auto in jede Richtung rollen). Er plant einen Weg, der sicher ist, auch wenn andere Fahrzeuge oder Hindernisse in der Nähe sind.

Warum ist das so wichtig? (Die Analogie)

Stellen Sie sich vor, Sie spielen ein Videospiel.

  • Der alte Weg: Sie müssen für jeden neuen Level einen neuen Code eingeben, damit der Charakter weiß, wohin er gehen soll. Wenn der Level anders aussieht, funktioniert das Spiel nicht mehr.
  • Der Lang2Lift-Weg: Sie können dem Charakter einfach sagen: „Geh zu dem roten Schatzkoffer links!" Der Charakter versteht den Satz, sucht den Koffer, auch wenn er im Schnee liegt oder schief steht, und geht direkt darauf zu.

Was haben die Forscher herausgefunden?

Sie haben das System auf einem echten, großen Gabelstapler im Freien getestet – bei Sonne, Schnee, Dämmerung und sogar wenn Teile der Palette verdeckt waren.

  • Das Ergebnis: Es funktioniert! Der Roboter kann die Palette finden und greifen, auch wenn die Bedingungen schwierig sind.
  • Die Herausforderung: Manchmal ist die Sprache mehrdeutig (z. B. wenn man sagt „die Palette" und es gibt zwei). Oder wenn die Palette komplett unter Schnee begraben ist, kann die Kamera sie nicht sehen.
  • Die Geschwindigkeit: Der ganze Prozess dauert etwa eine Sekunde. Das ist schnell genug für einen Gabelstapler, der langsam und vorsichtig fährt.

Fazit

Lang2Lift ist ein großer Schritt weg von starren, dumm programmierten Robotern hin zu flexiblen Helfern, die mit uns Menschen „sprechen" können. Es ist wie ein Gabelstapler, der nicht nur fährt, sondern auch versteht, was Sie meinen. Das macht die Arbeit auf Baustellen und in Logistikzentren sicherer und effizienter, weil weniger menschliche Fahrer benötigt werden, um die Roboter zu steuern.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →