Lang2Lift: A Language-Guided Autonomous Forklift System for Outdoor Industrial Pallet Handling

Il paper presenta Lang2Lift, un sistema autonomo end-to-end per muletti che utilizza istruzioni in linguaggio naturale e modelli di fondazione per identificare, localizzare e manipolare pallet in ambienti industriali esterni non strutturati.

Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz, Tobias Glueck, Minh Nhat Vu, Andreas Kugi

Pubblicato 2026-02-26
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina un cantiere edile o un grande magazzino all'aperto. È un posto caotico: c'è fango, neve, luce che cambia, e ovunque ci sono pallet (quelle piattaforme di legno o plastica) carichi di mattoni, travi d'acciaio o scatole.

Fino a oggi, per far muovere un muletto automatico in questo caos, gli ingegneri dovevano programmarlo con regole rigide: "Se vedi un pallet rosso a sinistra, prendilo". Se il pallet era coperto di neve, o se c'era un altro pallet simile vicino, il robot si bloccava o prendeva la cosa sbagliata. Era come avere un cuoco che sa solo cucinare la pasta se gli dici esattamente "pasta", ma se dici "qualcosa di rosso e caldo", va nel panico.

Lang2Lift è la soluzione a questo problema. È come dare al muletto un cervello che parla la nostra lingua e occhi che capiscono il contesto.

1. Il "Cervello" che ascolta (La parte Linguistica)

Invece di usare codici complicati, un operatore umano può semplicemente dire al muletto:

"Prendi quel pallet con i mattoni sopra, quello vicino al betoniera."

Il sistema Lang2Lift prende questa frase e la traduce in una mappa mentale. Non cerca solo "un pallet", ma capisce le sfumature:

  • Cosa: Un pallet.
  • Descrizione: Ha i mattoni sopra.
  • Posizione: Vicino alla betoniera.

È come se il robot avesse un assistente personale che gli fa da guida, spiegandogli esattamente cosa cercare nel disordine, proprio come farebbe un collega umano.

2. Gli "Occhi" che vedono i dettagli (La parte Visiva)

Una volta che il robot sa cosa cercare, deve individuarlo tra centinaia di oggetti simili. Qui entra in gioco la tecnologia dei Modelli di Fondazione (i "super-cervelli" dell'IA).

  • Il primo sguardo: Il robot usa un modello (chiamato Florence-2) che funziona come un detective esperto. Guarda la foto e dice: "Ehi, lì c'è un pallet con dei mattoni!".
  • Il ritocco preciso: Poi, usa un altro modello (chiamato SAM-2) che agisce come un pittore molto preciso. Prende l'area indicata dal detective e la "colora" pixel per pixel per vedere esattamente dove finisce il pallet e dove inizia il terreno o un altro oggetto. È fondamentale per non sbattere contro le cose.

3. La "Mano" che sa dove mettere le forche (La parte di Movimento)

Sapere dove è il pallet non basta; il muletto deve sapere come infilare le forche senza rovesciare il carico.

  • Il sistema calcola la posizione esatta del pallet nello spazio (in 3D), tenendo conto se è inclinato o coperto di neve.
  • Risolve un piccolo rompicapo: i pallet sono spesso simmetrici (guardano allo stesso modo da due lati opposti). Il sistema decide intelligentemente da quale lato avvicinarsi per infilare le forche in modo sicuro.
  • Infine, guida il muletto con la precisione di un chirurgo, adattandosi al terreno sconnesso del cantiere.

Perché è una rivoluzione?

Fino a ieri, automatizzare i cantieri esterni era quasi impossibile perché ogni scena era diversa (luce, pioggia, oggetti nuovi).
Lang2Lift cambia le regole del gioco:

  • Flessibilità: Non serve riprogrammare il robot ogni volta che arriva un nuovo tipo di merce. Basta dirglielo a parole.
  • Robustezza: Funziona anche con la neve o la scarsa illuminazione, grazie all'uso di modelli addestrati su milioni di immagini diverse.
  • Sicurezza: Il sistema controlla costantemente la posizione e si ferma se qualcosa non è sicuro.

I Risultati nella Vita Reale

Gli autori hanno testato questo sistema su un vero muletto autonomo (chiamato ADAPT) in condizioni reali: sole, neve, buio e oggetti nascosti.

  • Risultato: Il sistema è riuscito a capire e prendere il pallet giusto più del 60% delle volte, anche in condizioni difficili.
  • Il limite: A volte, se le istruzioni sono troppo confuse (es. "prendi quello lì" senza dire quale "lì") o se il pallet è completamente nascosto, il robot si ferma. Ma questo è normale: anche un umano farebbe fatica!

In sintesi

Lang2Lift è come dare al muletto la capacità di conversare con l'operatore umano. Trasforma un macchinario rigido e stupido in un collaboratore intelligente che può dire: "Ok, ho capito, vado a prendere quel pallet con i mattoni vicino alla betoniera, anche se c'è un po' di neve".

È un passo enorme verso cantieri più sicuri, dove uomini e robot lavorano insieme parlando la stessa lingua.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →