Uncertainty Mitigation and Intent Inference: A Dual-Mode Human-Machine Joint Planning System

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie arbeiten mit einem Roboter-Helfer zusammen, der wie ein neuer Kollege ist, aber noch nicht ganz versteht, wie Sie denken oder was genau Sie meinen. Oft passiert es, dass Sie sagen: „Bring mir die Medizin!" und der Roboter starrt auf drei verschiedene Boxen und fragt sich: „Welche ist es? Und ist der Weg dorthin sicher?"

Das ist das Problem, das diese Forscher gelöst haben. Sie haben ein System entwickelt, bei dem Mensch und Maschine nicht nur Befehle hin und her schicken, sondern wirklich als Team arbeiten. Sie nennen es ein „Dual-Mode-System" (Zwei-Modus-System).

Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

Das große Problem: Der „dunkle Raum" der Unsicherheit

Stellen Sie sich vor, Sie und Ihr Roboter-Partner sind in einem großen, unbekannten Lagerhaus.

Modus 1: Das „Klärungs-Team" (Wenn Dinge unklar sind)
Oft wissen Sie nicht genau, was der Roboter sieht. Vielleicht sagen Sie „Hol die rote Kiste", aber es gibt zwei rote Kisten. Oder Sie sagen „Geh durch den Rauch", aber Sie wissen nicht, ob der Rauch harmlos ist oder eine Gefahr.
- Wie alte Roboter reagierten: Sie würden raten (und oft daneben liegen) oder Sie würden alles abfragen („Ist das hier rot? Ist das hier rot? Ist der Rauch okay?"). Das dauert ewig und nervt.
- Wie Ihr neuer Roboter-Partner reagiert: Er nutzt eine Art „intelligente Detektivarbeit".
  - Er nutzt eine künstliche Intelligenz (ein großes Sprachmodell), um zu verstehen, was Sie meinen.
  - Wenn er unsicher ist, fragt er nur das Nötigste. Er denkt: „Wenn ich frage, ob der Rauch sicher ist, kann ich vielleicht die Frage nach dem Netz sparen, weil der Rauch ohnehin den Weg blockiert."
  - Er plant seine Fragen wie ein Schachspieler: „Welche eine Frage löst das größte Rätsel mit dem geringsten Aufwand?"
  - Das Ergebnis: Er fragt viel weniger, findet aber immer den richtigen Weg. Im Test sparte er über die Hälfte der Fragen und Zeit.
Modus 2: Das „Telepathie-Team" (Wenn Sie zusammenarbeiten, ohne zu reden)
Stellen Sie sich vor, Sie und der Roboter müssen gemeinsam eine schwere Aufgabe erledigen (z. B. einen Verletzten retten). Sie können nicht ständig reden, weil Sie beide Hände voll haben oder laute Maschinen im Hintergrund sind.
- Wie alte Roboter reagierten: Sie würden einfach Ihrem Partner hinterherlaufen. Wenn Sie zu einer Kiste gehen, rennt der Roboter auch zur Kiste. Das ist sinnlos, wenn Sie eigentlich nur die Kiste öffnen wollen und er die Kiste tragen soll. Oder er wartet vergeblich, während Sie schon weiterarbeiten.
- Wie Ihr neuer Roboter-Partner reagiert: Er hat einen „sechsten Sinn" für Ihre Absichten.
  - Er beobachtet nicht nur, wo Sie sind, sondern auch, wohin Sie schauen und wie schnell Sie sich bewegen.
  - Er denkt: „Ah, er geht langsam auf die blaue Kiste zu. Das ist wahrscheinlich eine gemeinsame Aufgabe. Ich sollte mich ihm nähern, um zu helfen."
  - Wenn er merkt, dass Sie eine Aufgabe allein erledigen können, macht er sich nicht in den Weg, sondern sucht sich eine andere Aufgabe.
  - Das Ergebnis: Sie arbeiten wie ein eingespieltes Tanzpaar. Sie müssen nicht reden, um zu wissen, wer was macht. Das spart enorm viel Zeit und Energie.

Die Magie dahinter: Wie funktioniert das?

Stellen Sie sich das System wie ein zweiköpfiges Gehirn vor, das mit dem Roboter verbunden ist:

Der „Forscher" (Modus 1): Dieser Teil ist super gut im Fragenstellen. Er nutzt ein digitales Werkzeug, um eine Karte des Raumes zu zeichnen. Wenn er etwas nicht sieht oder nicht versteht, plant er den kürzesten Weg, um die Lücke zu füllen. Er fragt nicht „Ist A sicher? Ist B sicher? Ist C sicher?", sondern er fragt: „Ist A sicher? Wenn ja, dann ist B automatisch okay." Das spart Zeit.
Der „Profi-Partner" (Modus 2): Dieser Teil ist super gut im Beobachten. Er berechnet ständig eine Wahrscheinlichkeit: „Wie wahrscheinlich ist es, dass mein Partner jetzt zur Kiste A oder zur Kiste B will?" Basierend darauf entscheidet er sofort, ob er hilft oder sich zurückhält.

Was haben sie getestet?

Die Forscher haben das System nicht nur am Computer getestet, sondern auch mit echten Drohnen (UAVs) in einem echten Raum.

Szenario 1: Ein Mensch gibt eine unklare Anweisung („Hol die Medizin"). Der Roboter muss herausfinden, welche Box die Medizin enthält und ob der Weg frei ist.
- Ergebnis: Der Roboter fragte viel weniger als andere Systeme, fand aber immer die richtige Box und den sicheren Weg.
Szenario 2: Ein Mensch und ein Roboter müssen gemeinsam Aufgaben erledigen, ohne zu reden.
- Ergebnis: Zusammen waren sie 25 % schneller als wenn sie einfach nur nebeneinander her gearbeitet hätten. Der Roboter half genau dort, wo er gebraucht wurde, und störte nicht.

Fazit in einem Satz

Dieses System verwandelt den Roboter von einem sturen Werkzeug, das nur Befehle befolgt, in einen echten Teamkollegen, der versteht, wenn Sie unsicher sind, kluge Fragen stellt, um Zeit zu sparen, und Ihre Absichten „fühlt", damit Sie reibungslos zusammenarbeiten können – ganz ohne ständiges Reden.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Uncertainty Mitigation and Intent Inference: A Dual-Mode Human-Machine Joint Planning System" auf Deutsch:

1. Problemstellung

Die effektive Zusammenarbeit zwischen Mensch und Roboter in offenen Umgebungen (z. B. Rettungseinsätze, Gesundheitswesen) steht vor der Herausforderung, unter Unsicherheiten zu planen. Bestehende Ansätze behandeln Menschen oft nur als passive Aufsichtspersonen oder verlassen sich ausschließlich auf die Inferenz menschlicher Absichten ohne Kommunikation. Dies führt zu zwei Hauptproblemen:

Wissenslücken und semantische Ambiguität: Menschliche Anweisungen sind oft unvollständig oder mehrdeutig (z. B. „Hole die Medizin aus der Box"), und Umgebungsobjekte (z. B. Durchlässigkeit von Hindernissen wie Rauch oder Netzen) sind nicht vollständig beobachtbar.
Latente menschliche Absichten: In kooperativen Szenarien muss der Roboter die Absicht des Menschen vorhersagen, ohne explizite Kommunikation. Herkömmliche Methoden versagen oft darin, langfristige Absichtsentwicklungen zu modellieren oder führen zu ineffizienter Koordination (z. B. redundante Arbeit bei unabhängigen Aufgaben oder Wartezeiten bei kooperativen Aufgaben).

Das Ziel ist es, autonome Agenten zu schaffen, die als proaktive Teammitglieder agieren, die aktiv nach Informationen fragen, Unsicherheiten auflösen und sich dynamisch an menschliche Prioritäten anpassen können.

2. Methodik

Das vorgeschlagene System ist ein einheitlicher Planungsansatz, der auf einem Dual-Mode-Modell basiert und zwei komplementäre Modi innerhalb einer Kern-Planungsmaschine (Core Planning Engine) nutzt:

Modus 1: Unsicherheitsmindernde gemeinsame Planung (Uncertainty-Mitigation Joint Planning)

Dieser Modus löst Unsicherheiten durch bidirektionale Kommunikation (Mensch-Roboter-Dialog).

Zielambiguität: Ein Large Language Model (LLM) erstellt einen Planentwurf und verankert natürliche Sprachbeschreibungen in physischen Objekten der Umgebung. Wenn mehrere Kandidatenobjekte existieren, nutzt der Agent Werkzeuge (Vergleiche, Zufall) oder fragt den Menschen gezielt, um die Zielwahrscheinlichkeit zu aktualisieren.
Hindernisunsicherheit (Durchlässigkeit): Der Algorithmus nutzt eine hypothesenbasierte A-Suche*. Er generiert einen Zustandsraum, der Annahmen über die Durchlässigkeit von Hindernissen (z. B. „Ist das Feuer passierbar?") enthält.
Optimale Abfragestrategie: Basierend auf einem generierten Entscheidungsbaum wird das Problem als dynamische Programmierung formuliert. Das Ziel ist die Minimierung der erwarteten Gesamtkosten (Interaktionskosten + Verifikationskosten). Der Roboter fragt nur dann nach, wenn die Information den Plan signifikant beeinflusst, und verzichtet auf unnötige Fragen.

Modus 2: Echtzeit-absichtsbewusste Zusammenarbeit (Real-Time Intent-Aware Collaboration)

Dieser Modus ermöglicht die Koordination ohne explizite Kommunikation, indem er eine probabilistische Glaubensverteilung über die menschliche Absicht aufrechterhält.

Glaubensupdate: Der Roboter aktualisiert seine Annahme über das menschliche Ziel ( $g_t$ $g_{t}$ ) basierend auf zwei geometrischen Indikatoren:
1. Entfernung zum Zielobjekt.
2. Ausrichtung (Heading Alignment) der menschlichen Bewegungsrichtung.
  Diese werden exponentiell geglättet, um Rauschen zu reduzieren.
Koordinationsbewusste Aufgabenwahl: Der Roboter unterscheidet zwischen unabhängigen Aufgaben (kann von einem Agenten erledigt werden) und kooperativen Aufgaben (erfordern beide).
- Bei kooperativen Aufgaben nähert sich der Roboter dem Ziel und wartet bei Bedarf.
- Bei unabhängigen Aufgaben vermeidet der Roboter redundante Arbeit, indem er ein anderes, nicht vom Menschen gewähltes Ziel übernimmt, falls verfügbar.
Stabilitätsgating: Ein Schwellenwert verhindert häufiges Wechseln des Ziels bei unsicheren Absichtsschätzungen.

Systemarchitektur & Wahrnehmung

Wahrnehmung: Ein Vision-Language-Model (VLM) kombiniert Grounded-SAM und 3D-Gaussian-Splatting, um eine semantische 3D-Karte zu erstellen. Dies ermöglicht das Verständnis natürlicher Sprachbefehle in Bezug auf Objekte in der 3D-Umgebung.
Schnittstelle: Eine Sprachschnittstelle (Whisper, GPT-4o, TTS) ermöglicht die Interaktion.
Ausführung: Die Hochleistungspläne werden an einen Low-Level-Controller (Reinforcement Learning auf einem UAV) gesendet.

3. Wichtige Beiträge

Unsicherheitsmindernder Planungsmodul: Ein neuer Ansatz zur effizienten Auflösung von Ziel- und Hindernisunsicherheiten durch bidirektionale Kommunikation, der eine optimale Abfragestrategie mittels dynamischer Programmierung berechnet, um Interaktionskosten zu minimieren.
Echtzeit-absichtsbewusster Kooperationsmodul: Ein leichtgewichtiges probabilistisches Modell, das menschliche Absichten aus räumlichen und Bewegungsdaten ableitet und die Kooperationsstrategie dynamisch anpasst, ohne Nachtraining oder explizites Feedback.
Integriertes Prototyp-System: Ein vollständiges End-to-End-System, das Wahrnehmung (VLM/3D-Karte), Planung und Steuerung (UAV) verbindet und in Simulation sowie realen Umgebungen validiert wurde.

4. Ergebnisse

Die Validierung erfolgte in Gazebo-Simulationen und realen UAV-Einsätzen (mit einem Quadrocopter und einem menschlich ferngesteuerten UGV).

Unsicherheitsminderung (Modus 1):
- Im Vergleich zu Baselines (keine Abfrage vs. exhaustive Abfrage) reduzierte das System die Anzahl der Abfragen um 51,9 % und den Token-Verbrauch um 30,3 %.
- Die Erfolgsrate blieb bei 100 % (im Gegensatz zu 71 % bei der „keine Abfrage"-Methode).
- In realen Experimenten wurde die Interaktionskosten um 51,9 % gesenkt, während die Erfolgsrate bei 100 % blieb.
Absichtsbewusste Zusammenarbeit (Modus 2):
- Die Absichtserkennung erreichte eine durchschnittliche Wahrscheinlichkeit für das richtige Ziel von 74,3 % und eine Top-1-Genauigkeit von 95,0 % in realen Tests.
- Im Vergleich zu einer nicht-kooperativen Baseline (Roboter wählt einfach das nächste Ziel) reduzierte das System die Gesamtausführungszeit um 25,4 % und die zurückgelegte Distanz um 17,9 %.
- Der menschliche Aufwand (zurückgelegte Distanz) sank um 18,3 %, da der Roboter redundante Aufgaben übernahm.

5. Bedeutung und Fazit

Dieses Paper stellt einen signifikanten Fortschritt in der Mensch-Roboter-Kollaboration dar, indem es die Lücke zwischen passiver Befehlsausführung und echter Teamarbeit schließt.

Effizienz: Durch die intelligente Auswahl von Abfragen wird die Kommunikation auf das Wesentliche reduziert, was Zeit und Ressourcen spart.
Adaptivität: Das System kann sich in Echtzeit an sich ändernde menschliche Absichten anpassen, ohne dass der Mensch explizit eingreifen muss.
Praktische Anwendbarkeit: Die erfolgreiche Implementierung in einer realen UAV-Umgebung mit komplexer semantischer Wahrnehmung zeigt, dass solche Systeme für kritische Anwendungen wie Such- und Rettungseinsätze (SAR) einsatzbereit sind.

Zukünftige Arbeiten werden darauf abzielen, die beiden Modi noch enger zu koppeln (dynamischer Wechsel zwischen impliziter Inferenz und explizitem Fragen) und das System auf Multi-Agenten-Szenarien zu skalieren.

Uncertainty Mitigation and Intent Inference: A Dual-Mode Human-Machine Joint Planning System

Das große Problem: Der „dunkle Raum" der Unsicherheit

Die Magie dahinter: Wie funktioniert das?

Was haben sie getestet?

Fazit in einem Satz

1. Problemstellung

2. Methodik

Modus 1: Unsicherheitsmindernde gemeinsame Planung (Uncertainty-Mitigation Joint Planning)

Modus 2: Echtzeit-absichtsbewusste Zusammenarbeit (Real-Time Intent-Aware Collaboration)

Systemarchitektur & Wahrnehmung

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities