Unifying Language-Action Understanding and Generation for Autonomous Driving
Die Arbeit stellt LinkVLA vor, ein neuartiges Modell für das autonome Fahren, das durch die Vereinheitlichung von Sprach- und Aktionstokens in einem gemeinsamen Codebuch, ein zusätzliches Verständnisziel für bidirektionale Semantik und eine effiziente C2F-Generierung die Ausrichtung zwischen Sprache und Aktionen verbessert sowie die Inferenzzeit um 86 % reduziert.