StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving
Die Arbeit stellt StyleVLA vor, ein physikinformiertes Vision-Language-Action-Modell auf Basis von Qwen3-VL-4B, das durch einen hybriden Verlust und einen umfangreichen Datensatz mit 1,2k Szenarien diverse, physikalisch plausible Fahrmanöver in verschiedenen Fahrstilen generiert und dabei proprietäre Modelle wie Gemini-3-Pro deutlich übertrifft.