Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Die Autoren stellen mit CourtSI und dem zugehörigen Benchmark CourtSI-Bench das erste groß angelegte Datenset und Evaluierungsframework vor, das speziell darauf ausgelegt ist, die räumliche Intelligenz von Vision-Language-Modellen in dynamischen Sport-Szenarien zu testen und zu verbessern, wobei Fine-Tuning auf diesem Datensatz zu signifikanten Leistungssteigerungen führt.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie man KI-Sportler auf das Spielfeld stellt: Ein neuer Test für räumliches Denken

Stellen Sie sich vor, Sie könnten einem Roboter ein Foto von einem Tennismatch zeigen und ihn fragen: „Wie weit ist der Ball vom linken Fuß des Spielers entfernt?" oder „Wer steht näher am Netz?" Für uns Menschen ist das eine einfache Sache – wir schauen hin und schätzen es ab. Für Künstliche Intelligenz (KI) ist das jedoch wie ein Albtraum.

Bisher waren KIs wie Vision-Language Models (VLMs) – also KIs, die Bilder und Sprache verstehen – sehr gut darin, Dinge zu beschreiben („Das ist ein Tennisschläger"). Aber wenn es darum ging, den Abstand oder die Position im dreidimensionalen Raum zu verstehen, stolperten sie oft. Sie sahen das Bild, aber sie „fühlten" den Raum nicht.

Hier kommt das neue Projekt CourtSI ins Spiel. Die Forscher haben sich etwas Cleveres einfallen lassen, um diese Lücke zu schließen.

1. Der große Trick: Das Spielfeld als Lineal

Das Problem bei normalen Fotos ist, dass sie flach sind. Ein KI-Modell weiß nicht, ob ein Spieler groß und nah oder klein und weit weg ist.

Die Lösung der Forscher ist genial einfach: Sie nutzen das Spielfeld als Maßstab.
Stellen Sie sich vor, Sie werfen ein Foto von einem Tennisplatz in eine Maschine. Das Spielfeld hat feste Linien und feste Abmessungen (z. B. 23,77 Meter lang). Die KI nutzt diese Linien wie ein unsichtbares Lineal.

  • Die Analogie: Es ist, als würde man einem Kind ein Foto von einem Zimmer zeigen, in dem man vorher genau gemessen hat, wie groß der Teppich ist. Wenn das Kind nun fragt, wie weit ein Spielzeug vom Fenster entfernt ist, kann es das am Teppich abmessen.
  • Die Technik: Die Forscher haben eine halbautomatische „Daten-Maschine" gebaut. Sie markiert die Ecken des Feldes auf dem Foto, berechnet daraus exakt, wie die Kamera stand, und rekonstruiert dann die 3D-Positionen von Spielern und Bällen. So entsteht aus einem flachen Bild eine präzise 3D-Welt.

2. Der riesige Trainingsplatz: CourtSI

Mit dieser Maschine haben die Forscher einen riesigen Datensatz namens CourtSI erstellt.

  • Die Menge: Es sind über 1 Million Fragen und Antworten (QA-Paare).
  • Die Sportarten: Badminton, Tennis und Tischtennis.
  • Die Fragen: Sie reichen von einfachem Zählen („Wie viele Spieler sind zu sehen?") bis zu komplexer Physik („Wie viele Zentimeter ist der Ball über dem Netz?").

Es ist wie ein riesiges Schulbuch für KI, das sie nicht nur lesen, sondern verstehen müssen.

3. Der große Test: CourtSI-Bench

Um zu sehen, ob die KIs wirklich gelernt haben, haben die Forscher einen strengen Test entwickelt: CourtSI-Bench.

  • Hier wurden 25 der besten KIs der Welt (sowohl kommerzielle wie GPT-5 als auch offene Modelle) getestet.
  • Das Ergebnis: Die KIs haben es versucht, aber sie haben oft versagt. Besonders bei der Messung von Entfernungen waren sie weit hinter dem menschlichen Niveau.
  • Das Problem: Viele KIs, die auf anderen räumlichen Tests gut waren, scheiterten hier. Warum? Weil Sport dynamisch ist. Bälle fliegen, Menschen bewegen sich, und die Perspektive täuscht. Die alten Tests waren zu statisch (wie Möbel in einem Zimmer), während Sport wie ein wilder Tanz ist.

4. Der Durchbruch: Lernen durch Nachhilfe

Die Forscher haben dann eine KI (Qwen3-VL-8B) genommen und sie mit dem neuen CourtSI-Datensatz „nachgehilft" (fine-tuning).

  • Das Ergebnis: Die KI wurde plötzlich um 23,5 % besser. Sie konnte Entfernungen viel genauer schätzen.
  • Der Transfer: Das Beste war: Die KI konnte ihr Wissen auch auf einen Sport übertragen, den sie nie gesehen hatte (Pickleball). Das ist wie ein Schüler, der Mathe lernt und plötzlich auch Physik versteht, ohne extra dafür gelernt zu haben.

5. Warum ist das wichtig?

Stellen Sie sich vor, Sie schauen sich ein Spiel im Fernsehen an und ein KI-Kommentator sagt nicht nur: „Der Spieler schlägt den Ball", sondern: „Der Spieler steht genau 2,4 Meter vom Netz entfernt und schlägt den Ball mit einer Geschwindigkeit, die ihn in 0,5 Sekunden über das Netz bringt."

Das ist die Zukunft, die dieses Projekt ermöglicht. Es zeigt, dass wir KI nicht nur lehren können, Bilder zu sehen, sondern ihnen beibringen können, die Welt zu begreifen.

Zusammenfassung in einem Satz:
Die Forscher haben KI-Systemen beigebracht, Sportspiele nicht nur als flache Bilder zu sehen, sondern als echte 3D-Welten, indem sie das Spielfeld als Maßstab nutzten – und damit einen riesigen Schritt hin zu intelligenteren, räumlich denkenden Robotern gemacht.