VISTA: Vision-Language Inference for Training-Free Stock Time-Series Analysis

Die Arbeit stellt VISTA vor, ein trainingsfreies Framework, das multimodale Vision-Language-Modelle nutzt, um durch die Kombination von Text und Diagrammen historische Aktienkurse zu analysieren und zukünftige Werte präziser vorherzusagen als herkömmliche unimodale Ansätze.

Tina Khezresmaeilzadeh, Parsa Razmara, Seyedarmin Azizi, Mohammad Erfan Sadeghi, Erfan Baghaei Potraghloo

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

VISTA: Der „Augen-öffner" für Aktienkurse

Stell dir vor, du versuchst, das Wetter für die nächsten fünf Tage vorherzusagen. Du hast zwei Möglichkeiten:

  1. Du siehst dir nur eine lange Liste von Zahlen an (z. B. Temperatur: 20, 21, 19, 22...).
  2. Du siehst dir eine Kurve an, die diese Zahlen als Linie darstellt, und hast daneben die Zahlenliste.

Die meisten Computerprogramme für Aktienkurse machen nur das Erste: Sie schauen sich die Zahlen an. Die Forscher hinter VISTA (Vision-Language Inference for Stock Time-series Analysis) haben sich gefragt: „Was wäre, wenn wir dem Computer auch die Grafik zeigen?"

Das Ergebnis ist ein System, das nicht nur „rechnet", sondern auch „sieht" – und dabei erstaunlich gut funktioniert, ohne dass man es erst mühsam trainieren muss.

1. Das Problem: Zahlen sind oft verwirrend

Aktienkurse sind chaotisch. Sie springen hoch und runter wie ein aufgeregtes Kind auf einem Trampolin. Wenn man nur die Zahlenreihen betrachtet, sieht es oft aus wie zufälliges Rauschen. Es ist schwer zu erkennen, ob sich eine echte Tendenz (ein Trend) bildet oder ob es nur Zufall ist.

Der Vergleich: Stell dir vor, du versuchst, die Melodie eines Liedes zu erkennen, indem du dir nur die Notenwerte auf einem Zettel ansiehst, ohne sie zu hören. Es ist schwer. Aber wenn du dir die Wellenform des Liedes (die Grafik) ansiehst, erkennst du sofort den Rhythmus und die Höhe der Töne. Genau das macht VISTA: Es schaut sich die „Wellenform" der Aktien an.

2. Die Lösung: Ein Computer mit Augen und Verstand

VISTA nutzt eine spezielle Art von künstlicher Intelligenz, die man sich wie einen super-intelligenten Assistenten vorstellen kann, der sowohl lesen als auch sehen kann.

  • Der Text-Teil: Der Assistent liest die Zahlen der letzten Tage (z. B. „Gestern war der Kurs 100, heute 102...").
  • Der Bild-Teil: Der Assistent schaut sich gleichzeitig die Linie an, die diese Zahlen verbindet.

Warum ist das wichtig?
Menschen erkennen Muster oft besser mit ihren Augen als mit ihren Zahlen. Wenn eine Linie immer wieder an einer bestimmten Höhe abprallt (wie ein Ball, der gegen eine Wand stößt), sieht man das sofort auf dem Bild. Ein Computer, der nur Zahlen liest, muss das erst mühsam ausrechnen. VISTA sieht das Muster sofort.

3. Der Trick: „Denke laut" (Chain-of-Thought)

Nur das Bild zu zeigen, reichte noch nicht ganz. Die Forscher gaben dem Assistenten eine weitere Anweisung: „Erkläre mir erst, was du siehst, bevor du eine Vorhersage machst."

Das nennt man „Chain-of-Thought" (Gedankenkette).

  • Ohne Trick: Der Assistent sagt einfach: „Morgen wird der Kurs 101 sein."
  • Mit Trick: Der Assistent sagt: „Ich sehe, dass die Linie in den letzten Tagen immer wieder bei 100 gestoppt wurde. Sie bildet ein Dreieck nach unten. Das sieht nach einem Abwärtstrend aus. Also sage ich voraus, dass der Kurs morgen auf 99 fällt."

Dieses „Nachdenken" hilft dem Computer, die Logik hinter dem Bild zu verstehen, statt nur zu raten.

4. Die Ergebnisse: Sehen ist besser als Rechnen

Die Forscher haben VISTA gegen klassische Methoden getestet:

  • Gegen alte mathematische Modelle (ARIMA): Diese sind wie ein alter Taschenrechner, der nur einfache Muster kennt. VISTA war oft deutlich besser.
  • Gegen reine Text-KI: Modelle, die nur die Zahlen lesen, lagen oft daneben. VISTA, das auch das Bild sieht, war in vielen Fällen bis zu 90 % genauer.

Ein konkretes Beispiel aus dem Papier:
Stell dir eine Aktie vor, die zwischen 100 und 102 schwankt.

  • Ein reiner Text-Computer denkt: „Es schwankt hin und her, also schwankt es weiter."
  • VISTA schaut auf das Bild, sieht eine Form, die wie ein fallendes Dreieck aussieht (ein technisches Signal für „Abwärts"), und sagt: „Nein, die Linie wird bald nach unten brechen."
    Und tatsächlich: VISTA lag mit dieser Vorhersage richtig, während der Text-Computer danebenlag.

5. Warum ist das revolutionär?

Früher musste man KI-Modelle monatelang mit riesigen Datenmengen „füttern" (trainieren), damit sie gut werden. Das kostet viel Geld und Energie.
VISTA ist trainingsfrei. Das bedeutet: Man muss das Modell nicht neu lernen lassen. Man gibt ihm einfach die aktuellen Aktienzahlen und das Bild, und es nutzt sein allgemeines Wissen, um sofort eine fundierte Vorhersage zu treffen.

Fazit

VISTA ist wie ein erfahrener Börsenhändler, der nicht nur auf die Zahlen auf dem Bildschirm starrt, sondern auch die Kurven auf dem Chart betrachtet und dabei laut seine Gedanken ordnet. Es zeigt uns, dass für die Vorhersage von Aktienkurse das Sehen genauso wichtig ist wie das Rechnen.

Indem wir Computern erlauben, Charts zu „sehen", können wir bessere Entscheidungen treffen – ohne dass wir dafür riesige Rechenzentren oder jahrelanges Training benötigen.