FinTexTS: Financial Text-Paired Time-Series Dataset via Semantic-Based and Multi-Level Pairing

Die Arbeit stellt FinTexTS vor, ein neues groß angelegtes Datenset für Finanzzeitreihen, das durch einen semantikbasierten und mehrstufigen Paarungsansatz mit LLMs erstellt wurde, um komplexe Marktinterdependenzen besser zu erfassen und die Vorhersagegenauigkeit von Aktienkursen zu verbessern.

Jaehoon Lee, Suhwan Park, Tae Yoon Lim, Seunghan Lee, Jun Seo, Dongwan Kang, Hwanil Choi, Minjae Kim, Sungdong Yoo, SoonYoung Lee, Yongjae Lee, Wonbin Ahn

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, das Wetter in Ihrer Stadt vorherzusagen.

Der alte Weg (die bisherigen Methoden):
Früher haben die Wettervorhersager nur geschaut, ob in der Zeitung das Wort "Regen" oder "Ihre Stadt" vorkommt. Wenn die Zeitung sagte: "In Berlin regnet es", sagten sie: "Ah, perfekt für Berlin!" Aber wenn die Zeitung schrieb: "Ein Sturm zieht über die ganze Region und bringt Regen mit sich", ohne "Berlin" zu erwähnen, haben sie das ignoriert. Oder sie haben einen Artikel über "Regen in München" gelesen und fälschlicherweise angenommen, es regne auch in Berlin, nur weil beide Städte in Deutschland liegen. Das war oft ungenau und verpasste wichtige Zusammenhänge.

Die neue Lösung (FinTexTS):
Die Forscher von LG AI Research und der UNIST haben eine viel schlauere Methode entwickelt, die sie FinTexTS nennen. Man kann sich das wie einen super-intelligenten Finanz-Detektiv vorstellen, der nicht nur nach Wörtern sucht, sondern die Bedeutung versteht.

Hier ist, wie dieser Detektiv arbeitet, in drei einfachen Schritten:

1. Der Kontext-Check (Die "Akten")

Bevor der Detektiv die Nachrichten liest, schaut er sich die offiziellen Unterlagen eines Unternehmens an (die sogenannten SEC-Filings). Das ist wie ein persönliches Tagebuch des Unternehmens, in dem steht: "Wir bauen gerade neue Computerchips" oder "Wir haben einen neuen Partner gefunden".

  • Der Trick: Anstatt nur nach dem Firmennamen zu suchen, nutzt der Detektiv diese Informationen als "Suchbegriff". Wenn das Tagebuch sagt "Wir bauen Chips", sucht er nach Nachrichten über "Chips", "Halbleiter" oder "KI", auch wenn der Firmenname gar nicht darin vorkommt. So findet er relevante Nachrichten, die andere übersehen hätten.

2. Die vier Ebenen der Nachrichten (Der "Radar")

Der Detektiv merkt schnell, dass nicht alle Nachrichten gleich wichtig sind. Er sortiert die Nachrichten in vier Ebenen, wie eine Zwiebel mit vier Schichten:

  • Ebene 1: Die Welt (Makro-Ebene): Das sind die großen Dinge, die alle betreffen. Zum Beispiel: "Die Zentralbank erhöht die Zinsen" oder "Ein Krieg bricht aus". Das beeinflusst fast jeden.
  • Ebene 2: Die Branche (Sektor-Ebene): Das betrifft nur eine Gruppe. Zum Beispiel: "Alle Autohersteller haben Probleme mit Lieferketten".
  • Ebene 3: Die Nachbarn (Verwandte Firmen): Das betrifft die Konkurrenten oder Partner. Wenn ein großer Lieferant pleitegeht, ist das auch schlecht für das Zielunternehmen, auch wenn es nicht direkt erwähnt wird.
  • Ebene 4: Das Unternehmen selbst (Ziel-Ebene): Das sind die direkten Nachrichten über das spezifische Unternehmen.

Der alte Weg hat oft nur die vierte Ebene (das Unternehmen selbst) beachtet. FinTexTS nimmt aber alle vier Ebenen zusammen, um ein vollständiges Bild zu bekommen.

3. Die Zusammenfassung (Der "Zusammenfasser")

Da es tausende Nachrichten gibt, wäre es unmöglich, sie alle zu lesen. Deshalb nutzt der Detektiv eine künstliche Intelligenz (LLM), die wie ein guter Lektor funktioniert. Er liest alle relevanten Nachrichten, fasst sie kurz zusammen und filtert das Wichtigste heraus. So bekommt das Computermodell nur die "Kernbotschaften" und nicht den ganzen "Lärm".

Warum ist das so wichtig?

Stellen Sie sich vor, Sie wollen den Aktienkurs von NVIDIA vorhersagen.

  • Der alte Weg: Sucht nach "NVIDIA". Findet vielleicht einen Artikel über "NVIDIA-Aktien steigen".
  • Der FinTexTS-Weg: Weiß aus den Unterlagen, dass NVIDIA Chips für KI macht. Er findet einen Artikel über "Durchbrüche in der KI-Technologie", auch wenn "NVIDIA" nicht darin steht. Er sieht auch, dass ein Konkurrent (z.B. AMD) einen großen Auftrag bekommen hat (Nachbar-Ebene) und dass die Regierung neue Gesetze für Chips macht (Welt-Ebene).

Das Ergebnis:
Durch diese Art, Nachrichten zu sammeln und zu verstehen, können Computermodelle den Aktienkurs viel besser vorhersagen als mit den alten Methoden. Es ist wie der Unterschied zwischen einem Wetterbericht, der nur auf ein Thermometer schaut, und einem, der Satellitenbilder, Winddaten und historische Muster kombiniert.

Zusammenfassend:
FinTexTS ist eine riesige Datenbank, die Aktienkurse nicht isoliert betrachtet, sondern sie in den großen Kontext stellt. Sie verbindet Zahlen (Aktienkurse) mit Sprache (Nachrichten) auf eine Weise, die menschliches Verständnis nachahmt: Sie versteht, dass ein Unternehmen nicht im Vakuum existiert, sondern von der Welt, der Branche und seinen Nachbarn beeinflusst wird.