Janus-Q: End-to-End Event-Driven Trading via Hierarchical-Gated Reward Modeling

Janus-Q ist ein end-to-end Framework für den ereignisgesteuerten Handel, das durch den Aufbau eines großen ereigniszentrierten Datensatzes und eine optimierte Feinabstimmung mit einem hierarchisch gegliederten Belohnungsmodell (HGRM) die Handelsentscheidungen von Sprachmodellen präziser, interpretierbarer und profitabler macht.

Xiang Li, Zikai Wei, Yiyan Qi, Wanyun Zhou, Xiang Liu, Penglei Sun, Jian Guo, Yongqi Zhang, Xiaowen Chu

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🌟 Die große Idee: Warum Zahlen allein nicht reichen

Stell dir den Finanzmarkt wie ein riesiges, chaotisches Orchester vor. Die meisten Computerprogramme, die heute versuchen, Aktien zu handeln, hören nur auf die Musiknoten (die historischen Kurse, das Volumen, die Charts). Sie versuchen, die nächste Note vorherzusagen, indem sie nur auf die letzten Töne schauen.

Aber das Problem ist: Oft wird die Musik nicht durch die Noten selbst verändert, sondern durch einen plötzlichen Schrei im Publikum oder einen Witz des Dirigenten. Das sind die „Ereignisse" – Nachrichten wie „Das Unternehmen hat einen neuen CEO", „Es gab einen Skandal" oder „Ein neues Patent wurde erteilt".

Die alten Computerprogramme verstehen diese Schreie nicht richtig. Sie sehen nur, dass die Musik lauter oder leiser wurde, aber nicht warum.

🧠 Janus-Q: Der zweiköpfige Finanz-Detektiv

Die Forscher haben Janus-Q entwickelt. Der Name kommt von „Janus", dem römischen Gott mit zwei Gesichtern: eines schaut in die Vergangenheit, das andere in die Zukunft.

Janus-Q ist wie ein Super-Detektiv, der nicht nur auf die Noten (Zahlen) hört, sondern auch den Text der Nachrichten (die Geschichte) liest und versteht. Er macht zwei Dinge gleichzeitig:

  1. Er liest die Nachricht und versteht die Bedeutung (Ist das gut? Ist das schlecht? Ist es ein Skandal?).
  2. Er weiß genau, wie der Markt auf solche Nachrichten in der Vergangenheit reagiert hat.

🛠️ Wie funktioniert das? (Die zwei Schritte)

Stell dir vor, du willst einen jungen Lehrling zum besten Aktienhändler der Welt ausbilden. Janus-Q macht das in zwei Phasen:

Schritt 1: Das riesige Lernbuch (Daten-Erstellung)

Bevor der Lehrling lernen kann, braucht er ein riesiges Lehrbuch. Die Forscher haben 62.400 Nachrichtenartikel gesammelt und von echten Finanzexperten wie mit einem roten Stift markiert lassen.

  • Was ist passiert? (z. B. „Risiko-Warnung" oder „Dividende").
  • Welche Firma?
  • Wie hat der Markt reagiert? (Ist der Kurs gestiegen oder gefallen? Wie stark?)

Das ist wie ein Kochbuch, in dem nicht nur das Rezept steht, sondern auch genau notiert ist: „Wenn du zu viel Salz nimmst, schmeckt es zu salzig. Wenn du zu wenig nimmst, ist es fade."

Schritt 2: Das Training mit dem „Klugscheißer-Coach" (HGRM)

Jetzt kommt der Lehrling ins Spiel. Er liest eine Nachricht und sagt: „Ich denke, die Aktie wird steigen!"
Aber wie weiß er, ob er recht hat? Hier kommt der HGRM (Hierarchical Gated Reward Model) ins Spiel. Stell dir das wie einen strengen, aber fairen Trainer vor, der drei Fragen stellt, bevor er Punkte gibt:

  1. Die Richtungs-Wächter-Tür (Hard Gate): „Hast du die Richtung richtig verstanden?" Wenn der Lehrling sagt „Steigen", aber die Aktie fällt, gibt es sofort 0 Punkte. Er darf nicht einmal versuchen, Geld zu verdienen, wenn er die Richtung falsch einschätzt. Das verhindert dumme Fehler.
  2. Der Kontext-Check (Soft Gate): „Hast du die Art der Nachricht richtig erkannt?" Wenn es eine „Risiko-Warnung" war und er denkt, es sei eine „Dividende", bekommt er weniger Punkte. Er muss verstehen, was passiert ist, nicht nur dass etwas passiert ist.
  3. Der Gewinn-Check (Trading Reward): „Hast du wirklich Geld verdient?" Hier wird berechnet, ob der Trade nach Abzug der Kosten (wie Gebühren) profitabel war.

Der Trainer belohnt den Lehrling nur, wenn er alles richtig macht: Die Nachricht richtig lesen, die Art der Nachricht verstehen und die richtige Handelsentscheidung treffen.

🏆 Das Ergebnis: Warum ist das besser?

Wenn man Janus-Q gegen die alten Computerprogramme (die nur auf Zahlen schauen) und gegen die neuesten KI-Modelle (die zwar gut lesen können, aber keine Erfahrung mit dem Markt haben) antreten lässt, gewinnt Janus-Q deutlich.

  • Die alten Programme waren wie ein Blindgänger, der nur auf das Ticken einer Uhr hört.
  • Die neuen KI-Modelle waren wie ein Philosoph, der schöne Texte schreibt, aber keine Ahnung hat, wie man damit Geld verdient.
  • Janus-Q ist wie ein erfahrener Trader, der die Nachrichten liest, versteht, was sie bedeuten, und genau weiß, wie der Markt darauf reagiert.

Die Zahlen sprechen für sich:

  • Janus-Q hat die Richtung der Märkte zu 17,5 % genauer vorhergesagt als die besten Konkurrenten.
  • Das Sharpe-Verhältnis (eine Art Maß für „wie viel Gewinn pro Risiko") hat sich um 102 % verbessert. Das bedeutet: Mehr Gewinn bei weniger Panik.

🎯 Zusammenfassung in einem Satz

Janus-Q ist wie ein KI-System, das gelernt hat, nicht nur die Musiknoten (Preise) zu hören, sondern auch die Geschichte dahinter (Nachrichten) zu verstehen, um genau zu wissen, wann man tanzen (kaufen) und wann man aufhören (verkaufen) soll – und das mit einer Genauigkeit, die menschliche Experten oft übertrifft.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →