Janus-Q: End-to-End Event-Driven Trading via Hierarchical-Gated Reward Modeling

Janus-Q is een end-to-end handelsframework dat financiële nieuwsgebeurtenissen als primaire beslissingsunits gebruikt en middels een hiërarchisch-gesloten beloningsmodel (HGRM) de prestaties van bestaande strategieën aanzienlijk verbetert door de Sharpe-ratio met tot 102,0% te verhogen.

Xiang Li, Zikai Wei, Yiyan Qi, Wanyun Zhou, Xiang Liu, Penglei Sun, Jian Guo, Yongqi Zhang, Xiaowen Chu

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de beurs een enorme, drukke markt is, waar elke dag duizenden nieuwsberichten als krantenkoppen door de lucht vliegen. De meeste computers die handelen op deze markt, kijken alleen naar de cijfers: ze tellen hoe de prijs van een aandeel gisteren, vandaag en morgen is gegaan. Ze proberen patronen te vinden in die lijnen, net als iemand die probeert het weer te voorspellen door alleen naar de thermometer van de afgelopen week te kijken.

Maar het probleem is dat de beurs niet alleen door cijfers wordt bewogen. Het wordt bewogen door gebeurtenissen. Een CEO die ontslagen wordt, een bedrijf dat een nieuwe fabriek bouwt, of een regering die nieuwe regels invoert. Deze gebeurtenissen zijn als plotselinge stormen of zonneschijn die de prijs van een aandeel in een seconde kunnen laten springen of zakken.

De onderzoekers van dit papier, Janus-Q, hebben een slimme oplossing bedacht voor dit probleem. Ze hebben een nieuw systeem gebouwd dat niet alleen naar de cijfers kijkt, maar eerst de verhaal leest en begrijpt.

Hier is hoe het werkt, vertaald in een simpel verhaal:

1. Het Grote Nieuwsarchief (De Data)

Stel je voor dat je een enorme bibliotheek hebt met 62.400 krantenartikelen. De onderzoekers hebben elk artikel niet alleen gelezen, maar ook zorgvuldig ingedeeld. Ze hebben voor elk artikel gekeken:

  • Wat voor soort nieuws is het? (Bijvoorbeeld: "Risico-waarschuwing" of "Dividend uitkering").
  • Welk bedrijf gaat het raken?
  • Hoe hebben de mensen erop gereageerd? (Is de prijs gestegen of gedaald?)
  • Hoeveel geld heeft dit opgeleverd?

Ze hebben dit gedaan door samen te werken met echte financiële experts, zodat de computer niet alleen "positief" of "negatief" leest, maar echt begrijpt of het nieuws een grote of kleine impact heeft.

2. De Twee-Stage Training (Het Leren)

Het systeem, Janus-Q, wordt op twee manieren getraind, net als een jonge handelsman die eerst theorie leert en dan praktijkervaring opdoet.

  • Fase 1: De Theorie (Supervised Fine-Tuning)
    De computer leert eerst de basisregels. Het krijgt een nieuwsartikel en moet zeggen: "Dit is een risico-waarschuwing, en historisch gezien dalen aandelen bij dit soort nieuws met ongeveer 2%." Het leert de link leggen tussen het verhaal en het cijfer.

  • Fase 2: De Praktijk met een Slimme Coach (Reinforcement Learning met HGRM)
    Dit is het echte geheim. Stel je voor dat de computer nu begint te handelen. Maar hoe weet hij of hij goed handelt?
    Normaal gesproken krijgt een computer alleen een punt als hij geld wint. Maar dat kan gevaarlijk zijn; de computer zou dan misschien heel risicovol handelen of op de verkeerde momenten kopen.

    Daarom hebben de onderzoekers een Slimme Coach (de Hierarchical Gated Reward Model) bedacht. Deze coach kijkt niet alleen naar het winstcijfer, maar ook naar de reden waarom de computer handelde:

    • De Deurwachter (Hard Gate): Als de computer denkt dat het nieuws goed is, maar het nieuws was eigenlijk slecht, sluit de coach de deur. Geen punten, geen handel. Dit voorkomt dat de computer op de verkeerde paarden wedt.
    • De Consistentie-Check (Soft Gate): Als de computer zegt "Dit is een fusie-nieuws" maar het was eigenlijk een "boete-nieuws", krijgt hij een straf. Hij moet de gebeurtenis goed begrijpen voordat hij geld mag verdienen.
    • De Winst-Check: Als hij de gebeurtenis goed heeft begrepen én de juiste richting heeft ingeslagen, krijgt hij punten.

    Deze coach zorgt ervoor dat de computer niet alleen "geluk" heeft, maar dat hij slim en verantwoord handelt.

3. Het Resultaat: De Slimme Trader

Toen ze Janus-Q testten tegen andere systemen (zoals traditionele computers die alleen naar cijfers kijken, of andere AI-modellen die niet specifiek voor de beurs zijn getraind), gebeurde er iets opmerkelijks:

  • Meer Winst: Janus-Q verdiende veel meer geld (de "Sharpe Ratio" verdubbelde bijna).
  • Minder Fouten: Het maakte minder fouten in het voorspellen van de richting (stijgen of dalen).
  • Stabiel: Het verloor minder geld tijdens moeilijke tijden dan de concurrenten.

Waarom is dit belangrijk?

Vroeger waren computers als blinden die voelden aan de muur (de cijfers) om te weten waar ze waren. Janus-Q is als iemand die een kaart heeft én de ogen openhoudt. Het begrijpt dat een nieuwsbericht over een brand in een fabriek (een gebeurtenis) directer invloed heeft op de prijs dan de gemiddelde prijsstijging van gisteren.

Kortom: Janus-Q is een AI-trader die eerst het verhaal leest, de gebeurtenis begrijpt, en dan pas een beslissing neemt, geholpen door een strenge coach die zorgt dat hij niet in de valkuilen trapt. Dit maakt het niet alleen winstgevender, maar ook veiliger en begrijpelijker voor mensen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →