Janus-Q: End-to-End Event-Driven Trading via Hierarchical-Gated Reward Modeling

Each language version is independently generated for its own context, not a direct translation.

Imaginez le marché financier comme un océan immense et agité. Pendant des décennies, les investisseurs ont essayé de prédire les vagues en regardant uniquement les graphiques de la mer (les prix passés). C'est comme essayer de deviner la météo en regardant seulement le niveau de l'eau : c'est difficile, bruyant et souvent trompeur.

Janus-Q propose une nouvelle approche : au lieu de regarder seulement l'eau, il écoute les annonces (les nouvelles) qui créent les vagues.

1. Le Problème : Pourquoi les anciennes méthodes échouent

Les systèmes actuels sont comme des automates un peu sourds. Ils voient une nouvelle (ex: "Une entreprise a changé de PDG") et essaient de la combiner avec des chiffres de prix. Mais ils ne comprennent pas vraiment la nouvelle.

Le problème n°1 (Le manque de carte) : Il n'existait pas de "livre de recettes" qui relie précisément un type d'événement (ex: une fusion d'entreprises) à sa réaction réelle sur le marché. C'est comme cuisiner sans savoir si le sel rend le plat meilleur ou plus salé.
Le problème n°2 (La confusion) : Les intelligences artificielles (LLM) sont très douées pour écrire des textes intelligents, mais elles ne savent pas toujours si leur texte va faire gagner ou perdre de l'argent. Elles peuvent dire "C'est une bonne nouvelle !" alors que le marché, lui, panique et vend.

2. La Solution : Janus-Q, le Chef Cuisinier Expert

Les auteurs ont créé Janus-Q, un système en deux étapes qui apprend à trader comme un humain expert, mais à la vitesse de l'éclair.

Étape 1 : Créer le "Grand Livre de Recettes" (Construction des données)

Avant d'enseigner à l'IA, les chercheurs ont créé une énorme base de données de 62 400 nouvelles financières.

Imaginez qu'ils ont pris chaque nouvelle, l'ont étiquetée avec une étiquette précise (ex: "Risque", "Fusion", "Dividende"), et ont noté ce qui s'est passé juste après : le prix a-t-il monté ? De combien ?
C'est comme si on avait entraîné un élève avec un manuel qui dit : "Quand on lit 'Fusion', le prix monte de 5% dans 80% des cas".

Étape 2 : L'Entraînement avec le "Juge à Double Portes" (Le modèle HGRM)

C'est ici que la magie opère. Janus-Q apprend à trader grâce à un système de récompense très intelligent, appelé Modèle de Récompense à Portes Hiérarchiques (HGRM).

Imaginez que l'IA passe un examen pour devenir trader. Elle ne reçoit pas juste un point pour avoir deviné le bon prix. Elle doit passer deux portes de sécurité :

La Porte Rigide (La Boussole) :
- Si l'IA dit "Achète !" alors que la nouvelle est mauvaise, la porte se ferme immédiatement. Zéro point.
- Analogie : C'est comme un garde qui arrête un conducteur s'il roule dans la mauvaise direction. Peu importe la vitesse, si la direction est fausse, c'est fini.
La Porte Douce (Le Chef d'Orchestre) :
- Si la direction est bonne, une deuxième porte vérifie la cohérence. L'IA a-t-elle bien compris le type de nouvelle ?
- Si elle dit "C'est une fusion" alors que c'est une "faillite", elle perd des points, même si elle a deviné que le prix allait bouger.
- Ensuite, elle est récompensée non seulement pour avoir gagné de l'argent, mais pour avoir géré les coûts (comme les frais de transaction) et pour avoir été précise dans son estimation.

3. Les Résultats : Pourquoi c'est génial ?

Quand on a testé Janus-Q contre les meilleurs traders humains et les autres IA :

Il gagne plus d'argent : Son "Score de Sharpe" (une mesure de rentabilité ajustée au risque) a augmenté de 102% par rapport au meilleur concurrent. C'est comme passer d'une bicyclette à une Ferrari.
Il est plus fiable : Il fait moins d'erreurs grossières. Il ne se fait pas piéger par le bruit du marché.
Il comprend le contexte : Contrairement aux autres qui regardent juste les chiffres, Janus-Q lit la nouvelle, comprend l'histoire derrière, et prend une décision logique.

En Résumé

Janus-Q est un trader artificiel qui ne se contente pas de regarder les graphiques. Il a lu des milliers de livres d'histoire financière, il a un garde du corps (la porte rigide) qui l'empêche de faire des bêtises, et un chef d'orchestre (la porte douce) qui s'assure qu'il joue la bonne note au bon moment.

Au lieu de deviner l'avenir en regardant le passé, il écoute les nouvelles pour comprendre pourquoi le marché bouge, et agit en conséquence. C'est le passage d'une prédiction aveugle à une décision éclairée.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les marchés financiers sont souvent pilotés par des événements discrets (annonces de résultats, fusions-acquisitions, risques réglementaires) plutôt que par des dynamiques temporelles lisses. Cependant, les approches de trading actuelles souffrent de deux limitations majeures :

Absence de données granulaires : Il manque des ensembles de données à grande échelle qui modélisent conjointement la sémantique des nouvelles financières et les réactions de marché statistiquement fondées (comme les rendements anormaux cumulés, CAR). Les approches existantes traitent souvent le texte comme un signal auxiliaire plutôt que comme l'unité décisionnelle principale.
Désalignement sémantique et économique : Les modèles de langage (LLM) peuvent générer des interprétations fluides, mais leur raisonnement n'est pas toujours ancré dans les résultats réels du marché. Une nouvelle "positive" peut entraîner une correction si elle était anticipée, et inversement. L'apprentissage supervisé pur capture des corrélations superficielles, tandis que l'optimisation par renforcement pure risque d'exploiter du bruit à court terme.

L'objectif est donc de passer d'une approche de prévision de séries temporelles à une approche pilotée par les événements, où les nouvelles financières sont les unités décisionnelles primaires.

2. Méthodologie : Le Framework Janus-Q

Janus-Q est un framework de trading en deux étapes qui élève les événements financiers du statut de signal auxiliaire à celui d'unité décisionnelle principale.

Étape I : Construction de Données Centrées sur l'Événement

Pour résoudre le manque de données, les auteurs ont construit un ensemble de données massif et annoté manuellement :

Volume : 62 400 articles de nouvelles financières.
Annotations : Chaque événement est étiqueté avec 10 types d'événements fins (ex: changement d'actions, risque, financement), les actions concernées, la polarité sémantique et, cruciallement, le Rendement Anormal Cumulé (CAR).
Modélisation CAR : Le CAR est calculé en utilisant une méthodologie d'étude d'événement classique (modèle de marché et neutralisation par un modèle de risque multifactoriel type Barra/CNE5) pour isoler l'impact causal de l'événement du bruit de marché général.

Étape II : Affinement Orienté Décision (Decision-Oriented Finetuning)

Le modèle subit un entraînement en deux phases pour aligner le raisonnement du LLM avec les actions de trading exécutables :

Affinement Supervisé (SFT) : Le modèle apprend à mapper les descriptions d'événements vers des prédictions de CAR attendues, intégrant la sémantique textuelle, les signaux de marché et les caractéristiques spécifiques de l'entreprise.
Affinement par Renforcement (RL) avec HGRM : C'est le cœur de l'innovation. Les auteurs introduisent un Modèle de Récompense à Portes Hiérarchiques (Hierarchical Gated Reward Model - HGRM) pour guider l'optimisation par renforcement (via GRPO - Group Relative Policy Optimization).

Fonctionnement du HGRM :
Le HGRM décompose la récompense en plusieurs niveaux pour éviter les stratégies spurious :

Porte Dure (Hard Gate) - Correction de Direction : Si le modèle prédit une direction opposée à la réalité (ex: "Acheter" alors que le marché baisse), la récompense est bloquée ( $g_{dir}=0$ ). Cela empêche tout profit spurious basé sur une mauvaise polarité.
Porte Douce (Soft Gate) - Cohérence du Type d'Événement : Une pénalité est appliquée si le type d'événement prédit est incorrect, réduisant la récompense de trading pour encourager une compréhension sémantique précise.
Récompense de Trading (PnL) : Calculée sur le profit réel (CAR moins les coûts de transaction), mais pondérée par la cohérence de l'événement et la force du signal.
Façonnage de Magnitude et Récompense de Processus : Des termes supplémentaires encouragent la précision de la magnitude du CAR et la qualité du raisonnement (chaîne de pensée).

3. Contributions Clés

Nouveau Dataset : Création d'un benchmark unifié de 62 400 événements financiers annotés avec des types d'événements fins, des sentiments et des CAR, comblant le vide entre la sémantique textuelle et les réactions de marché quantitatives.
Framework Janus-Q : Premier framework de trading piloté par les événements de bout en bout qui mappe directement les nouvelles financières aux décisions de trading, unifiant l'interprétation sémantique et l'apprentissage de la réponse de marché.
Modèle HGRM : Introduction d'une architecture de récompense hiérarchique et à portes qui force l'alignement entre le raisonnement sémantique et les résultats économiques réels, en pénalisant strictement les erreurs de direction tout en favorisant la cohérence des types d'événements.

4. Résultats Expérimentaux

Les expériences ont été menées sur un horizon de test allant de janvier 2023 à janvier 2025, comparant Janus-Q à des indices de marché (CSI 300, 500, 1000), des LLM temporels, des LLM financiers spécialisés et des LLM généraux.

Performance de Trading : Janus-Q surpasse systématiquement toutes les méthodes de base.
- Ratio de Sharpe : Il atteint un ratio de Sharpe de 1,3088, soit une amélioration de 102,0 % par rapport à la meilleure stratégie concurrente (QwQ-32B) et dépasse largement les indices négatifs.
- Précision de Direction : Amélioration de 17,5 % par rapport aux meilleures méthodes de comparaison.
- Précision des Types d'Événements : Amélioration de 18,2 %.
Robustesse : Contrairement aux autres modèles qui subissent des drawdowns persistants ou des trajectoires oscillatoires, Janus-Q maintient une tendance de croissance stable et capture efficacement les hausses soudaines du marché.
Études d'Ablation :
- Le retrait de l'étape SFT fait chuter le ratio de Sharpe en territoire négatif, prouvant son rôle fondamental.
- Le retrait de l'optimisation par renforcement (GRPO) réduit le ratio de Sharpe d'environ 13 %, montrant que le RL affine efficacement la politique apprise.
- Chaque composante de la récompense HGRM (direction, type d'événement, magnitude, PnL) est essentielle à la performance globale.
Alignement Humain : Dans une étude comparative sur 200 échantillons, Janus-Q montre un taux d'accord élevé avec des experts humains (étudiants en finance, analystes, CFA), surpassant les LLM de base en interprétation des événements.

5. Signification et Impact

Ce travail marque un changement de paradigme dans le trading algorithmique :

De la prévision à la décision : Il démontre que traiter les événements comme des unités décisionnelles primaires est supérieur aux approches de prévision de séries temporelles purement numériques.
Alignement Sémantique-Économique : Il résout le problème de la "boîte noire" des LLM financiers en utilisant un mécanisme de récompense structuré (HGRM) qui force le modèle à raisonner de manière économiquement valide, et non seulement linguistiquement plausible.
Reproductibilité et Benchmark : La publication d'un dataset aussi vaste et finement annoté offre une base solide pour la recherche future sur l'impact des événements de marché et le trading piloté par l'IA.

En résumé, Janus-Q prouve qu'en combinant une construction de données rigoureuse centrée sur les événements avec une optimisation par renforcement guidée par des récompenses hiérarchiques, il est possible de créer des agents de trading autonomes à la fois interprétables, robustes et très rentables.