Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

Each language version is independently generated for its own context, not a direct translation.

🎤 De la Voix à la Formule : Le Défi du "Math-Langage"

Imaginez que vous êtes un professeur de mathématiques. Vous êtes en train d'expliquer une idée brillante, vous parlez vite, vous utilisez des mots comme "racine carrée", "intégrale" ou "sigma". Vous voulez que votre ordinateur prenne vos notes, mais au lieu d'écrire "x + y = z", il écrit n'importe quoi, ou pire, il ne comprend pas la structure de votre pensée.

C'est le problème que cette équipe de chercheurs (du ICLR 2026) a voulu résoudre. Ils ont créé un nouveau système capable de transformer la parole en équations mathématiques parfaites (écrites en un langage spécial appelé LaTeX, utilisé par tous les scientifiques).

Voici comment ils ont fait, étape par étape, avec des analogies simples :

1. Le Problème : Parler Math, c'est comme parler un dialecte oublié 🗣️🧮

Les ordinateurs sont excellents pour comprendre "Bonjour, comment ça va ?". Mais dès qu'on leur dit "L'intégrale de x au carré entre 0 et l'infini", ils se perdent.

L'ambiguïté : Si je dis "un sur x plus deux", est-ce que je veux dire 1/x + 2 ou 1/(x+2) ? C'est comme si je disais "Je vais à la banque" : est-ce que je vais chercher de l'argent ou travailler ? Le contexte est crucial.
Le manque de données : Avant ce travail, il n'y avait pas assez d'exemples pour entraîner les ordinateurs. C'était comme essayer d'apprendre à un enfant à jouer du piano sans jamais lui donner de partition ni de professeur.

2. La Solution : Une "Bibliothèque de Voix" Géante 📚🎙️

Pour apprendre à l'ordinateur, il faut lui donner des milliers d'exemples. Les chercheurs ont créé le plus grand ensemble de données jamais ouvert pour ce sujet.

L'ingrédient secret : Ils ont collecté 66 000 enregistrements humains (de vraies personnes parlant des maths) et 571 000 enregistrements synthétiques (faits par des robots de voix très avancés).
L'analogie : Imaginez que vous voulez apprendre à un chien à faire des tours. Au lieu de lui montrer 10 fois le même tour, vous lui montrez 600 000 vidéos de différents chiens faisant des tours, dans différentes langues (anglais et russe), avec différents accents. Plus l'entraînement est varié, plus le chien (ou l'ordinateur) devient intelligent.

3. Les Deux Approches Magiques 🛠️

L'équipe a testé deux façons de faire comprendre les maths à l'ordinateur :

A. La méthode "Traducteur en deux étapes" (Post-correction)

C'est comme un jeu de téléphone arabe, mais avec un expert qui corrige les erreurs.

Étape 1 : Un système de reconnaissance vocale (comme Siri ou Google Assistant) écoute la phrase et écrit ce qu'il entend en texte brut.
Étape 2 : Un "super-cerveau" (un modèle de langage IA) lit ce texte brut, comprend le contexte mathématique, et réécrit la formule parfaite en LaTeX.

Analogie : C'est comme si un traducteur débutant écrivait une phrase en français, et qu'un professeur de littérature la corrigeait pour qu'elle soit poétique et parfaite.

B. La méthode "Oreille Magique" (Modèles Multimodaux)

C'est plus direct. Au lieu de passer par le texte, l'ordinateur écoute le son et "voit" directement la formule.

Analogie : C'est comme un musicien de jazz qui entend une mélodie et la joue immédiatement sur son instrument, sans avoir besoin de lire la partition écrite au préalable. C'est plus fluide, mais plus difficile à maîtriser.

4. Les Résultats : Qui gagne ? 🏆

Les chercheurs ont comparé leurs nouveaux modèles avec les anciens (comme "MathSpeech").

Le verdict : Leurs nouveaux modèles sont beaucoup plus précis.
- Sur des équations isolées, ils réduisent les erreurs de plus de 36 % par rapport aux anciens systèmes.
- Ils ont même réussi à créer un nouveau défi (un "benchmark") pour les phrases mathématiques complètes (pas juste des formules seules), ce qui est beaucoup plus dur, comme comprendre une phrase entière dans un film plutôt qu'un mot isolé.
Le champion : Le modèle "SALMONN" (une approche multimodale) a été le grand gagnant, réussissant à transformer la parole en maths avec une précision impressionnante, même quand la prononciation était ambiguë.

5. Pourquoi c'est important pour nous ? 🌍

Ce travail ouvre la porte à de futures applications incroyables :

Pour les étudiants : Imaginez prendre des notes en cours de physique en parlant, et avoir vos équations parfaitement écrites sur votre ordinateur en temps réel.
Pour les chercheurs : Plus besoin de taper manuellement des formules complexes. Vous pouvez simplement dicter votre découverte.
Pour l'accessibilité : Cela aide les personnes qui ont du mal à écrire des symboles mathématiques complexes à les utiliser facilement.

En résumé 🎯

Cette équipe a construit une immense bibliothèque d'exemples (humains et robots) et a entraîné des IA très douées pour écouter la parole et la transformer en mathématiques parfaites. C'est comme donner aux ordinateurs une "oreille absolue" pour les maths, rendant la science plus accessible et plus rapide à documenter.

C'est un grand pas vers un futur où nous pouvons simplement parler à nos machines pour créer de la science complexe.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La conversion de l'expression mathématique parlée en une représentation symbolique structurée (LaTeX) est une tâche complexe. Bien que les modèles de reconnaissance automatique de la parole (ASR) et les modèles de langage (LM) aient fait des progrès significatifs, ils peinent à gérer l'ambiguïté inhérente à la prononciation des équations (ex: "kappa" pouvant être $\kappa$ ou $\varkappa$ , ou l'ambiguïté de "un sur x plus deux" qui peut être $\frac{1}{x}+2$ ou $\frac{1}{x+2}$ ).

Les travaux antérieurs, comme MathSpeech, souffrent de limitations majeures :

Ils reposent sur des pipelines de post-correction nécessitant deux transcriptions ASR.
Ils se concentrent uniquement sur des équations isolées, ignorant les phrases mathématiques contextuelles.
Ils manquent de données d'entraînement publiques et de couverture multilingue.
Les ensembles de tests sont petits et peu diversifiés.

L'objectif de cet article est de combler ces lacunes en proposant une approche complète, open-source et multilingue pour la conversion Speech-to-LaTeX (S2L).

2. Contributions Clés

A. Le Dataset S2L (Speech-to-LaTeX)

Les auteurs ont créé le premier dataset open-source à grande échelle pour cette tâche, disponible en anglais et en russe. Il se compose de deux sous-ensembles :

S2L-equations : Environ 10 700 équations isolées distinctes.
S2L-sentences : Environ 12 000 phrases mathématiques contenant des équations en contexte.

Caractéristiques du dataset :

Volume : Plus de 66 000 échantillons audio annotés par des humains et 571 000 échantillons synthétiques générés par TTS (Text-to-Speech).
Diversité : Les données proviennent de sources variées (Proof-Pile, MathBridge, TextTeller) et couvrent divers domaines scientifiques (calcul, mécanique, physique quantique, etc.).
Annotation : Chaque expression est annotée par jusqu'à 3 locuteurs différents (33 annotateurs humains au total) pour capturer les variations d'intonation et de style linguistique.
Normalisation : Un processus de normalisation LaTeX (via un fork de KaTeX) a été appliqué pour réduire les erreurs de syntaxe et standardiser les notations.

B. Méthodologies Évaluées

L'article compare trois approches principales pour la conversion S2L :

Post-correction ASR (Pipeline hybride) :
- Utilisation d'un modèle ASR (ex: Whisper-Large v3) pour transcrire l'audio en texte brut.
- Utilisation d'un Modèle de Langage (LLM) finement ajusté (ex: Qwen2.5, Qwen2.5-Math) pour convertir ce texte en LaTeX.
- Cette méthode exploite les connaissances pré-entraînées des LLMs sur les mathématiques.
Approches End-to-End (Audio-LLMs) :
- Utilisation de modèles multimodaux (ex: SALMONN, Qwen-Audio, Gemma-3n, Flamingo-3) qui traitent directement l'audio brut et le génèrent en LaTeX sans étape de transcription intermédiaire explicite.
- Ces modèles utilisent des encodeurs audio (Whisper, BEATs) couplés à un adaptateur et un décodeur LLM (LLaMA).
Prompting Few-Shot :
- Évaluation de la capacité de généralisation des modèles sans fine-tuning complet, en utilisant des exemples en contexte (5 ou 25 shots).

3. Résultats Expérimentaux

Les performances sont évaluées principalement via le Taux d'Erreur de Caractères (CER) et le TeXBLEU (une métrique adaptée au LaTeX).

Sur les équations isolées (S2L-equations) :

Performance des modèles Audio-LLM : Le modèle SALMONN-13B obtient les meilleurs résultats, avec un CER d'environ 17,5 % sur l'anglais, surpassant nettement les approches post-correction.
Comparaison avec MathSpeech : Sur le benchmark MathSpeech, les modèles de l'article obtiennent un CER de 27,7 % (contre 30 % pour MathSpeech). Cependant, sur le nouveau benchmark S2L-equations, l'écart est considérable : les modèles de l'article atteignent 27 % contre 64 % pour MathSpeech (après normalisation pour un comparatif équitable).
Impact des données : L'ajout de données synthétiques (TTS) améliore les performances, bien que l'entraînement sur des données humaines reste crucial pour la robustesse.

Sur les phrases mathématiques (S2L-sentences) :

La tâche est plus difficile en raison du contexte textuel.
Le modèle SALMONN-13B atteint un CER de 39,7 % pour la partie équation, ce qui est significativement mieux que les modèles post-correction (qui tournent autour de 40-60 %).
Les modèles Qwen2.5-7B (finetunés avec LoRA) montrent également de bonnes performances, surpassant les modèles plus petits.
Le Few-Shot Learning (5 ou 25 exemples) s'avère nettement moins efficace que le fine-tuning complet.

4. Signification et Limites

Signification :

Ce travail établit la première référence (benchmark) robuste pour la reconnaissance de phrases mathématiques parlées.
Il démontre la viabilité de l'approche End-to-End via les Audio-LLMs pour des tâches de haute précision symbolique, surpassant les pipelines traditionnels en deux étapes.
La libération d'un dataset massif et multilingue (anglais/ru) permet à la communauté de reproduire et d'améliorer ces résultats, favorisant le développement d'assistants éducatifs et de prise de notes scientifiques automatisés.

Limites :

Ambiguïté inhérente : Certaines prononciations restent ambiguës même pour des humains (ex: absence de parenthèses explicites dans la parole).
Données synthétiques : Bien que utiles pour l'augmentation, les données TTS sont moins complexes et variées que la parole humaine réelle.
Contexte réel : Le dataset ne capture pas encore pleinement les conditions de cours réels (paraphrases, équations incomplètes, lien avec le contenu visuel), ce qui nécessiterait une annotation humaine coûteuse et fine.

Conclusion

Les auteurs ont réussi à créer un écosystème complet (dataset + modèles) pour la conversion parole-LaTeX. Ils prouvent que les modèles multimodaux end-to-end, couplés à des données de haute qualité, peuvent atteindre des niveaux de précision suffisants pour des applications éducatives et de recherche, tout en identifiant clairement les défis restants liés à l'ambiguïté linguistique et à la généralisation sur des données réelles complexes.