Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah, Sophia Falk, Lennard Landgraf, Julia Kastner, Lucie Flek
Each language version is independently generated for its own context, not a direct translation.
`). Avant de répondre, ils prennent le temps de réfléchir à voix haute, étape par étape, uniquement en portugais.
* Pourquoi c'est important ? Avant, quand une IA réfléchissait en portugais, elle avait tendance à basculer en anglais. Tucano 2 a forcé l'IA à garder ses pensées en portugais, ce qui est crucial pour des tâches complexes comme les mathématiques ou le droit.
5. Le Résultat : Un Champion Local
Grâce à tout cela, les modèles Tucano 2 (qui vont du petit 0,5 milliard au grand 3,7 milliard de paramètres) battent ou égalent les modèles multilingues beaucoup plus gros et plus chers sur les tests en portugais.
- Ils sont plus intelligents sur des sujets locaux (examens brésiliens, lois, culture).
- Ils sont plus économes en énergie.
- Surtout, tout est public : n'importe qui peut télécharger les modèles, les données et les recettes pour les améliorer.
En résumé
Tucano 2, c'est comme si une équipe de chercheurs avait décidé de ne plus attendre que les géants de la Silicon Valley s'occupent du portugais. Ils ont construit leur propre ferme, leur propre école et leur propre bibliothèque, et ils ont prouvé qu'avec de bons ingrédients et une méthode intelligente, on peut créer une IA locale qui rivalise avec les géants mondiaux, le tout en restant transparent et accessible à tous. 🦜🇧🇷🇵🇹
Each language version is independently generated for its own context, not a direct translation.
Titre : Tucano 2 : Une suite open source de modèles de langage pour le portugais
1. Problématique et Contexte
Bien que les modèles de langage (LLM) aient révolutionné le traitement du langage naturel (NLP), les ressources pour les langues à faibles ressources comme le portugais restent limitées.
- Déficit de transparence : La plupart des modèles performants pour le portugais sont soit propriétaires, soit manquent de reproductibilité complète (données, recettes d'entraînement, code).
- Écart de performance : Les modèles multilingues de pointe (comme Qwen3 ou Gemma 3) intègrent le portugais, mais leur performance spécifique dans cette langue est souvent inférieure à celle des modèles natifs entraînés sur des corpus massifs et de haute qualité.
- Besoin de reproductibilité : Il existe un manque critique de pipelines complets et ouverts pour le développement de LLMs en portugais, ce qui freine la recherche communautaire et l'innovation.
2. Méthodologie
L'équipe du projet Polyglot a développé une suite complète de ressources et de modèles, Tucano 2, couvrant l'ensemble du cycle de vie d'un LLM :
A. Construction des Données (GigaVerbo-v2)
- Corpus Principal : Création d'un corpus portugais nettoyé de 320 milliards de tokens (372 millions de documents), nommé GigaVerbo-v2.
- Filtrage Avancé : Utilisation de juges LLM (Qwen2.5-32B) pour annoter la qualité éducative et la toxicité de 700 000 documents. Ces annotations ont été distillées dans des classificateurs légers (BERTimbau, BERTabaporu) pour filtrer le corpus à grande échelle.
- Augmentation Synthétique : Génération de 9,3 milliards de tokens supplémentaires (GigaVerbo-v2 Synth) via des modèles Qwen2.5 pour combler les lacunes dans des domaines spécifiques (éducation, raisonnement, code) et améliorer la diversité.
- Données d'Alignement : Création de deux jeux de données post-entraînement :
- GigaVerbo-v2 SFT : ~4,1 millions d'exemples couvrant 12 types de tâches (code, mathématiques, RAG, raisonnement, etc.).
- GigaVerbo-v2 Preferences : ~28 000 paires de préférences pour l'optimisation de l'alignement (sécurité et qualité).
B. Tokenisation
- Entraînement d'un tokeniseur personnalisé SentencePiece (taille de vocabulaire : 49 152) sur un mélange de 40% portugais, 40% anglais et 20% de code.
- Efficacité : Ce tokeniseur atteint une fertilité de sous-mots de 1,51 (le plus bas parmi les modèles comparés) et une compression de 2,88 caractères par token, réduisant les coûts de calcul d'environ 30 % par rapport aux tokeniseurs multilingues standards (ex: Qwen3).
C. Stratégies d'Entraînement
- Pré-entraînement from-scratch : Entraînement d'un modèle natif Tucano2-0.6B-Base (670M paramètres) sur 408 milliards de tokens, utilisant un optimiseur hybride AdamW+Muon et un curriculum d'apprentissage en trois étapes (Warmup-Stable-Decay).
- Pré-entraînement Continu (Continual Pretraining) : Adaptation des modèles de base Qwen3 (0.6B, 1.7B, 4B) au portugais.
- Transplantation de Tokeniseur (OMP) : Utilisation de l'algorithme Orthogonal Matching Pursuit pour remplacer le vocabulaire multilingue de Qwen3 (151k tokens) par le tokeniseur portugais optimisé (49k tokens) sans ré-entraînement des poids, réduisant les paramètres d'embedding de ~68 %.
- Entraînement continu uniquement sur des données portugaises (50 à 100 milliards de tokens).
- Post-entraînement :
- Séparation en deux familles de modèles : Instruct (suivi d'instructions général) et Think (spécialisé dans le raisonnement avec traces de pensée en portugais).
- Utilisation de l'optimisation de préférence ancrée (Anchored Preference Optimization - APO) pour l'alignement.
D. Évaluation
- Développement d'une nouvelle suite d'évaluation portugaise (Easy Set et Hard Set) basée sur des tâches de vraisemblance log-likelihood (plus stables pour le pré-entraînement) plutôt que sur la génération libre.
- Adaptation de benchmarks internationaux (IFEval, GSM8K, RULER, HumanEval) en portugais.
3. Contributions Clés
- Tucano 2 Model Family : Une famille de modèles ouverts (0.5B à 3.7B paramètres) avec des variantes Base, Instruct et Think.
- Ressources Open Source Complètes : Publication de tous les artefacts : corpus (GigaVerbo-v2), données synthétiques, modèles d'annotation, recettes d'entraînement et code d'évaluation.
- Méthodologie de Transplantation de Tokeniseur : Démonstration efficace de l'adaptation de modèles multilingues massifs à une langue spécifique avec un gain d'efficacité majeur.
- Modèles de Raisonnement Natifs : Première série de modèles open source capables de générer des chaînes de pensée (Chain-of-Thought) entièrement en portugais.
4. Résultats
- Performance Globale :
- Tucano2-qwen-3.7B-Base atteint un score NPM (Normalized Preferred Metric) agrégé de 59,21, surpassant Qwen3-4B (57,86) et Qwen2.5-7B (57,97), malgré un budget de calcul bien inférieur.
- Le modèle Tucano2-0.6B-Base (entraîné from-scratch) surpasse les modèles multilingues de taille similaire sur l'ensemble "Easy Set", démontrant l'efficacité des données curatées.
- Post-entraînement :
- Tucano2-qwen-3.7B-Instruct obtient le meilleur score de connaissances et de raisonnement (56,22) dans la catégorie 3-4B, surpassant Qwen3-4B et Gemma-3-Gaia.
- Tucano2-qwen-3.7B-Think excelle dans le raisonnement en portugais pur, surpassant les modèles de raisonnement multilingues sur des benchmarks comme OAB et MMLU, bien que légèrement en retrait sur le suivi d'instructions strict (IFEval) et le code (HumanEval) en raison de la spécialisation.
- Efficacité Énergétique :
- L'approche de pré-entraînement continu avec transplantation de tokeniseur est extrêmement efficace : l'ajustement des modèles Qwen3 a nécessité moins de 0,13 % du calcul total de leur pré-entraînement initial tout en générant des gains de performance significatifs.
- L'empreinte carbone totale du projet est estimée à ~7,9 tonnes de CO2e, ce qui est faible comparé aux modèles de pointe, bien que la génération de données synthétiques représente 73 % de la consommation énergétique.
5. Signification et Impact
Ce travail comble un fossé majeur dans le NLP pour le portugais en fournissant une alternative reproductible et performante aux modèles propriétaires.
- Démocratisation : En libérant l'ensemble de la pile technologique (données, modèles, code), l'équipe permet à la communauté de reproduire, d'améliorer et d'adapter ces modèles à des cas d'usage spécifiques (juridique, éducation, médical).
- Efficacité des Ressources : Le papier démontre qu'il n'est pas nécessaire d'entraîner des modèles géants from-scratch pour obtenir des performances de pointe dans une langue à faibles ressources ; une combinaison de données de haute qualité, de tokenisation optimisée et de pré-entraînement continu sur des bases multilingues solides est une stratégie supérieure en termes de coût et d'impact environnemental.
- Avancée du Raisonnement : La capacité des modèles "Think" à raisonner en portugais ouvre la voie à des applications complexes (résolution de problèmes, analyse juridique) dans cette langue, auparavant limitées aux modèles anglophones.
En résumé, Tucano 2 établit un nouvel état de l'art pour les LLMs en portugais, prouvant que l'open source peut rivaliser avec les systèmes propriétaires fermés grâce à une ingénierie rigoureuse des données et des architectures.
Vous avez aimé cette explication ? Recevez-en une chaque jour.
Vérifiez votre boîte mail pour confirmer votre inscription.
Quelque chose s'est mal passé. Réessayer ?
Pas de spam, désinscription à tout moment.
Articles similaires
Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities
Ce papier propose le « Bridge Diffusion Model » (BDM), une nouvelle architecture qui permet de générer des images à partir de textes chinois tout en conservant la compatibilité avec l'écosystème des modèles de diffusion natifs en anglais et en permettant la fusion des deux cultures visuelles au sein d'une même image.
CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics
Ce papier présente CurvFed, un cadre d'apprentissage fédéré qui garantit l'équité sans recourir à des données démographiques en alignant la courbure du paysage de perte via la régularisation de la matrice d'information de Fisher, validé théoriquement et empiriquement sur des dispositifs périphériques hétérogènes.
SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition
Ce papier propose SOAP, une architecture modulaire innovante qui améliore la reconnaissance d'actions en peu d'exemples en capturant des relations spatio-temporelles complexes et des informations de mouvement denses via des tuples de frames, surpassant ainsi les méthodes actuelles sur plusieurs benchmarks majeurs.
Efficient Diffusion as Low Light Enhancer
Ce papier propose ReDDiT, un cadre de distillation efficace pour l'amélioration des images en faible luminosité qui, grâce à un module de raffinement de trajectoire sensible à la réflectance, réduit considérablement le nombre d'étapes d'inférence tout en établissant de nouveaux résultats de pointe.
Conditional Distribution Learning for Graph Classification
Cet article propose une méthode d'apprentissage de distribution conditionnelle (CDL) pour la classification de graphes en régime semi-supervisé, qui aligne les distributions conditionnelles des caractéristiques augmentées sur les caractéristiques originales afin de préserver l'information sémantique intrinsèque et de résoudre le conflit entre le mécanisme de passage de messages des réseaux de neurones sur graphes et l'apprentissage contrastif.