Tucano 2 Cool: Better Open Source LLMs for Portuguese

Each language version is independently generated for its own context, not a direct translation.

🇧🇷 Tucano 2: Der kleine, aber clevere Papagei für die portugiesische Sprache

Stellen Sie sich vor, die Welt der Künstlichen Intelligenz (KI) ist ein riesiges, lautes Klassenzimmer. Die meisten Schüler dort sprechen fließend Englisch und haben dicke, teure Lehrbücher. Aber was ist mit den Schülern, die Portugiesisch sprechen? Sie sitzen oft in der Ecke, haben nur verknitterte Notizzettel und müssen sich mit den Übersetzungen der anderen begnügen. Das Ergebnis? Sie verstehen die Welt nicht ganz so gut wie ihre englischsprachigen Mitschüler.

Das Team um Polyglot (eine Forschungsgruppe aus Deutschland) hat sich gedacht: „Das ändern wir jetzt!" Sie haben Tucano 2 entwickelt. Der Name kommt vom Tucano, einem bunten, klugen Vogel aus dem Amazonas.

Hier ist, was sie gemacht haben, ganz ohne Fachchinesisch:

1. Das neue Lehrbuch: „GigaVerbo" (Der riesige Wortschatz)

Um einen KI-Modell zu trainieren, braucht man Daten – also Texte. Bisher war das portugiesische „Lehrbuch" lückenhaft.

Das Problem: Die alten Daten waren oft voller Müll (Werbung, Spam, schlechte Grammatik).
Die Lösung: Das Team hat einen riesigen Roboter-Filter gebaut (genannt GigaVerbo-v2). Stellen Sie sich vor, sie haben einen Ozean an Texten gesammelt und durch ein Sieb geschüttelt. Alles, was dreckig oder unbrauchbar war, fiel heraus.
Der Clou: Sie haben nicht nur das Alte gesäubert, sondern auch künstliche Texte (Synthetik-Daten) hinzugefügt. Das ist wie ein Koch, der nicht nur Reste vom Vortag aufwärmt, sondern extra frische, hochwertige Zutaten (wie Mathe-Aufgaben oder wissenschaftliche Artikel) kocht, um Lücken zu füllen.

2. Der neue Schlüsselbund: Der Tokenizer (Das effiziente Wörterbuch)

KIs verstehen keine Wörter, sondern kleine Buchstaben-Bröckchen, die man „Tokens" nennt.

Das Problem: Die großen, internationalen KIs (wie Qwen oder Llama) haben einen riesigen Schlüsselbund mit 150.000 Schlüsseln. Für Portugiesisch sind aber viele dieser Schlüssel unnötig. Das macht den Koffer schwer und die KI langsam.
Die Lösung: Das Team hat einen maßgeschneiderten Schlüsselbund für Portugiesisch gebaut. Er hat nur 49.000 Schlüssel, aber genau die richtigen.
Der Effekt: Die KI muss weniger „schleppen". Sie ist schneller, braucht weniger Strom und versteht Portugiesisch viel präziser, als wenn sie mit dem riesigen, internationalen Schlüsselbund arbeiten müsste.

3. Die zwei Trainingsmethoden: Vom Anfänger zum Profi

Das Team hat zwei Wege gewählt, um die KI zu bilden:

Weg A: Von Null auf Hunderter (Tucano 2 Base)
Sie haben eine kleine KI (0,6 Milliarden Parameter) komplett von Grund auf neu trainiert. Das ist wie ein Kind, das in einer rein portugiesischen Umgebung aufwächst und nur portugiesische Bücher liest. Es wird sehr gut in den Grundlagen.
Weg B: Der Umzug (Continual Pretraining)
Sie haben eine bereits sehr intelligente, große KI (die „Qwen"-Familie) genommen, die schon viel gelernt hat, aber auf Englisch und anderen Sprachen.
- Der Trick: Sie haben ihr den portugiesischen Schlüsselbund (Tokenizer) eingepflanzt und ihr dann nur noch portugiesische Texte gegeben, um sie auf den neuen Job vorzubereiten.
- Das Ergebnis: Diese KI (z. B. Tucano 2-qwen-3.7B) ist wie ein erfahrener Professor, der plötzlich Portugiesisch lernt. Sie ist extrem stark und schlägt sogar viel größere Modelle, die nur auf Englisch trainiert wurden, wenn es um portugiesische Aufgaben geht.

4. Die zwei Persönlichkeiten: „Instruct" und „Think"

Das Team hat zwei Versionen der KI gebaut, je nachdem, was man braucht:

Der „Instruct"-Modus (Der schnelle Helfer): Diese KI folgt Anweisungen blitzschnell. „Schreibe eine E-Mail", „Fasse das zusammen". Sie ist direkt und effizient.
Der „Think"-Modus (Der Denker): Diese KI hat eine spezielle Fähigkeit: Sie denkt laut nach, bevor sie antwortet. Sie nutzt eine Art „Gedankenblase" (Chain-of-Thought), um komplexe Mathe- oder Logikrätsel in Portugiesisch zu lösen. Das ist etwas, das bei portugiesischen KIs bisher fast gar nicht möglich war.

5. Warum ist das wichtig? (Die Nachhaltigkeit)

Oft denkt man, KI-Entwicklung verbraucht riesige Mengen an Energie.

Der Vergleich: Das Training der alten Versionen oder riesiger Modelle ist wie ein Flug von Deutschland nach New York und zurück – sehr teuer und umweltschädlich.
Der Tucano 2-Ansatz: Durch ihre effiziente Methode (kleinere Modelle, bessere Daten, weniger Strom) ist das Training von Tucano 2 vergleichbar mit einem Fahrradtrip durch den Stadtpark. Es ist viel grüner, aber das Ergebnis ist für den lokalen Bedarf (Portugiesisch) oft sogar besser als das teure Flugzeug.

Fazit

Tucano 2 ist ein Beweis dafür, dass man nicht unbedingt der größte und teuerste Spieler sein muss, um erfolgreich zu sein. Wenn man die richtigen Werkzeuge hat (saubere Daten, effiziente Schlüssel) und die Sprache respektiert, kann ein kleines, offenes Team Modelle bauen, die mit den riesigen, geschlossenen Konzernen mithalten können – und das alles für die portugiesischsprachige Welt, die bisher oft zu kurz kam.

Alles, was sie benutzt haben (Daten, Code, Modelle), ist kostenlos und offen für jeden verfügbar. Das ist wie ein offenes Kochbuch, damit jeder zu Hause weiterkochen und experimentieren kann.

Tucano 2 Cool: Better Open Source LLMs for Portuguese

🇧🇷 Tucano 2: Der kleine, aber clevere Papagei für die portugiesische Sprache

1. Das neue Lehrbuch: „GigaVerbo" (Der riesige Wortschatz)

2. Der neue Schlüsselbund: Der Tokenizer (Das effiziente Wörterbuch)

3. Die zwei Trainingsmethoden: Vom Anfänger zum Profi

4. Die zwei Persönlichkeiten: „Instruct" und „Think"

5. Warum ist das wichtig? (Die Nachhaltigkeit)

Fazit

Titel: Tucano 2: Eine vollständig offene Suite von Large Language Models für die portugiesische Sprache

1. Problemstellung

2. Methodik

A. Datenerstellung und -kuratierung (GigaVerbo-v2)

B. Tokenisierung

C. Trainingsstrategien

D. Evaluation Framework

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Tucano 2 Cool: Better Open Source LLMs for Portuguese

🇧🇷 Tucano 2: Der kleine, aber clevere Papagei für die portugiesische Sprache

1. Das neue Lehrbuch: „GigaVerbo" (Der riesige Wortschatz)

2. Der neue Schlüsselbund: Der Tokenizer (Das effiziente Wörterbuch)

3. Die zwei Trainingsmethoden: Vom Anfänger zum Profi

4. Die zwei Persönlichkeiten: „Instruct" und „Think"

5. Warum ist das wichtig? (Die Nachhaltigkeit)

Fazit

Titel: Tucano 2: Eine vollständig offene Suite von Large Language Models für die portugiesische Sprache

1. Problemstellung

2. Methodik

A. Datenerstellung und -kuratierung (GigaVerbo-v2)

B. Tokenisierung

C. Trainingsstrategien

D. Evaluation Framework

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification