GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein riesiger, super-intelligenter Bibliothekar, der gerade eine neue, sehr spezielle Aufgabe bekommt: 82 verschiedene Schubladen in einem medizinischen Archiv zu füllen. Die Patienten (die Texte) kommen auf Arabisch und beschreiben ihre Symptome. Deine Aufgabe ist es, jeden Patienten in die exakt richtige der 82 Schubladen zu stecken.

Das Problem?

Ungleichgewicht: In manchen Schubladen (z. B. "Hautkrankheiten") liegen Tausende von Akten. In anderen (z. B. "Künstliche Befruchtung") liegen nur sieben.
Verwirrung: Manchmal ist die Beschriftung auf den Akten falsch oder unklar. Ein Text über "Hautausschlag" könnte fälschlicherweise als "Allgemeinmedizin" statt als "Hautkrankheit" markiert sein.

In diesem Papier stellt das Team von Georgia Tech (GATech) vor, wie sie diese Aufgabe gelöst haben, indem sie zwei verschiedene Arten von "KI-Mitarbeitern" verglichen haben.

Die zwei Helden des Vergleichs

Stell dir die KI-Modelle wie zwei verschiedene Arten von Detektiven vor:

1. Der "Allwissende Rückblick-Detektiv" (Bidirectional Encoder / AraBERT)

Wie er arbeitet: Dieser Detektiv liest einen ganzen Satz und kann alle Wörter gleichzeitig betrachten. Er sieht das Ende des Satzes, während er am Anfang steht, und umgekehrt.
Die Analogie: Stell dir vor, du liest einen medizinischen Bericht. Dieser Detektiv kann sich sofort merken: "Ah, das Wort 'Schmerz' am Ende des Satzes bezieht sich auf das 'Herz' am Anfang." Er versteht den gesamten Kontext auf einen Blick.
Warum er gewinnt: Für das Sortieren in 82 Schubladen ist es wichtig, jedes Detail im gesamten Text zu verstehen. Dieser Detektiv ist wie ein Experte, der die feinen Unterschiede zwischen "Allgemeinmedizin" und "Innerer Medizin" genau kennt, weil er den ganzen Text auf einmal analysiert.

2. Der "Zukunfts-Prophet" (Causal Decoder / Llama & Qwen)

Wie er arbeitet: Dieser Detektiv ist darauf trainiert, das nächste Wort vorherzusagen. Er liest von links nach rechts, wie man einen Roman liest. Er kennt das Ende des Satzes noch nicht, wenn er am Anfang steht.
Die Analogie: Stell dir vor, er schreibt einen Roman. Er ist super gut darin, eine Geschichte zu erzählen. Aber wenn du ihn fragst: "Was ist das Hauptthema dieses ganzen Textes?", muss er sich den Text erst von vorne bis hinten durchlesen und dabei oft das Vergangene übersehen oder nur das "Neueste" im Kopf behalten.
Das Problem: Diese Modelle sind riesig (sie haben mehr "Gehirnzellen" als die anderen), aber sie sind nicht für das Sortieren gemacht, sondern für das Erfinden von Texten. Wenn man sie versucht, als Sortier-Experten zu nutzen, machen sie Fehler, weil sie den Text nicht "ganzheitlich" erfassen können.

Was hat das Team gemacht? (Die Geheimwaffen)

Das Team hat den "Rückblick-Detektiv" (AraBERT) noch stärker gemacht, indem sie ihm drei spezielle Werkzeuge gegeben haben:

Der "Zwei-Augen-Ansatz" (Hybrid Pooling):
Normalerweise schaut ein Computer nur auf das erste oder das letzte Wort eines Satzes. Das Team hat dem Modell aber gesagt: "Schau dir alles an!"
- Augen 1: Ein Blick auf den gesamten Text (Durchschnitt), um das große Ganze zu verstehen.
- Augen 2: Ein Suchscheinwerfer (Aufmerksamkeit), der genau auf die wichtigen medizinischen Wörter (wie "Fieber" oder "Bauchschmerzen") fokussiert und den Rest ignoriert.
- Ergebnis: Das Modell hat eine viel klarere Vorstellung davon, worum es geht.
Der "Trainings-Coach" (Multi-Sample Dropout):
Da einige Schubladen nur 7 Akten haben, neigt das Modell dazu, diese zu vergessen. Der Coach sagt dem Modell: "Übe nicht nur einmal, sondern fünfmal gleichzeitig mit leicht veränderten Versionen des Textes."
- Analogie: Es ist wie ein Sportler, der fünf verschiedene Trainingsmethoden gleichzeitig macht, damit er nicht nur eine Sache perfekt kann, sondern robust gegen Fehler ist. Das hilft besonders bei den seltenen Krankheiten.
Der "Verständnis-Coach" (Label Smoothing):
Da einige Beschriftungen in den Daten falsch waren, hat das Team dem Modell beigebracht: "Sei nicht zu 100% sicher, wenn die Beschriftung seltsam ist. Bleib flexibel."
- Analogie: Wenn ein Schüler eine Aufgabe macht, bei der die Lösung vielleicht falsch ist, lernt er nicht stur "A ist richtig", sondern "A ist wahrscheinlich richtig, aber B könnte auch passen". Das verhindert, dass das Modell verrückt wird, wenn die Daten unsauber sind.

Was ist passiert, als sie die "Riesen-KI" (Llama) einsetzten?

Das Team hat versucht, einen riesigen, generischen KI-Riesen (Llama 3.3) als "Zweit-Gutachter" zu nutzen. Die Idee: Der kleine Detektiv schlägt 15 Schubladen vor, und der Riese wählt die beste aus.

Das Ergebnis war eine Katastrophe.
Warum? Der Riese war zu klug für seine eigene Aufgabe. Er dachte: "Oh, Hautausschlag? Das ist Dermatologie!" Aber die Aufgabe verlangte: "Nein, in diesem speziellen Archiv gehört Hautausschlag in die Schublade 'Haut und Schönheit'."
Der Riese verstand die speziellen Regeln des Archivs nicht. Der kleine, speziell trainierte Detektiv (AraBERT) hingegen hatte genau gelernt, wie die Menschen in diesem Projekt die Schubladen beschriften.

Das Fazit in einem Satz

Für das Sortieren von medizinischen Texten in viele feine Kategorien ist ein kleiner, spezialisierter Experte, der den ganzen Text auf einmal versteht, viel besser als ein riesiger, kreativer Genie-KI, der nur auf das nächste Wort spezialisiert ist.

Die Botschaft für die Zukunft: Wenn man etwas genau klassifizieren muss, braucht man nicht unbedingt den größten Roboter, sondern denjenigen, der die feinen Unterschiede am besten versteht.

Modell-Konfiguration	Macro-F1
AraBERTv2 (Hybrid Pooling + Multi-Sample Dropout)	0,3934
multilingual-E5-large	0,3804
CamelBert	0,3603
AraBERTv2 + Llama 3.3 70B (Re-Ranking)	0,3035
Qwen 3 3B (Feature Extraction)	0,1278

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Die zwei Helden des Vergleichs

Was hat das Team gemacht? (Die Geheimwaffen)

Was ist passiert, als sie die "Riesen-KI" (Llama) einsetzten?

Das Fazit in einem Satz

Technische Zusammenfassung: GATech bei AbjadMed

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models