GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um arquivista gigante em uma biblioteca médica árabe. Sua tarefa é pegar milhares de perguntas dos pacientes (como "meu joelho dói" ou "tenho febre") e colocá-las em uma das 82 gavetas diferentes que existem na biblioteca.

O problema é que algumas gavetas estão cheias de papéis (como "Doenças do Coração"), enquanto outras têm apenas 7 papéis (como "Fertilização In Vitro"). Além disso, alguns rótulos estão confusos: às vezes, um papel sobre "pele" é colocado na gaveta errada, chamada "Medicina Geral".

Este artigo conta a história de como a equipe da Georgia Tech (GATech) tentou resolver esse caos usando inteligência artificial. Eles testaram dois tipos de "cérebros" digitais para ver qual era melhor para organizar essas gavetas.

Aqui está a explicação simples do que eles descobriram:

1. Os Dois Tipos de "Cérebros"

A equipe testou dois estilos de inteligência artificial:

O "Enciclopédico" (Codificadores Bidirecionais): Pense no AraBERT (o vencedor) como um médico experiente que lê a história completa do paciente antes de dar um diagnóstico. Ele olha para a frase inteira, de trás para frente e de frente para trás, entendendo o contexto completo. Ele sabe que a palavra "dor" no início da frase muda o significado se aparecer no final.
O "Contador de Histórias" (Decodificadores Causais): Pense no Llama ou Qwen (os gigantes de IA generativa) como um roteirista de cinema. Eles são incríveis em escrever histórias, palavra por palavra, prevendo qual será a próxima. Eles leem a frase apenas da esquerda para a direita, como se estivessem escrevendo um livro. Eles são ótimos para conversar, mas não são tão bons em "arquivar" informações complexas de uma só vez.

2. O Grande Experimento: Quem é Melhor?

A equipe tentou usar os dois tipos para classificar as perguntas médicas em 82 categorias.

A Tentativa do "Contador de Histórias" (Llama e Qwen): Eles tentaram usar esses modelos gigantes de duas formas:
1. Tentar extrair o "significado" de uma frase para classificar.
2. Usar o modelo gigante para revisar a escolha do médico experiente (como um chefe revisando o trabalho de um funcionário).
- O Resultado: Foi um desastre. O "Contador de Histórias" ficou confuso. Como ele foi treinado para prever a próxima palavra, ele não consegue "comprimir" o significado de toda a frase em uma única ideia clara. Quando ele tentou revisar o trabalho, ele muitas vezes escolheu a resposta "lógica" (ex: "Dermatologia"), mas errava a regra específica do jogo (que exigia "Pele e Beleza"). Ele era muito inteligente, mas não seguia as regras do arquivo.
A Vitória do "Enciclopédico" (AraBERT): O modelo AraBERT, que foi treinado especificamente em textos árabes e depois "aprendeu" a tarefa de classificação, venceu de longe.
- Por que? Ele é como um especialista que foca apenas no arquivo. Ele não tenta escrever uma história; ele apenas analisa a frase inteira e a coloca na gaveta correta.

3. As Ferramentas Secretas da Vitória

Para vencer o problema das gavetas vazias (poucos exemplos) e dos rótulos errados (ruído), a equipe deu alguns "superpoderes" ao AraBERT:

Pool Híbrido (A Lupa e o Mapa): Em vez de olhar apenas para uma parte da frase, o sistema criou uma "média" de toda a frase (o mapa geral) e também usou uma "lupa" para focar nas palavras mais importantes (como nomes de órgãos ou sintomas). Juntou os dois para ter uma visão completa.
Dropout Multi-Amostra (O Conselho de Especialistas): Imagine que, em vez de um único médico decidir, você tem 5 médicos olhando a mesma ficha ao mesmo tempo, cada um ignorando um pouco de informação diferente para não se viciar em detalhes. Eles votam e a decisão final é a média. Isso ajuda a evitar erros quando os dados são escassos ou confusos.
Suavização de Rótulos (A Regra da Flexibilidade): Como alguns rótulos no arquivo estavam errados, o sistema foi ensinado a não ter certeza absoluta. Se um papel diz "pele", mas o rótulo é "geral", o sistema aprende a pensar: "Ok, pode ser pele, mas também pode ser geral", evitando se confundir com os erros dos dados.

4. A Lição Final

A grande descoberta deste trabalho é uma lição importante para o futuro da IA:

"Quanto maior e mais inteligente o modelo para conversar, não significa que ele seja melhor para organizar arquivos complexos."

Para tarefas muito específicas, como classificar doenças médicas em 82 categorias diferentes, um especialista focado (o codificador bidirecional) é muito mais eficiente do que um gênio criativo (o decodificador causal). O gigante (Llama) é ótimo para escrever poemas ou responder perguntas gerais, mas para organizar uma biblioteca médica árabe com regras estritas, o especialista (AraBERT) é insubstituível.

Em resumo: Para classificar, você precisa de um arquivista especialista, não de um escritor criativo.

Configuração do Modelo	Macro-F1
AraBERTv2 (Proposto)	0.3934
multilingual-E5-large	0.3804
CamelBert	0.3603
AraBERTv2 + Llama 3.3 70B (Re-ranking)	0.3035
Qwen 3 3B (Extração de Features)	0.1278

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

1. Os Dois Tipos de "Cérebros"

2. O Grande Experimento: Quem é Melhor?

3. As Ferramentas Secretas da Vitória

4. A Lição Final

Visão Geral do Problema

Metodologia

1. Arquitetura Principal (Codificador)

2. Abordagens Comparativas (Decodificadores Causais)

Principais Contribuições e Descobertas

Resultados

Significado e Conclusão

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

1. Os Dois Tipos de "Cérebros"

2. O Grande Experimento: Quem é Melhor?

3. As Ferramentas Secretas da Vitória

4. A Lição Final

Visão Geral do Problema

Metodologia

1. Arquitetura Principal (Codificador)

2. Abordagens Comparativas (Decodificadores Causais)

Principais Contribuições e Descobertas

Resultados

Significado e Conclusão

Mais como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models