Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante de documentos antigos, escritos à máquina nos anos 40, 50 e 60. Esses documentos são as Resoluções do Conselho de Segurança da ONU. O problema é que, como foram digitalizados por scanners antigos, o texto está cheio de erros: letras trocadas, linhas quebradas no meio da frase e, pior ainda, o texto está em duas colunas (uma em inglês, outra em francês), o que faz com que a máquina leia tudo misturado, como se você estivesse tentando ler um livro onde as páginas estão coladas lado a lado.

O objetivo do pesquisador Hussein Ghaly foi criar um "robô inteligente" capaz de:

Limpar essa bagunça (arrumar o texto).
Colocar etiquetas (tags) em palavras importantes, como "países", "datas", "organizações" e "eventos", para que computadores possam entender o que está escrito.

Aqui está como ele fez isso, explicado de forma simples:

1. O Problema: A "Batalha dos Robôs"

O autor usou Inteligência Artificial (especificamente modelos de linguagem como o GPT). Mas há um problema: esses robôs são um pouco imprevisíveis. Se você pedir a mesma coisa duas vezes, eles podem dar respostas ligeiramente diferentes. Às vezes, eles inventam coisas (alucinações) ou esquecem partes do texto original.

Para resolver isso, o autor não confiou em apenas um robô. Ele criou um time de robôs (um "ensemble"). Ele pediu para vários modelos diferentes (do gigante GPT-4.1 ao pequeno GPT-4.1-mini) fazerem o trabalho várias vezes.

2. A Solução: O "Juiz" e as "Regras do Jogo"

Como escolher a melhor resposta entre tantas opções? O autor criou duas regras de ouro (métricas) para julgar quem fez o melhor trabalho:

A Regra da Fidelidade (CPR - Razão de Preservação de Conteúdo):
Imagine que você pediu a um pintor para copiar um quadro, mas adicionar apenas uma moldura. Se o pintor mudar a cor do céu ou apagar uma árvore, ele falhou.
O "Juiz" compara o texto original com o texto do robô. Ele conta quantas "peças" de texto (grupos de duas letras) foram mantidas. Se o robô apagou ou inventou algo, a nota cai. O objetivo é: mude o mínimo possível, apenas limpe e etiquete.
A Regra da Organização (TWF - Bom Formato das Etiquetas):
Imagine que você está organizando uma mala de roupas. Você precisa fechar a gaveta depois de colocar a camisa. Se você deixar a gaveta aberta ou misturar as roupas, a mala fica bagunçada.
No mundo digital, isso significa: se você abre uma etiqueta <país>, você tem que fechar com </país>. Se o robô esqueceu de fechar, a nota é zero.

3. O Resultado: O "Robô Barato" vs. O "Robô Caríssimo"

O autor testou vários modelos, desde os superpoderosos (e caros) até os modelos menores e mais rápidos.

O Campeão: O modelo GPT-4.1 foi o melhor de todos, conseguindo limpar e etiquetar quase perfeitamente.
A Grande Surpresa: O modelo GPT-4.1-mini (uma versão menor e mais barata) fez um trabalho quase tão bom quanto o campeão, mas custou 80% menos.

É como se você pudesse contratar um mestre de obras famoso para reformar sua casa, mas descobrisse que um ajudante muito talentoso consegue fazer o mesmo trabalho por um quarto do preço.

4. Por que isso é importante?

Antes desse trabalho, transformar esses documentos antigos em algo que computadores entendem seria uma tarefa manual impossível, levando anos.

Com esse sistema:

Economia: A ONU (ou qualquer organização) pode processar milhões de documentos gastando muito menos dinheiro, escolhendo o "robô" certo para o trabalho.
Conhecimento: Ao etiquetar tudo corretamente, é possível criar um "Mapa do Tesouro" (um Gráfico de Conhecimento). Isso permite que, no futuro, você pesquise algo como "todas as resoluções sobre paz na África em 1990" e o computador encontre instantaneamente, conectando pessoas, lugares e eventos que antes estavam escondidos em pilhas de papel digital.

Resumo em uma frase

O autor criou um sistema inteligente que usa uma equipe de robôs de IA, julgados por regras rigorosas de fidelidade e organização, para transformar documentos históricos bagunçados da ONU em dados limpos e úteis, descobrindo que robôs menores e mais baratos podem fazer o trabalho quase tão bem quanto os gigantes caros.

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

1. O Problema: A "Batalha dos Robôs"

2. A Solução: O "Juiz" e as "Regras do Jogo"

3. O Resultado: O "Robô Barato" vs. O "Robô Caríssimo"

4. Por que isso é importante?

Resumo em uma frase

Resumo Técnico: Taggeamento Semântico de Resoluções do Conselho de Segurança da ONU com Ensemble de LLMs

1. Problema e Contexto

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado e Impacto

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

1. O Problema: A "Batalha dos Robôs"

2. A Solução: O "Juiz" e as "Regras do Jogo"

3. O Resultado: O "Robô Barato" vs. O "Robô Caríssimo"

4. Por que isso é importante?

Resumo em uma frase

Resumo Técnico: Taggeamento Semântico de Resoluções do Conselho de Segurança da ONU com Ensemble de LLMs

1. Problema e Contexto

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado e Impacto

Mais como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models