Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio erudito chamado Bielik-11B. Ele sabe tudo sobre a língua polonesa, medicina, lógica e cultura. Ele é incrível, mas tem um problema: ele é gigantesco. Para fazer esse gênio funcionar, você precisa de uma sala inteira cheia de computadores superpotentes (como se fosse um servidor de dados de uma grande empresa). Isso é caro, consome muita energia e é difícil de usar no dia a dia.

Os autores deste trabalho, em parceria com a NVIDIA, tiveram uma ideia brilhante: "E se pudéssemos criar um gênio menor, que coubesse no seu computador de casa, mas que soubesse quase tudo o que o gigante sabe?"

O resultado desse projeto é o Bielik-Minitron-7B. Aqui está como eles fizeram isso, explicado de forma simples:

1. A Cirurgia Inteligente (Poda Estruturada)

Pense no modelo original (o gigante) como um prédio de 50 andares com milhares de apartamentos. Nem todos os apartamentos são usados o tempo todo. Alguns são apenas depósitos de coisas que ninguém usa.

Os pesquisadores fizeram uma "cirurgia" no prédio:

Removendo andares inteiros (Profundidade): Eles tiraram 10 andares do prédio (de 50 foram para 40).
Diminuindo o tamanho dos apartamentos (Largura): Eles reduziram o tamanho de alguns cômodos internos, deixando o prédio mais "estreito", mas ainda funcional.

Isso reduziu o tamanho do modelo em 33%. Em vez de 11 bilhões de "cérebros" (parâmetros), agora temos 7,35 bilhões. O prédio ficou menor e mais leve, mas ainda é um arranha-céu funcional.

2. O Mestre e o Aprendiz (Distilação de Conhecimento)

Aqui está o truque mais importante. Quando você corta partes de um cérebro de IA, ele pode esquecer coisas ou começar a falar besteira. Para evitar isso, eles usaram uma técnica chamada Distilação de Conhecimento.

Imagine que o Bielik-11B é um Professor Mestre e o novo Bielik-Minitron é um Estudante.

Em vez de o estudante tentar aprender tudo do zero (o que levaria anos e exigiria milhões de livros), o Professor Mestre senta com o Estudante e diz: "Olhe como eu respondo a essa pergunta. Não apenas dê a resposta certa, mas veja como eu penso, como eu hesito e como eu escolho as palavras."
O estudante copia não apenas a resposta final, mas o processo de pensamento do mestre.

Isso permitiu que o modelo menor recuperasse 90% da inteligência do modelo gigante, mesmo sendo muito menor.

3. O Treinamento Final (Ajuste Fino)

Depois de "poder" e "aprender", o modelo precisou ser polido para ser um bom assistente:

SFT (Aulas de Conversa): Ensinar o modelo a seguir instruções e conversar naturalmente em polonês.
DPO e GRPO (Aulas de Ética e Lógica): Ensinar o modelo a não falar coisas ofensivas e a resolver problemas de lógica e matemática, corrigindo seus próprios erros.

O Resultado Final: O Gênio de Bolso

O que eles conseguiram?

Velocidade: O novo modelo é 50% mais rápido para gerar texto. É como trocar um carro de corrida antigo por um novo esportivo: mais leve e mais ágil.
Acessibilidade: O modelo antigo precisava de equipamentos industriais caríssimos. O novo Bielik-Minitron-7B cabe em placas de vídeo de computadores gamers comuns (como uma RTX 4090). Isso significa que qualquer pessoa com um bom computador pode rodar um modelo de IA polonês de alta qualidade em casa.
Qualidade: Ele mantém a qualidade do original em tarefas complexas, como entender sentimentos, traduzir textos e responder perguntas médicas, superando até modelos estrangeiros muito maiores.

Em Resumo

Os autores pegaram um "elefante" (o modelo grande), fizeram uma cirurgia para transformá-lo em um "leopardo" (o modelo pequeno), ensinaram o leopardo a pensar como o elefante e agora esse leopardo corre tão rápido que pode ser usado em qualquer casa, sem perder a inteligência.

Isso é um grande passo para tornar a inteligência artificial acessível para línguas menos comuns (como o polonês), sem precisar gastar milhões de dólares construindo novos modelos do zero.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Bielik-Minitron-7B

1. O Problema

O avanço contínuo dos Grandes Modelos de Linguagem (LLMs) trouxe capacidades superiores, mas também aumentou drasticamente os requisitos de recursos computacionais (especialmente VRAM de GPU) para implantação. Para o mercado de línguas europeias, e especificamente para o polonês, existe uma necessidade crítica de modelos que equilibrem alto desempenho de raciocínio com eficiência de implantação.
Treinar modelos do zero para línguas menos representadas é financeiramente proibitivo e ambientalmente custoso. Além disso, modelos grandes (como o Bielik-11B-v3.0) são difíceis de rodar em hardware de consumo (ex.: GPUs de 16GB-24GB). O desafio é reduzir o tamanho do modelo (parâmetros e latência) sem sacrificar a fidelidade linguística e a qualidade do raciocínio.

2. Metodologia

A equipe desenvolveu o Bielik-Minitron-7B (7,35 bilhões de parâmetros) a partir do modelo base Bielik-11B-v3.0 (11,04 bilhões de parâmetros) utilizando uma abordagem de compressão em duas etapas, inspirada na metodologia NVIDIA Minitron.

Fase I: Poda Estruturada (Structured Pruning)

Abordagem Híbrida: Em vez de apenas remover pesos individuais (poda não estruturada), o método remove componentes arquitetônicos inteiros para garantir aceleração de hardware.
Eixos de Poda: A poda ocorreu em múltiplas dimensões ortogonais:
- Profundidade: Remoção de camadas inteiras do Transformer (redução de 50 para 40 camadas).
- Largura (FFN): Redução da dimensão intermediária das camadas Feed-Forward (de 14.336 para 11.264).
- Manutenção de Invariantes: A dimensão oculta ( $d_{model} = 4096$ ) e a topologia de atenção foram mantidas para preservar a estrutura original.
Seleção de Componentes: Utilizou-se uma estimativa de importância baseada em ativações (sem necessidade de retropropagação de gradientes). Componentes com magnitudes de ativação consistentemente baixas em um conjunto de calibração foram identificados como redundantes e removidos.
Configuração Ótima (EXP_010): Após uma busca sistemática por 10 configurações, a configuração "Golden Ratio" (EXP_010) foi selecionada, reduzindo os parâmetros em 33,4% (de 11,04B para 7,35B).

Fase II: Recuperação via Distilação de Conhecimento (Knowledge Distillation)

Objetivo: Recuperar a qualidade perdida após a poda.
Método: O modelo podado (aluno) foi inicializado com os pesos sobreviventes do modelo original (professor) e treinado para minimizar a divergência KL (Kullback-Leibler) entre as distribuições de logits do professor e do aluno.
Logit-Only Distillation: Diferente do treinamento padrão, o foco foi exclusivamente na correspondência de logits (distribuição de probabilidade sobre o vocabulário), ignorando rótulos de verdade absoluta (ground-truth) e correspondência de estados intermediários. Isso permite que o aluno aprenda o "conhecimento escuro" (dark knowledge) e as nuances do professor.
Escala de Temperatura: Foi aplicada uma temperatura ( $T$ ) para suavizar as distribuições de probabilidade, ajudando o aluno a capturar dependências linguísticas sutis e calibração de confiança.

Fase III: Alinhamento e Refinamento
Para transformar o modelo base distilado em um assistente robusto, foi aplicada uma pipeline de alinhamento rigorosa:

SFT (Supervised Fine-Tuning): Ajuste fino em ~20 milhões de instruções em polonês e inglês.
DPO-P (Direct Preference Optimization): Otimização baseada em preferências humanas para melhorar a segurança e a aderência a instruções.
GRPO (Group Relative Policy Optimization): Aprendizado por reforço focado em tarefas de raciocínio (STEM, matemática) para corrigir cadeias de pensamento.

3. Contribuições Chave

Modelo Eficiente para Línguas Europeias: Criação de um modelo de 7,35B otimizado especificamente para o polonês, capaz de rodar em GPUs de consumo (ex.: RTX 4090) com alta fidelidade.
Validação da Metodologia Minitron: Demonstração prática de que a poda estruturada híbrida combinada com distilação de logits é superior ao treinamento de modelos menores do zero para línguas específicas.
Pipeline Reproduzível: Estabelecimento de um blueprint para criar modelos de alta qualidade para línguas menos representadas, reduzindo custos computacionais e de carbono.
Desempenho em Hardware de Consumo: O modelo final ocupa apenas ~14GB em precisão FP16, democratizando o acesso a LLMs de ponta na Polônia e na Europa.

4. Resultados

O modelo Bielik-Minitron-7B recuperou aproximadamente 90,1% do desempenho do modelo professor (Bielik-11B-v3.0) em benchmarks críticos, com ganhos significativos de velocidade.

Benchmarks de Língua Polonesa:
- Open PL LLM Leaderboard: Pontuação de 62,46 (recuperação de 94,7% do professor), superando rivais diretos como Qwen2.5-7B e Mistral-7B, e competindo com modelos de 14B-32B.
- Polish EQ-Bench: Pontuação de 64,09, superando modelos maiores como Mistral-Nemo (12B) e PLLuM-12B.
- CPTUB (Compreensão de Texto Complexo): Alta retenção em sintaxe e gramática polonesa, superando o phi-4 e o Qwen2.5-7B.
- Medicina (Polish Medical Leaderboard): Pontuação de 44,36%, superando modelos de 11B anteriores e modelos de 12B-22B.
Tradução e Leitura:
- FLORES: BLEU médio de 15,53, superando o phi-4 (15B) e o Mistral-Nemo (12B) na tradução para o polonês.
- Belebele: Pontuação de 78,03, superando o Qwen2.5-7B e o Mistral-Nemo.
Desempenho de Inferência:
- Throughput: Aumento de 49,6% na taxa de tokens por segundo (de 54,42 para 81,41 tok/s).
- Latência: Redução de 32,6% no tempo por token de saída (TPOT), de 18,28ms para 12,32ms.
Quantização: O modelo mantém alta resiliência à quantização. A versão 4-bit (Q4_K_M) perde apenas 0,91% de desempenho, permitindo execução em hardware com memória limitada.

5. Significado e Conclusão

O trabalho demonstra que é possível comprimir modelos grandes de forma "cirúrgica" sem sacrificar a qualidade linguística crítica para mercados locais.

Eficiência: A abordagem reduziu o custo de inferência e o footprint de memória, tornando viável a execução de modelos de nível SOTA em hardware de consumidor.
Sustentabilidade: Ao evitar o treinamento do zero e usar menos de 3% dos dados de pré-treinamento original para a recuperação, o método reduz drasticamente a pegada de carbono e o custo financeiro.
Impacto Regional: O Bielik-Minitron-7B serve como um modelo de referência para o desenvolvimento de LLMs eficientes para línguas europeias, provando que a combinação de poda estruturada e distilação é o caminho viável para a democratização da IA generativa na Europa.

Em suma, o Bielik-Minitron-7B é um marco na otimização de LLMs para o polonês, oferecendo um equilíbrio superior entre tamanho, velocidade e inteligência, acessível a um ecossistema mais amplo de desenvolvedores e pesquisadores.

Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language

1. A Cirurgia Inteligente (Poda Estruturada)

2. O Mestre e o Aprendiz (Distilação de Conhecimento)

3. O Treinamento Final (Ajuste Fino)

O Resultado Final: O Gênio de Bolso

Em Resumo

Resumo Técnico: Bielik-Minitron-7B

1. O Problema

2. Metodologia

3. Contribuições Chave

4. Resultados

5. Significado e Conclusão

Mais como este

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

On the Existence and Behavior of Secondary Attention Sinks