Conditioning LLMs to Generate Code-Switched Text

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo bilíngue, que fala inglês e espanhol perfeitamente, mas que, quando tenta escrever uma história misturando os dois idiomas (o que chamamos de code-switching ou "alternância de código"), ele acaba escrevendo tudo em inglês ou tudo em espanhol, ou faz uma mistura estranha que soa como um robô tentando imitar um humano.

É exatamente esse o problema que os pesquisadores Maite Heredia e sua equipe da Universidade do País Basco decidiram resolver. O artigo deles é como um "manual de instruções" para ensinar Inteligências Artificiais (IAs) a conversarem naturalmente como pessoas reais que vivem em comunidades bilíngues.

Aqui está a explicação do que eles fizeram, usando analogias simples:

1. O Problema: A IA "Cega" para a Mistura

As IAs modernas (como o ChatGPT) são treinadas com livros e textos da internet. O problema é que a maioria desses textos é escrita em um único idioma. Quando você pede para a IA escrever algo misturando inglês e espanhol, ela fica confusa. Ela não sabe onde ou como trocar de idioma de forma natural. É como pedir para um cozinheiro que só sabe fazer pratos italianos tentar fazer uma "pizza mexicana" sem nunca ter visto um taco. O resultado costuma ser estranho.

2. A Solução Criativa: O "Espelho Inverso"

Como não existem muitos livros de "frases misturadas" para ensinar a IA, os pesquisadores tiveram uma ideia genial: eles ensinaram a IA a fazer o caminho inverso.

O Passo 1 (O Espelho): Eles pegaram frases reais de pessoas que já misturam inglês e espanhol (coletadas de redes sociais).
O Passo 2 (A Tradução): Eles usaram uma IA muito inteligente para traduzir essas frases misturadas apenas para o inglês. Agora, eles tinham pares: uma frase "misturada" e sua versão "pura" em inglês.
O Passo 3 (O Treino): Com esses pares, eles treinaram a IA para fazer o oposto: pegar uma frase em inglês puro e transformá-la na versão misturada.

É como se você tivesse um espelho que mostra o reflexo de uma pessoa vestindo roupas mistas. Ao estudar o reflexo, você aprende a vestir a pessoa corretamente, em vez de apenas olhar para ela.

3. O Resultado: O "Aluno" vs. O "Professor"

Eles testaram duas abordagens:

O Professor (Modelos Grandes sem treino): IAs gigantes que tentam adivinhar a resposta apenas com base no que já sabem (como pedir para um professor de história criar uma receita de bolo sem nunca ter cozinhado). Eles fazem um trabalho razoável, mas muitas vezes esquecem de misturar os idiomas.
O Aluno Treinado (Modelos com "Fine-tuning"): IAs menores que passaram por um curso intensivo usando os dados que os pesquisadores criaram.

A descoberta principal: O "Aluno Treinado" foi muito melhor! Ele conseguiu criar frases misturadas que soavam naturais, como se fossem escritas por um falante nativo. Curiosamente, ele até superou modelos gigantes e caros (como o GPT-4) que não foram treinados especificamente para essa tarefa. Foi como um aluno dedicado que, com a prática certa, superou um gênio que não estudou o assunto.

4. O Desafio da Avaliação: O "Julgador" vs. O "Humano"

A parte mais interessante do artigo é sobre como medir se a IA está fazendo um bom trabalho.

As Métricas Antigas (O Medidor de Palavras): Os pesquisadores usaram ferramentas automáticas tradicionais que contam quantas palavras batem com o original. O resultado? Elas deram notas altas para frases que eram apenas em inglês, porque as palavras em inglês batiam! Elas não conseguiam perceber que a frase não estava misturada. É como um professor que dá nota 10 para uma redação porque a ortografia está perfeita, mas ignora que o aluno não respondeu à pergunta.
O Juiz IA (GPT-4): Eles usaram outra IA para julgar as frases. Ela foi um pouco melhor, mas ainda não era perfeita.
O Juiz Humano: No final, apenas humanos conseguiram dizer com certeza: "Essa frase soa natural" ou "Essa frase parece robótica".

A lição: As ferramentas automáticas atuais ainda são cegas para a nuance da alternância de códigos. Elas precisam ser melhoradas para entender que a beleza de uma frase misturada está na mistura, não apenas nas palavras individuais.

Resumo Final

Este trabalho é como construir uma ponte. Os pesquisadores criaram uma nova "ponte de dados" (o conjunto de dados EN-CS) que permite ensinar IAs a falar como pessoas reais em comunidades bilíngues. Eles provaram que, com o treino certo, as IAs podem aprender a misturar idiomas de forma fluida e natural.

No entanto, eles também nos alertaram: não confie apenas em calculadoras automáticas para julgar a qualidade dessa mistura. Para saber se a IA está realmente falando como um humano, precisamos de olhos humanos (ou juízes muito bem treinados) para garantir que a "conversa" soe verdadeira.

Em suma: Treine a IA com exemplos reais, e ela aprenderá a misturar idiomas como um nativo; mas lembre-se, apenas um humano pode dizer se a conversa soa "verdadeira".

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Conditioning LLMs to Generate Code-Switched Text", apresentado em português:

Título: Condicionando LLMs para Gerar Texto com Mudança de Código (Code-Switching)

Autores: Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa (HiTZ Center - Ixa, Universidade do País Basco).

1. O Problema

A Mudança de Código (Code-Switching - CS) — a prática de misturar duas ou mais línguas em uma única utterance — é um fenômeno comum em comunidades bilíngues, tanto na fala quanto na escrita online. No entanto, a Pesquisa em Processamento de Linguagem Natural (PLN) enfrenta desafios críticos:

Falta de Dados: Há uma escassez de grandes conjuntos de dados diversificados e de alta qualidade para treinar e avaliar modelos robustos em CS.
Desempenho Insuficiente: Mesmo os modelos de linguagem multilíngues mais avançados (LLMs) têm desempenho pobre na geração e interpretação de dados com CS, pois os dados de pré-treinamento são majoritariamente monolíngues.
Avaliação Deficiente: As métricas automáticas tradicionais para geração de texto (como BLEU) não capturam as nuances da CS e não correlacionam bem com o julgamento humano.

O objetivo deste trabalho é investigar até que ponto os LLMs podem ser utilizados para gerar texto com CS a partir de sentenças monolíngues, focando no par linguístico Inglês-Espanhol.

2. Metodologia

Os autores propõem uma abordagem inovadora que envolve a criação de um corpus paralelo sintético e o ajuste fino (fine-tuning) de modelos.

A. Criação do Corpus Paralelo (EN-CS)

Como não existem sistemas de Tradução Automática (MT) prontos para converter texto com CS para monolíngue, os autores utilizaram uma estratégia de retrotradução (back-translation) assistida por LLMs:

Fonte: Utilizaram o benchmark LINCE (Inglês-Espanhol), filtrando instâncias para garantir que contenham CS real (pelo menos duas palavras em cada língua).
Geração de Pares: Usaram o modelo Command R para traduzir as sentenças com CS de volta para o Inglês monolíngue. Isso cria pares "Sentença com CS" $\leftrightarrow$ "Sentença Monolíngue".
Refinamento:
- Prata (Silver): Tradução automática para o conjunto de treino e desenvolvimento.
- Ouro (Gold): Edição manual por falantes proficientes para o conjunto de teste, garantindo um padrão de referência de alta qualidade.
Resultado: O corpus final, chamado EN-CS, contém ~10.700 pares de treino, 791 de desenvolvimento e 1.040 pares de teste (gold).

B. Ajuste Fino (Fine-Tuning)

O problema de geração de CS foi reformulado como uma tarefa de Tradução Automática (Inglês $\to$ CS).

Modelos: Foram ajustados dois modelos da família Llama 3 (8B e 8B Instruct) usando QLoRA (Low-Rank Adaptation com quantização de 4 bits).
Formato: Para o modelo base, usaram o formato <X>=<Y>. Para o modelo instruído, usaram prompts de sistema e usuário.
Héurística de Saída: Para evitar que o modelo continue traduzindo ou alucine conteúdo após o ponto final, a saída foi truncada no primeiro ponto de pontuação que mais se aproximasse do comprimento da sentença original.

C. Baselines e Avaliação

Baselines: Compararam os modelos ajustados com:
- LLMs em few-shot prompting (GPT-4o e Llama3.3-70B).
- Um modelo de MT dedicado (NLLB) ajustado no mesmo corpus.
Avaliação:
- Humana: Avaliação baseada em preferências (torneio) e análise de erros qualitativa.
- Automática: Métricas de referência (BLEU, BERTScore, chrF) e um "Juiz LLM" (GPT-4o).
- Domínios: Avaliação in-domain (dados do LINCE) e out-of-domain (textos criativos não ficcionais).

3. Principais Contribuições

Metodologia de Geração de Dados: Propõem um pipeline eficaz para criar pares paralelos de alta qualidade para CS usando LLMs para retrotradução, superando a falta de dados supervisionados.
Corpus EN-CS: Liberam um novo conjunto de dados paralelo (Inglês-CS) e o código associado.
Análise de Avaliação: Demonstram empiricamente que as métricas tradicionais de NLG falham em avaliar a geração de CS e que os juízes baseados em LLMs, embora melhores, ainda têm limitações significativas.
Evidência de Fine-Tuning: Provam que o ajuste fino é crucial para que os LLMs gerem CS natural, superando modelos grandes em few-shot e modelos dedicados de MT.

4. Resultados Chave

Desempenho de Geração

Preferência Humana: Os modelos ajustados (Llama3 8B) obtiveram o melhor ranking em preferência humana, superando tanto os modelos grandes de few-shot (GPT-4o, Llama3.3-70B) quanto o modelo NLLB.
- Observação: O modelo Instruct teve desempenho pior que o modelo Base, sugerindo que o ajuste por instrução pode degradar certas capacidades linguísticas para esta tarefa específica.
Generalização: O modelo ajustado (Llama3 Base) generalizou bem para o domínio out-of-domain, enquanto o NLLB e o modelo Instruct sofreram mais com erros de tradução e CS.
Análise de Erros:
- Modelos few-shot e NLLB tendem a gerar textos monolíngues (erro crítico de CS), mesmo quando a entrada é CS.
- Modelos ajustados cometeram menos erros de CS, mas mais erros de formato ou fluência.
- O modelo Instruct apresentou mais erros relacionados ao significado (tradução incorreta) comparado ao modelo base.

Correlação com Avaliação Humana

Métricas de Referência (BLEU, etc.): Correlação extremamente baixa (ρ $\approx$ 0.05 a 0.09) com o julgamento humano. Elas penalizam a presença de CS se a referência for monolíngue ou não capturam a naturalidade da mistura.
Juiz LLM (GPT-4o): Correlação moderada (ρ $\approx$ 0.35), melhor que as métricas tradicionais, mas ainda insuficiente. O GPT tende a preferir textos monolíngues fluentes, ignorando a exigência de CS, ao contrário dos avaliadores humanos que priorizam a presença da mudança de código.
Conclusão: Nenhuma métrica automática atual é adequada para avaliar a geração de CS de forma confiável.

5. Significado e Conclusão

O trabalho demonstra que o ajuste fino (fine-tuning) é um passo fundamental para capacitar LLMs a gerar texto com mudança de código natural e fluente, superando a capacidade de modelos grandes não ajustados ou modelos de tradução dedicados.

A pesquisa destaca uma lacuna crítica na avaliação automática de tarefas de geração multilíngue complexas. As métricas padrão falham em capturar a essência da CS, e mesmo os juízes de LLMs ainda não substituem totalmente a avaliação humana. Os autores concluem que é necessário desenvolver métodos de avaliação especializados, focados nas nuances linguísticas e sociais da mudança de código, para avançar o estado da arte em PLN para comunidades bilíngues.

Licença: Código e dados liberados sob licença CC-BY-NC-SA.