How to make the most of your masked language model for protein engineering

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha de elite tentando criar o prato perfeito: um anticorpo (uma proteína que o corpo usa para combater doenças). O problema é que existem trilhões de combinações possíveis de ingredientes (aminoácidos) para fazer esse prato, e apenas uma fração minúscula deles vai funcionar de verdade.

Antigamente, os cientistas tentavam adivinhar essas combinações de forma aleatória ou testando uma por uma, o que era como tentar encontrar uma agulha em um palheiro... jogando agulhas no palheiro e torcendo para que uma delas fosse a certa.

Este artigo, apresentado no workshop GEM do ICLR 2026, conta como a BigHat Biosciences criou um novo "GPS" para encontrar essas agulhas muito mais rápido e com muito mais sucesso.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O "GPS" estava travando

Existem muitos "cérebros" de computador (chamados Modelos de Linguagem) que aprenderam a ler e escrever proteínas. Eles sabem como as proteínas funcionam. Mas, até agora, ninguém sabia muito bem como pedir a esses cérebros para gerar as melhores variações de um prato existente.

Os métodos antigos eram como tentar escrever um livro mudando uma letra por vez, de forma muito lenta e desorganizada. Eles focavam em "mudar uma letra aqui, mudar outra ali" (foco na mutação), o que era lento e muitas vezes gerava frases sem sentido (proteínas que não funcionam).

2. A Solução: O "Buscador de Caminhos" (Stochastic Beam Search)

Os autores propuseram uma nova maneira de usar esses cérebros. Em vez de pedir para o computador criar a proteína do zero ou letra por letra, eles pedem para o computador avaliar a qualidade de várias versões de uma só vez.

A Analogia do Mapa de Tesouro: Imagine que você tem um mapa (a proteína original) e quer encontrar o tesouro (a proteína perfeita).
- Método Antigo: Você anda um passo, olha ao redor, anda outro passo, olha ao redor... muito lento.
- Novo Método (Beam Search): Você sobe em um balão. De lá de cima, você vê todas as trilhas possíveis ao mesmo tempo. Você escolhe as 5 trilhas que parecem mais promissoras, avança nelas, e de novo, de cima, vê as próximas opções. Você nunca perde o foco do caminho mais promissor.

O grande truque matemático deles é que, como esses modelos de linguagem são muito rápidos em "ler" uma frase inteira, eles conseguem calcular a qualidade de todas as variações de uma só vez, sem precisar reescrever a frase inteira do zero. Isso é como ter um superpoder de velocidade.

3. O Teste Real: Na Cozinha vs. No Papel

Os pesquisadores não ficaram apenas no computador. Eles fizeram um teste real ("in vitro") em um laboratório de biotecnologia, tentando criar novos anticorpos para tratar doenças.

Eles compararam:

Diferentes "Cérebros" (Modelos): Alguns treinados apenas com proteínas genéricas, outros com anticorpos específicos.
Diferentes "Métodos de Busca" (Algoritmos): O método antigo (Gibbs) vs. o novo método deles (Beam Search).

A Grande Surpresa:
O resultado mostrou que o método de busca é tão importante quanto o cérebro que você usa.

Usar o melhor "cérebro" com um "GPS" ruim não funcionou bem.
Usar um "cérebro" comum com o novo "GPS" (Beam Search) funcionou muito melhor.

Foi como descobrir que, para chegar ao destino, ter um carro de luxo (o modelo) não adianta nada se você estiver usando um mapa de papel rasgado (o método antigo). Um carro popular com um GPS de última geração chega primeiro.

4. O "Cozinha com Chef Especial" (Otimização Multi-objetivo)

Além de apenas criar a proteína, os cientistas precisam garantir que ela seja:

Fábrica de produzir (não quebrar na fábrica).
Forte o suficiente para grudar no vírus.
Segura para o corpo humano (não causar alergias).

O novo método permite dar "instruções extras" ao GPS. É como dizer ao chef: "Quero um prato delicioso, mas que seja baixo em sódio e sem glúten". O sistema consegue equilibrar todas essas regras ao mesmo tempo, gerando opções que atendem a tudo.

5. O Que Eles Descobriram (As Lições)

O Modelo "Genérico" é um Herói: O modelo ESM-2, que foi treinado com todas as proteínas do mundo (não só anticorpos), funcionou tão bem quanto os modelos treinados especificamente para anticorpos. Isso é ótimo, pois é mais fácil de conseguir.
O Método "Beam Search" Venceu: Ele produziu mais anticorpos que funcionaram de verdade no laboratório do que os métodos antigos.
Supervisão Ajuda: Quando eles usaram dados reais do laboratório para "ensinar" o sistema a filtrar as melhores opções antes de enviar para o teste, o sucesso saltou para 100% em alguns casos.

Resumo Final

Este trabalho é como ter dado um GPS de última geração para os cientistas que criam medicamentos. Eles descobriram que não é preciso ter o carro mais caro do mundo (o modelo de IA mais complexo); o segredo é saber como dirigir (o algoritmo de busca).

Com essa nova técnica, a criação de novos remédios baseados em anticorpos pode se tornar muito mais rápida, barata e eficaz, ajudando a trazer tratamentos inovadores para os pacientes mais rápido do que nunca.

Each language version is independently generated for its own context, not a direct translation.

Título: Como Aproveitar ao Máximo seu Modelo de Linguagem Mascarado (MLM) para Engenharia de Proteínas

1. O Problema

A engenharia de proteínas, especificamente o desenvolvimento de anticorpos terapêuticos, enfrenta um desafio fundamental: o espaço de mutações possíveis é combinatorialmente vasto, mas os experimentos in vitro são caros, lentos e limitados a centenas de sequências. Embora existam muitos Modelos de Linguagem de Proteínas (PLMs), a maioria dos trabalhos anteriores foca no treinamento de modelos, negligenciando como amostrar (gerar) sequências desses modelos de forma eficiente.

Os métodos de amostragem existentes para Modelos de Linguagem Mascarados (MLMs) são predominantemente centrados em mutações (ex: amostragem de Gibbs, denoising autoregressivo). Essas abordagens:

São computacionalmente custosas ( $O(EL^3)$ por sequência).
Tendem a gerar sequências improváveis ou disfuncionais.
Têm dificuldade em integrar funções de pontuação adicionais (scoring functions) que não são diferenciáveis ou que exigem sequências completas (não mascaradas), como pontuação de imunogenicidade (OASis) ou ponto isoelétrico.

2. Metodologia Proposta

Os autores propõem uma mudança de paradigma: de uma abordagem centrada em mutações para uma abordagem centrada em sequência, utilizando Busca em Feixe Estocástico (Stochastic Beam Search - SBS) com Temperatura Annealed.

A. Busca em Feixe Estocástico (SBS) com Aproximação de PLL

Em vez de pedir ao MLM para "gerar" mutações token a token, o método trata a geração como um problema de busca no espaço de sequências, avaliando sequências inteiras via Pseudo-Log-Likelihood (PLL).

Eficiência Computacional: O grande insight é que, ao calcular a PLL de uma sequência "template" (semente), é possível calcular aproximadamente a PLL de todos os vizinhos de 1 edição (substituição de um único aminoácido) de forma quase gratuita.
Aproximação Wild-Type Marginal: Para calcular a pontuação de uma sequência vizinha $x'$ (que difere da template $x$ na posição $k$ ), o método usa as probabilidades condicionais exatas na posição $k$ , mas utiliza as probabilidades da template para todas as outras posições. Isso reduz a complexidade de $O(L^4)$ (cálculo exato) para $O(L^3)$ , permitindo uma busca eficiente.
Diversidade: O uso de ruído Gumbel antes do ranking (Stochastic Beam Search) equilibra a probabilidade do modelo (likelihood) com a diversidade das sequências geradas.

B. Otimização Multi-Objetivo (MOO) com Guia Livre de Gradientes

O framework trata o MLM e outras funções de pontuação (ex: modelos supervisionados de ligante, pontuação de "humanidade" OASis) como caixas pretas.

Escalonamento Suave (Smooth Tchebycheff Scalarization - STS): Em vez de usar apenas ordenação Pareto (NDS), que pode negligenciar objetivos, os autores utilizam STS para tentar melhorar o desempenho de todos os objetivos simultaneamente.
Flexibilidade: Como a busca é baseada na avaliação de sequências completas, é possível integrar funções de pontuação não diferenciáveis e que exigem sequências limpas (não mascaradas), algo difícil para métodos centrados em mutação.

3. Contribuições Principais

Novo Algoritmo de Amostragem: Proposta de um método de busca em feixe estocástico adaptado para MLMs, que é computacionalmente eficiente e superior a métodos baseados em mutação (Gibbs/Denoising).
Avaliação Abrangente In Silico e In Vitro: O primeiro estudo a comparar sistematicamente modelos e métodos de amostragem em campanhas reais de terapia de anticorpos, incluindo validação experimental em laboratório (wet lab).
Descoberta de Impacto Relativo: A conclusão de que a escolha do algoritmo de amostragem é tão impactante quanto a escolha do modelo em si.
Validação de Modelos Genéricos: Demonstração de que modelos treinados em proteínas genéricas (como ESM-2) podem ser altamente eficazes para otimização de anticorpos, competindo com modelos especializados.

4. Resultados

Experimentos In Silico

Foram avaliados 9 MLMs e 3 CLMs (Modelos de Linguagem Causal).
O método de Busca em Feixe superou consistentemente a amostragem de Gibbs em métricas de sintetizabilidade e diversidade.
Os modelos AbLang2 (especializado em anticorpos) e ESM2-650M (genérico) destacaram-se com as melhores métricas gerais.

**Experimentos In Vitro (Laboratório)**

Configuração: Campanha de anticorpos FAb com 289 amostras testadas em 13 configurações diferentes (combinações de modelos e métodos).
Taxa de Sucesso:
- O método AbLang2 + Busca em Feixe + Guia STS alcançou uma taxa de sucesso de 100% (sintetizabilidade e ligação bem-sucedida).
- A escolha do método de amostragem foi crucial: a Busca em Feixe superou o Gibbs em todos os modelos onde ambos foram testados.
- O uso de supervisão (filtragem e ranking pós-MLM) melhorou significativamente os resultados.
Qualidade de Ligação: Métodos com maior taxa de sucesso tenderam a produzir anticorpos com ligação mais forte (menor $K_D$ ). O guia STS eliminou a geração de ligantes muito fracos.
Diversidade e Viés:
- A Busca em Feixe produziu menos diversidade intra-semente (filhos da mesma semente compartilham mais mutações), mas manteve a diversidade inter-semente.
- Surpresa: O modelo ESM2-650M (treinado em proteínas gerais) produziu sequências com alta "humanidade" (baixo risco imunogênico), enquanto o AbLang2 (treinado em dados humanos) às vezes produziu sequências menos humanas. Isso sugere que o modelo genérico capturou melhor a distribuição natural de anticorpos humanos.
- O guia supervisionado reduziu a variância no rendimento (yield) das proteínas.

5. Significado e Recomendações Práticas

O trabalho estabelece novas diretrizes para a engenharia de proteínas assistida por IA:

Abandone a Amostragem Centrada em Mutações: Para MLMs, a busca em feixe estocástico é superior em eficiência e qualidade.
Supervisão é Chave: Sempre que dados rotulados estiverem disponíveis, use-os para filtragem, ranking e guia multi-objetivo.
Escolha do Modelo: Modelos genéricos de grande escala (como ESM-2 650M) são altamente eficazes, mas modelos especializados (AbLang2) também performam bem. A combinação de ambos com o método correto é ideal.
Guia Multi-Objetivo: Utilize Escalonamento Tchebycheff Suave (STS) em vez de ordenação Pareto quando o objetivo é satisfazer múltiplas restrições simultaneamente (ex: estabilidade + ligação + sintetizabilidade).
Cuidado com Guias Supervisionados: Embora eficazes, eles podem introduzir vieses indesejados (ex: redução da "humanidade" se o guia não for balanceado), exigindo monitoramento cuidadoso.

Em resumo, o paper demonstra que como você amostra de um modelo é tão crítico quanto qual modelo você usa, e propõe um pipeline robusto e validado experimentalmente para acelerar a descoberta de terapias biológicas.