REx86: A Local Large Language Model for Assisting in x86 Assembly Reverse Engineering

Each language version is independently generated for its own context, not a direct translation.

Imagine que você encontrou um cofre antigo e trancado. Dentro dele, há um diário escrito em uma língua que ninguém entende mais, com palavras riscadas, códigos secretos e sem nenhum título nas páginas. Tentar descobrir o que esse diário diz é como engenharia reversa: é o trabalho de desmontar um software (como um vírus ou um programa de computador) para entender o que ele faz, mesmo que os criadores tenham apagado todas as etiquetas e explicações originais.

O problema é que esse trabalho é lento, chato e difícil. É como tentar montar um quebra-cabeça gigante no escuro.

Aqui entra a história do REx86, o "super-ajudante" criado pelos pesquisadores da Universidade Estadual da Louisiana. Vamos entender como eles fizeram isso usando algumas analogias simples:

1. O Problema: O Tradutor que não Entende o Jargão

Antes, as pessoas tentavam usar Inteligências Artificiais (IA) da internet (como o ChatGPT) para ajudar a ler esses códigos. Mas havia dois grandes problemas:

Segurança: Você não pode enviar segredos de estado ou códigos de vírus para uma IA na nuvem, pois isso é como enviar uma carta aberta para um estranho. Em lugares seguros (como bases militares), a internet nem existe.
Competência: As IAs gerais são ótimas em escrever poemas ou resumir livros, mas quando veem código de computador (linguagem de máquina), elas ficam confusas. É como pedir para um chef de cozinha famoso explicar a mecânica interna de um motor de carro; ele sabe cozinhar, mas não entende parafusos.

2. A Solução: Um Estagiário Especializado (REx86)

Os pesquisadores decidiram criar seu próprio "estagiário" de IA, que eles chamaram de REx86.

O Treinamento (A Escola): Eles pegaram 8 modelos de IA diferentes (como se fossem 8 alunos promissores) e os colocaram em uma "escola intensiva". Eles usaram um método inteligente chamado LoRA (que é como dar um "apostila de resumo" ao invés de fazer o aluno ler a biblioteca inteira de novo).
O Material de Estudo: Eles criaram um livro didático gigante com quase 6.000 exemplos de códigos de computador (x86) que já tinham explicações. Eles ensinaram a IA a:
- Explicar o que o código faz.
- Completar linhas de código faltantes.
- Escrever comentários nas linhas (como um professor escrevendo notas na margem de um livro).
- Responder perguntas sobre a linguagem.

3. O Resultado: O Melhor Aluno

Depois do treinamento, eles testaram todos os alunos. O vencedor foi um modelo chamado Qwen2.5-Coder-7B, que agora se chama REx86.

O que ele aprendeu? Ele aprendeu a ler o código "na velocidade da luz" e a explicar o que está acontecendo em cada linha, sem inventar coisas (alucinações) ou ficar confuso.
Onde ele roda? Diferente das IAs da internet que precisam de supercomputadores, o REx86 foi feito para rodar em computadores comuns (como um PC gamer de alta performance). Isso significa que ele pode ser usado em lugares sem internet, mantendo tudo seguro e privado.

4. A Prova Real: O Teste com Estudantes

Para ver se o REx86 realmente ajudava, eles fizeram um experimento com 43 estudantes de segurança cibernética.

O Cenário: Eles deram um "vírus falso" (um programa que fingia ser sobre esquilos, mas na verdade era um teste) para os alunos analisarem.
Os Grupos:
- Um grupo usou a IA original (sem treino).
- Outro grupo usou o REx86 (o treinado).
- Um terceiro grupo não teve ajuda nenhuma.
O Resultado: O grupo com o REx86 entendeu muito melhor o que cada linha do código significava. Eles conseguiram decifrar o "mistério" do vírus com mais facilidade. Embora não tenham resolvido 100% dos casos, a ajuda foi tão boa que eles se sentiram muito mais confiantes e rápidos.

5. Por que isso é importante? (A Analogia Final)

Imagine que você está tentando consertar um relógio suíço antigo e complexo.

Sem ajuda: Você está no escuro, tentando adivinhar qual engrenagem faz o que.
Com IA genérica: Alguém grita de longe: "Acho que é a mola!", mas pode estar errado.
Com o REx86: É como ter um engenheiro especialista sentado ao seu lado, que aponta para cada engrenagem e diz: "Olha, essa aqui gira para a direita porque o código disse para ela girar para a direita. Isso faz o ponteiro dos segundos avançar".

Conclusão

O REx86 não é um robô que faz todo o trabalho de desmontar o vírus sozinho (ainda não chegamos lá). Mas ele é a melhor ferramenta local e segura que já foi criada para ajudar os humanos a entenderem o que está acontecendo dentro dos códigos mais difíceis. Ele transforma um texto ilegível em uma história que faz sentido, tornando o trabalho de segurança cibernética mais rápido e menos propenso a erros.

E o melhor de tudo? Eles colocaram esse "super-estagiário" e todo o material de estudo na internet, de graça, para que qualquer pessoa possa usá-lo e melhorá-lo.

Each language version is independently generated for its own context, not a direct translation.

Título: REx86: Um Modelo de Linguagem Local para Assistência em Engenharia Reversa de Assembly x86

1. Problema e Motivação

A engenharia reversa (RE) de binários x86 é fundamental para análise de malware e firmware, mas é um processo lento, complexo e propenso a erros devido a:

Perda de Metadados: A compilação remove nomes de variáveis, comentários e tipos de dados definidos pelo usuário.
Otimizações e Obfuscação: Compiladores otimizam o código sacrificando a legibilidade, e autores de malware frequentemente aplicam técnicas de ofuscação para dificultar a análise.
Limitações das Ferramentas Atuais: Ferramentas como IDA Pro e Ghidra não conseguem recuperar a documentação perdida.
Riscos de Privacidade e Segurança: Modelos de Linguagem Grandes (LLMs) baseados em nuvem (como ChatGPT) apresentam riscos de vazamento de dados confidenciais e não podem ser usados em ambientes de rede fechada (enclaves) comuns em setores governamentais e de defesa.
Falta de Compreensão Contextual: LLMs pré-treinados geralmente falham em entender o propósito de instruções de baixo nível no contexto mais amplo de um programa, embora consigam descrever instruções isoladas.

2. Metodologia

2.1. Curadoria do Dataset (REx86 Dataset)
Os autores criaram um conjunto de dados personalizado contendo 5.981 exemplos de assembly x86, formatados no estilo Alpaca (Instrução, Entrada, Saída). Os dados foram agregados de quatro repositórios públicos e manuais técnicos, cobrindo cinco tarefas específicas:

Intenção do Código: Descrever o propósito de um trecho de código.
Completar o Código: Preencher linhas mascaradas (25% do código).
Comentários Inline: Gerar comentários JSON para cada linha de código.
Comentário de Cabeçalho: Gerar um resumo geral do código.
Perguntas e Respostas (Q&A): Perguntas técnicas sobre a arquitetura x86.

2.2. Seleção e Ajuste Fino (Fine-Tuning)

Modelos: Foram selecionados 8 modelos de pesos abertos (open-weight) de três séries: CodeLlama, Qwen2.5-Coder e CodeGemma, com tamanhos variando de 3B a 34B parâmetros.
Tecnologia de Ajuste: Utilizou-se o framework Unsloth para ajuste fino eficiente (PEFT - Parameter-Efficient Fine-Tuning).
- LoRA (Low-Rank Adaptation): Reduziu o número de parâmetros treináveis, permitindo o treinamento em hardware de consumidor (GPUs NVIDIA RTX).
- Quantização: Uso de quantização de 4 bits (nf4) para modelos maiores (14B e 32B), permitindo que coubessem na memória de vídeo (VRAM) sem perda significativa de desempenho.
Configuração: Os modelos foram treinados por 3 épocas com várias configurações de hiperparâmetros LoRA (Rank 8, 16, 32 e diferentes escalas $\alpha$ ).

2.3. Avaliação
A avaliação foi dividida em três partes:

Quantitativa: Medição de Cross-Entropy Loss (CE) e Cosine Similarity (CosSim) em embeddings semânticos (usando NV-Embed-v2) para comparar a saída do modelo com a "verdade fundamental" (ground truth).
Estudo de Caso com Usuários (Human Study): 43 participantes (estudantes de graduação em cibersegurança) analisaram uma amostra de malware fictício (um programa que simula atividades relacionadas a "esquilos" para incriminar um usuário).
- Grupos: Grupo REx86 (com comentários gerados pelo modelo ajustado), Grupo Base (com comentários do modelo original) e Grupo Controle (sem comentários).
- Tarefa: Determinar a intenção do malware em 3 horas.
Qualitativa: Análise manual de snippets de código (operações bit a bit e código ofuscado) para avaliar precisão e alucinações.

3. Principais Contribuições

REx86 (Pesos do Modelo): O modelo ajustado de melhor desempenho, baseado no Qwen2.5-Coder-7B, disponibilizado publicamente como adaptadores LoRA. É projetado para rodar localmente em GPUs de consumo, sem necessidade de internet.
Dataset de Assembly x86: Um conjunto de dados curado e público com exemplos de assembly comentados, útil para futuras pesquisas em RE e análise de malware.
Avaliação Abrangente: Uma análise quantitativa, qualitativa e humana que valida a eficácia de LLMs locais e de pesos abertos em tarefas de engenharia reversa.

4. Resultados

4.1. Desempenho Quantitativo

Melhor Modelo: O Qwen2.5-Coder-7B ajustado (nomeado REx86) foi o melhor desempenho geral.
Redução de Perda: O REx86 reduziu a perda de entropia cruzada (Cross-Entropy Loss) em 64,2% em relação ao modelo base.
Melhoria Semântica: A similaridade de cosseno semântica (CosSim) contra a verdade fundamental aumentou em 20,3%.
Comparação: Embora o CodeLlama-7B tenha tido a maior CosSim em tarefas de "Intenção de Código", o REx86 superou os outros em todas as outras categorias (comentários inline, cabeçalho, Q&A).

4.2. Estudo com Usuários

Compreensão de Linha: O grupo REx86 relatou uma compreensão significativamente melhor da funcionalidade de linhas individuais de assembly (p = 0.031) em comparação ao grupo base.
Taxa de Resolução: A taxa de acerto na identificação da intenção do malware aumentou de 31% (Base) para 53% (REx86), embora a diferença estatística não tenha atingido o limiar de significância (p = 0.189) devido ao tamanho da amostra.
Conclusão Humana: O REx86 forneceu insights mais localizados e contextualizados, reduzindo a carga cognitiva dos analistas.

4.3. Análise Qualitativa

Precisão: O REx86 gerou comentários mais precisos e concisos.
Redução de Alucinações: O modelo base tendia a ser vago ou sugerir incorretamente que o código era criptografia. O REx86 identificou corretamente a lógica de troca de bits e operações de registro, mesmo em código ofuscado.

5. Significância e Conclusão

O artigo demonstra que LLMs locais e de pesos abertos, quando ajustados com dados específicos de domínio, podem fornecer assistência de ponta na engenharia reversa de x86, superando modelos base genéricos.

Viabilidade em Ambientes Restritos: O REx86 oferece uma solução viável para ambientes de alta segurança (como enclaves governamentais) onde o uso de APIs em nuvem é proibido, garantindo que dados sensíveis não saiam do local.
Aumento de Produtividade: O modelo não automatiza totalmente a RE, mas atua como um assistente poderoso que melhora a compreensão micro (linha por linha) e a eficiência do analista.
Futuro: Os autores apontam a necessidade de mais dados de desmontagem comentados para melhorar ainda mais o desempenho e sugerem a expansão para outras arquiteturas (ARM, MIPS) no futuro.

Em suma, o REx86 estabelece um novo padrão para ferramentas de assistência local em engenharia reversa, combinando privacidade, eficiência computacional e alta precisão semântica.

REx86: A Local Large Language Model for Assisting in x86 Assembly Reverse Engineering

1. O Problema: O Tradutor que não Entende o Jargão

2. A Solução: Um Estagiário Especializado (REx86)

3. O Resultado: O Melhor Aluno

4. A Prova Real: O Teste com Estudantes

5. Por que isso é importante? (A Analogia Final)

Conclusão

Título: REx86: Um Modelo de Linguagem Local para Assistência em Engenharia Reversa de Assembly x86

1. Problema e Motivação

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significância e Conclusão

Mais como este

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach