Detecting Cryptographically Relevant Software Packages with Collaborative LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o dono de uma cidade gigante e muito antiga (o seu sistema de TI). Nessa cidade, existem milhares de prédios, lojas e casas (os softwares e pacotes). O problema é que, escondidos dentro de alguns desses prédios, existem cofres e sistemas de alarme muito específicos (as partes criptográficas).

Hoje em dia, os ladrões (hackers) estão ficando mais inteligentes, e até mesmo o futuro (computadores quânticos) pode quebrar os cofres antigos. Para proteger a cidade, você precisa saber exatamente onde estão todos esses cofres para poder trocá-los por novos e mais fortes.

Mas a cidade é enorme! Tentar entrar em cada uma das 65.000 casas e olhar manualmente para ver se tem um cofre é impossível. Seria como tentar encontrar uma agulha em um palheiro, só que o palheiro é do tamanho de um estado inteiro.

A Solução: Um Time de Detetives Inteligentes (LLMs)

Os autores deste artigo tiveram uma ideia brilhante: em vez de um único detetive, eles contrataram um time de cinco detetives superinteligentes (chamados de Modelos de Linguagem ou LLMs).

Esses detetives são como assistentes virtuais que leram quase tudo o que existe na internet sobre códigos e softwares. Eles conseguem ler a "descrição" de cada prédio na sua cidade e dizer: "Ei, esse aqui parece ter um cofre!" ou "Não, esse é só uma padaria comum."

O Grande Truque: A Votação em Grupo

Aqui está a parte mais interessante. Às vezes, um detetive pode se enganar. Ele pode achar que um cofre existe onde não existe (falso positivo) ou pode deixar passar um cofre real (falso negativo).

Para resolver isso, os autores usaram uma estratégia de votação democrática:

Eles perguntam a todos os 5 detetives sobre o mesmo prédio.
Se 3 ou mais (a maioria) disserem que "Sim, tem um cofre aqui", então eles anotam que é um prédio seguro para investigar.
Se a maioria disser "Não", eles ignoram.

Isso funciona como um conselho de sabedoria: mesmo que um ou dois detetives errem, o grupo como um todo tende a acertar muito mais.

Por que fazer isso "em casa" (Offline)?

Você pode pensar: "Por que não usar o Google ou uma IA superpoderosa na nuvem?"

O problema é que, em empresas e governos, você não pode enviar a lista de todos os seus prédios e segredos para uma IA pública na internet. Seria como entregar a planta de segurança da sua casa para um estranho.

Por isso, os autores criaram um sistema que roda dentro do próprio computador da empresa (on-premises). É como ter os seus próprios detetives trabalhando no seu escritório, sem que ninguém de fora veja o que eles estão analisando. Isso garante que seus segredos permaneçam secretos.

O Que Eles Descobriram?

Os pesquisadores testaram esse sistema em uma versão do Linux chamada Fedora (que tem mais de 65.000 "prédios").

O Desafio: No começo, os detetives locais (que rodam no computador da empresa) eram um pouco "desajeitados" e cometiam erros de formatação ou confusão.
A Melhoria: Eles aprenderam a "falar a língua" certa com cada detetive. Alguns detetives entendem melhor instruções curtas e diretas, outros precisam de explicações longas e detalhadas. Ao ajustar o "pedido" (o prompt) para cada um, a qualidade das respostas melhorou muito.
O Resultado: Com o time trabalhando junto e com as instruções certas, o sistema conseguiu identificar os cofres com uma precisão de cerca de 86%. Isso é quase tão bom quanto usar os detetives mais caros e famosos da internet, mas mantendo a privacidade total.

Analogia Final: O Filtro de Café

Pense nesse sistema como um filtro de café de alta tecnologia:

O grão de café é o software.
A água é o processo de análise.
Os 5 detetives são 5 filtros de papel diferentes.

Se você usar apenas um filtro, pode deixar passar borra (erros) ou reter muito café (perder dados importantes). Mas, se você colocar 5 filtros diferentes em série e só deixar passar o café que 3 deles concordarem que está limpo, você obtém uma xícara de café perfeita.

Conclusão

O papel mostra que não precisamos de supercomputadores caros ou de enviar nossos dados para a nuvem para encontrar os pontos fracos de segurança. Com um pouco de criatividade, usando um time de IAs locais que "votam" juntas, podemos mapear rapidamente onde estão os cofres digitais de uma empresa. Isso ajuda a preparar o terreno para trocar as fechaduras antigas por novas, antes que os ladrões do futuro descubram como abri-las.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Detecting Cryptographically Relevant Software Packages with Collaborative LLMs", traduzido e estruturado em português:

1. O Problema

As infraestruturas de TI enfrentam ameaças crescentes, incluindo ataques persistentes avançados e a vulnerabilidade futura dos esquemas criptográficos clássicos frente à computação quântica (Pós-Quântica - PQC). Para alcançar a agilidade criptográfica (a capacidade de adaptar rapidamente mecanismos criptográficos), as organizações precisam de um inventário confiável de seus ativos criptográficos (algoritmos, bibliotecas, protocolos).

No entanto, identificar manualmente pacotes de software relevantes para criptografia em ambientes heterogêneos e massivos (como distribuições Linux com dezenas de milhares de pacotes) é inviável. As abordagens tradicionais de análise estática de código e correspondência de padrões baseados em conhecimento (palavras-chave) falham devido à diversidade de ecossistemas, dependências transitivas complexas e à necessidade de manutenção constante de listas de assinaturas.

2. Metodologia

O estudo propõe um framework colaborativo baseado em Grandes Modelos de Linguagem (LLMs) para descobrir ativos criptográficos de forma heurística, operando inteiramente on-premises (localmente) para garantir a privacidade dos dados.

Coleta de Dados: Foi utilizado o gerenciador de pacotes dnf da distribuição Fedora Linux para compilar uma lista de 65.295 pacotes, incluindo nome, descrição e dependências de primeiro nível.
Arquitetura do Modelo:
- Foram utilizados 5 LLMs locais diferentes (hospedados via GPT4All e Ollama): phi-3, Meta-Llama-3, Nous-Hermes-Mistral, DeepSeek R1 e gpt4all.
- Os modelos foram escolhidos por sua diversidade técnica e disponibilidade gratuita.
Engenharia de Prompt:
- Os pacotes foram inseridos em um template de prompt com técnicas de few-shot prompting e instruções claras.
- O objetivo era classificar se o pacote é "criptograficamente relevante" (True/False) e fornecer uma justificativa.
- A saída foi forçada no formato JSON para facilitar a agregação.
Estratégia de Agregação (Votação Majoritária):
- As respostas de múltiplos LLMs foram agregadas. Um pacote é classificado como relevante se pelo menos $\lfloor n/2 \rfloor + 1$ modelos concordarem.
- Foi implementado um parser robusto para corrigir erros comuns de formatação JSON (aspas faltantes, chaves incorretas).
Validação:
- Uma amostra estratificada de 390 pacotes foi selecionada para servir como "Ground Truth" (verdade absoluta), validada manualmente por especialistas.
- O processo foi iterativo: os prompts e a lógica de parsing foram refinados com base nos resultados iniciais.

3. Contribuições Principais

Framework Colaborativo On-Premises: Demonstrou a viabilidade de usar LLMs locais para descoberta de ativos criptográficos sem depender de servidores externos, preservando a confidencialidade corporativa.
Estratégia de Votação Majoritária: Validou que a agregação de respostas de múltiplos modelos heterogêneos supera a performance de modelos individuais, mitigando erros e vieses específicos de cada modelo.
Otimização Iterativa: Desenvolveu diretrizes práticas para engenharia de prompts adaptados a diferentes tamanhos de modelos (prompts curtos para modelos pequenos, detalhados para grandes) e tratamento de erros de parsing.
Análise Estatística de Dependência: Investigou a correlação entre os modelos, descobrindo que, embora existam correlações (devido a dados de treino compartilhados), a votação majoritária ainda oferece ganhos significativos de precisão.

4. Resultados

O estudo foi dividido em fases de avaliação e otimização:

Avaliação Inicial (Sem Otimização):
- A performance foi modesta. O melhor modelo individual (llama) atingiu um F1-score de 0,77, enquanto a votação majoritária ficou em 0,72.
- Houve uma taxa de erro de parsing de cerca de 2,7% nas respostas brutas.
Otimização (Após Refinamento de Prompts e Parsing):
- Após ajustar os prompts para cada modelo e corrigir a lógica de parsing, a performance saltou significativamente.
- Votação Majoritária: Alcançou um F1-score de 0,86 (Precisão: 0,78, Recall: 0,95).
- Melhor Modelo Individual: O DeepSeek atingiu 0,84 de F1-score.
- Comparação com Nuvem: Os modelos locais otimizados competiram de forma favorável com modelos de ponta em nuvem (OpenAI, Google, Mistral), que atingiram F1-scores entre 0,83 e 0,86.
Validação Cruzada: Uma validação cruzada de 5 dobras (5-fold CV) confirmou a estabilidade do ensemble, com um F1-score médio de 0,82 e alta consistência.

Observação Importante: O estudo descobriu que o tamanho do modelo não é um indicador direto de desempenho para esta tarefa. O modelo menor phi superou modelos maiores em métricas de Recall (capacidade de encontrar todos os pacotes relevantes).

5. Significado e Conclusão

O artigo demonstra que LLMs colaborativos locais são uma ferramenta viável e eficiente para a triagem inicial de inventários de software criptográfico.

Impacto na Migração PQC: A abordagem reduz drasticamente a carga de trabalho manual necessária para identificar onde a criptografia é usada, facilitando a transição para criptografia pós-quântica.
Viabilidade Prática: A solução é acessível, não requer conhecimento profundo em criptografia para ser implementada e pode ser executada em infraestrutura existente das empresas.
Limitações: A precisão depende da qualidade das descrições dos pacotes e das dependências. Pacotes com informações públicas ambíguas podem ser mal classificados.
Futuro: O trabalho aponta para a criação de um inventário de materiais de criptografia (CBOM) mais detalhado e a extração de primitivas criptográficas específicas. O código e os dados do estudo foram disponibilizados como open source (OTH-AMiQuaSy).

Em suma, o estudo valida que, com a engenharia de prompts adequada e a agregação inteligente de múltiplos modelos, é possível automatizar a descoberta de ativos de segurança crítica com alta precisão, mantendo os dados dentro do perímetro da organização.

Detecting Cryptographically Relevant Software Packages with Collaborative LLMs

A Solução: Um Time de Detetives Inteligentes (LLMs)

O Grande Truque: A Votação em Grupo

Por que fazer isso "em casa" (Offline)?

O Que Eles Descobriram?

Analogia Final: O Filtro de Café

Conclusão

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados

5. Significado e Conclusão

Mais como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities