Detecting Cryptographically Relevant Software Packages with Collaborative LLMs

Este artigo propõe um framework colaborativo baseado em múltiplos modelos de linguagem (LLMs) que operam localmente para identificar automaticamente pacotes de software relevantes para criptografia em grandes repositórios, visando facilitar a transição para criptografia pós-quântica e reduzir a carga de trabalho manual.

Eduard Hirsch, Kristina Raab, Tobias J. Bauer, Daniel Loebenberger

Publicado Tue, 10 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o dono de uma cidade gigante e muito antiga (o seu sistema de TI). Nessa cidade, existem milhares de prédios, lojas e casas (os softwares e pacotes). O problema é que, escondidos dentro de alguns desses prédios, existem cofres e sistemas de alarme muito específicos (as partes criptográficas).

Hoje em dia, os ladrões (hackers) estão ficando mais inteligentes, e até mesmo o futuro (computadores quânticos) pode quebrar os cofres antigos. Para proteger a cidade, você precisa saber exatamente onde estão todos esses cofres para poder trocá-los por novos e mais fortes.

Mas a cidade é enorme! Tentar entrar em cada uma das 65.000 casas e olhar manualmente para ver se tem um cofre é impossível. Seria como tentar encontrar uma agulha em um palheiro, só que o palheiro é do tamanho de um estado inteiro.

A Solução: Um Time de Detetives Inteligentes (LLMs)

Os autores deste artigo tiveram uma ideia brilhante: em vez de um único detetive, eles contrataram um time de cinco detetives superinteligentes (chamados de Modelos de Linguagem ou LLMs).

Esses detetives são como assistentes virtuais que leram quase tudo o que existe na internet sobre códigos e softwares. Eles conseguem ler a "descrição" de cada prédio na sua cidade e dizer: "Ei, esse aqui parece ter um cofre!" ou "Não, esse é só uma padaria comum."

O Grande Truque: A Votação em Grupo

Aqui está a parte mais interessante. Às vezes, um detetive pode se enganar. Ele pode achar que um cofre existe onde não existe (falso positivo) ou pode deixar passar um cofre real (falso negativo).

Para resolver isso, os autores usaram uma estratégia de votação democrática:

  1. Eles perguntam a todos os 5 detetives sobre o mesmo prédio.
  2. Se 3 ou mais (a maioria) disserem que "Sim, tem um cofre aqui", então eles anotam que é um prédio seguro para investigar.
  3. Se a maioria disser "Não", eles ignoram.

Isso funciona como um conselho de sabedoria: mesmo que um ou dois detetives errem, o grupo como um todo tende a acertar muito mais.

Por que fazer isso "em casa" (Offline)?

Você pode pensar: "Por que não usar o Google ou uma IA superpoderosa na nuvem?"

O problema é que, em empresas e governos, você não pode enviar a lista de todos os seus prédios e segredos para uma IA pública na internet. Seria como entregar a planta de segurança da sua casa para um estranho.

Por isso, os autores criaram um sistema que roda dentro do próprio computador da empresa (on-premises). É como ter os seus próprios detetives trabalhando no seu escritório, sem que ninguém de fora veja o que eles estão analisando. Isso garante que seus segredos permaneçam secretos.

O Que Eles Descobriram?

Os pesquisadores testaram esse sistema em uma versão do Linux chamada Fedora (que tem mais de 65.000 "prédios").

  • O Desafio: No começo, os detetives locais (que rodam no computador da empresa) eram um pouco "desajeitados" e cometiam erros de formatação ou confusão.
  • A Melhoria: Eles aprenderam a "falar a língua" certa com cada detetive. Alguns detetives entendem melhor instruções curtas e diretas, outros precisam de explicações longas e detalhadas. Ao ajustar o "pedido" (o prompt) para cada um, a qualidade das respostas melhorou muito.
  • O Resultado: Com o time trabalhando junto e com as instruções certas, o sistema conseguiu identificar os cofres com uma precisão de cerca de 86%. Isso é quase tão bom quanto usar os detetives mais caros e famosos da internet, mas mantendo a privacidade total.

Analogia Final: O Filtro de Café

Pense nesse sistema como um filtro de café de alta tecnologia:

  • O grão de café é o software.
  • A água é o processo de análise.
  • Os 5 detetives são 5 filtros de papel diferentes.

Se você usar apenas um filtro, pode deixar passar borra (erros) ou reter muito café (perder dados importantes). Mas, se você colocar 5 filtros diferentes em série e só deixar passar o café que 3 deles concordarem que está limpo, você obtém uma xícara de café perfeita.

Conclusão

O papel mostra que não precisamos de supercomputadores caros ou de enviar nossos dados para a nuvem para encontrar os pontos fracos de segurança. Com um pouco de criatividade, usando um time de IAs locais que "votam" juntas, podemos mapear rapidamente onde estão os cofres digitais de uma empresa. Isso ajuda a preparar o terreno para trocar as fechaduras antigas por novas, antes que os ladrões do futuro descubram como abri-las.