Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha robótico (a Inteligência Artificial) muito talentoso. Ele consegue cozinhar pratos deliciosos e seguir receitas complexas perfeitamente. Mas, neste estudo, decidimos testá-lo em uma tarefa muito específica e perigosa: consertar uma torneira que está vazando veneno (uma falha de segurança no código).

O objetivo era ver se o robô conseguia parar o vazamento de veneno sem estragar o sabor da comida (a funcionalidade do programa). O resultado? O robô foi bom em não estragar a comida, mas péssimo em entender o vazamento.

Aqui está o resumo do estudo, traduzido para o dia a dia:

1. O Grande Problema: O Robô Entende a Gramática, mas não a Lógica

O estudo analisou 319 tentativas de conserto feitas por uma IA (chamada Gemini) em 64 programas Java.

O que aconteceu: Em mais da metade dos casos (51%), o robô escreveu um código que parecia perfeito, mas que não consertou o vazamento de veneno e, ao mesmo tempo, estragou a receita.
A Analogia: É como se o robô, ao tentar consertar a torneira, decidisse trocar o encanamento inteiro por um material que vaza mais, ou que deixasse a água sair de um lugar errado. Ele escreveu as palavras certas (o código compila), mas não entendeu o que precisava ser feito para resolver o problema real.

2. A "Máscara Perigosa": O Conserto que Passa no Teste

O pior cenário não foi quando o robô estragou tudo. Foi quando ele parecia ter consertado tudo, mas não tinha.

O Cenário: 10% das vezes, o robô escreveu um código que passou em todos os testes de "sabor" (funcionalidade), mas a torneira continuava vazando veneno.
O Perigo: Se você usasse esse código no mundo real, ele passaria em todas as verificações automáticas da empresa. Ninguém notaria que o sistema ainda está vulnerável até que um hacker o explorasse. É como um guarda de segurança que deixa entrar um ladrão disfarçado de funcionário porque o ladrão estava usando um crachá falso que parecia real.

3. A Regra do "Tudo ou Nada"

Os pesquisadores descobriram algo curioso sobre como a IA falha. Não existe um "quase lá".

A Analogia: Imagine tentar acertar um alvo. Ou você acerta no centro (o conserto é perfeito), ou você erra completamente. Não existe aquela situação de "quase acertou, só faltou um pouquinho".
O Resultado: Se a IA não consegue entender a lógica do problema de segurança, ela não consegue "melhorar" o código com pequenos ajustes. Ela precisa de uma mudança completa de estratégia. A IA é muito boa em manter o que já funciona (preservar a funcionalidade), mas muito ruim em criar novas regras de segurança.

4. Nem Todos os Problemas São Iguais

O estudo mostrou que a dificuldade depende do tipo de problema, como se fossem diferentes tipos de quebra-cabeças:

Quebra-cabeças Mecânicos (Fáceis para a IA): Problemas como "loops infinitos" (um programa que fica preso girando em círculos) foram os mais fáceis. A IA conseguiu consertar 45% deles. É como consertar um relógio que parou: basta dar um empurrãozinho.
Quebra-cabeças Semânticos (Difíceis para a IA): Problemas de "validação de entrada" (como impedir que alguém digite um comando perigoso) foram os piores. A IA conseguiu consertar 0% desses casos.
Por que? Porque validar entrada exige que a IA entenda o contexto do mundo real (o que é um dado válido para este aplicativo específico?). A IA sabe a sintaxe da linguagem, mas não tem o "senso comum" ou o conhecimento de domínio para saber o que é seguro.

5. A Conclusão: Não Confie Cegamente

A mensagem principal do estudo é um alerta de segurança:

Não use o robô como o único consertador. Se você pedir para uma IA consertar uma falha de segurança, ela pode entregar um código que parece ótimo, mas que deixa sua casa aberta para ladrões.
O que fazer? É necessário um "inspetor humano" (ou ferramentas de segurança específicas) para verificar se o conserto realmente funcionou. Não basta rodar os testes normais; é preciso testar especificamente se a "torneira de veneno" foi realmente fechada.

Em resumo: A IA é um excelente assistente que sabe escrever código, mas ainda não é um especialista em segurança. Ela tende a "alucinar" soluções que parecem corretas, mas que falham na lógica de proteção. Por isso, antes de colocar qualquer código gerado por IA em um sistema real, é preciso uma revisão rigorosa.

Each language version is independently generated for its own context, not a direct translation.

Título: Por que os LLMs Falham: Uma Análise de Falhas e Medição de Sucesso Parcial para Geração Automatizada de Patches de Segurança

1. O Problema

Embora os Modelos de Linguagem Grandes (LLMs) mostrem promessas significativas na Reparação Automática de Programas (APR) para bugs funcionais (como em benchmarks Defects4J e SWE-bench), sua eficácia na correção de vulnerabilidades de segurança permanece mal caracterizada.

A Lacuna: As suites de testes de desenvolvedores tradicionais verificam o comportamento esperado, mas não defendem contra entradas adversariais. Um patch pode passar em todos os testes funcionais e ainda deixar o sistema vulnerável.
O Risco: Estudos recentes indicam que agentes LLM introduzem vulnerabilidades a uma taxa quase nove vezes maior que a de desenvolvedores humanos. Existe uma tensão fundamental entre a funcionalidade e a segurança no código gerado por LLMs, onde técnicas de endurecimento frequentemente quebram a funcionalidade ou falham em corrigir a falha de segurança.

2. Metodologia

O estudo realizou uma análise sistemática de falhas utilizando o benchmark Vul4J (focado em Java).

Dados: Foram analisados 319 patches gerados pelo modelo Gemini 2.0 Flash (usando zero-shot prompting) cobrindo 64 vulnerabilidades de segurança Java (abrangendo 21 categorias CWE).
Protocolo de Avaliação (Eixo Tripartido): Cada patch foi avaliado em três dimensões:
1. Compilação: O código compila corretamente (Maven/Gradle).
2. Segurança: Execução de testes de Prova de Vulnerabilidade (PoV) (que falham em sistemas vulneráveis e passam em corrigidos) e análise estática com Semgrep para identificar problemas residuais.
3. Funcionalidade: Execução da suite completa de testes do desenvolvedor.
Métricas Propostas:
- Security Score ( $S_{score}$ ): Combina resultado do PoV e redução de alertas do Semgrep.
- Functionality Score ( $F_{score}$ ): Proporção de testes funcionais passados.
- Security Repair Score (SRS): Uma métrica contínua proposta pelos autores para medir o sucesso parcial:
  $SRS = C \times (0.5 \cdot S_{score} + 0.5 \cdot F_{score})$
  Onde $C=1$ se compilar, senão 0. O SRS varia de 0 a 1.

3. Principais Contribuições

Taxonomia de Falhas: Uma classificação detalhada das formas como os patches de segurança gerados por LLMs falham.
Security Repair Score (SRS): Uma métrica contínua que quantifica o progresso parcial, permitindo avaliar patches que não são totalmente corretos, mas não são totalmente inúteis.
Padrões de Dificuldade por CWE: Identificação de quais tipos de vulnerabilidade (CWE) são mais difíceis para os LLMs corrigir.
Diretrizes Acionáveis: Recomendações para pesquisadores e praticantes sobre como validar e utilizar patches gerados por IA.

4. Resultados Chave

A. Análise de Falhas (RQ1)

Taxa de Sucesso Total: Apenas 24,8% dos patches alcançaram correção total (seguros e funcionais).
Falha Dominante: 51,4% dos patches falharam tanto na segurança quanto na funcionalidade. A causa raiz não é sintaxe, mas mal-entendido semântico: os LLMs produzem código sintaticamente válido, mas aplicam estratégias de reparo fundamentalmente incorretas.
Risco de Implantação: 10,3% dos patches são "funcionais mas inseguros". Estes são os mais perigosos, pois passam nas pipelines de CI/CD padrão e só seriam detectados por testes específicos de segurança (PoV).

B. Sucesso Parcial e Assimetria (RQ2)

Assimetria: Os LLMs preservam a funcionalidade muito melhor do que corrigem a segurança.
- Média de Funcionalidade: 0,832
- Média de Segurança: 0,251
Padrão Bimodal: A distribuição do SRS é bimodal. Os patches tendem a ser ou "perfeitos" (SRS $\approx$ 1,0) ou "falhos" (SRS $\approx$ 0,5, onde a funcionalidade é mantida mas a segurança falha).
Ausência de "Quase-Sucesso": Apenas 0,3% dos patches caíram na faixa de "quase sucesso" (0,8 $\le$ SRS < 1,0). Isso sugere que a capacidade de reparo de segurança dos LLMs é "tudo ou nada"; ajustes incrementais em prompts raramente convertem uma falha de segurança em sucesso.

C. Preditores de Dificuldade (RQ3)

Tipo de Vulnerabilidade (CWE): É o preditor mais forte.
- 0% de taxa de correção para CWE-20 (Validação de Entrada), apesar de 95% dos patches compilarem.
- 45% de taxa de correção para CWE-835 (Loop Infinito), onde a lógica é mais "mecânica".
Tamanho do Patch Humano: Existe uma correlação negativa significativa ( $\rho = -0.331$ ) entre o tamanho do patch feito por humanos e o sucesso do LLM. Vulnerabilidades que exigem patches maiores são sistematicamente mais difíceis.
Complexidade de Código: Métricas tradicionais (Linhas de Código, Complexidade Ciclomática) não correlacionam com a dificuldade de reparo. O desafio é semântico (entender o que mudar), não estrutural (navegar no código complexo).

5. Significado e Implicações

Para Praticantes:
- Validação Rigorosa: Patches de segurança gerados por LLMs não devem ser implantados sem validação rigorosa, especialmente testes PoV.
- Foco em CWE Específicos: Vulnerabilidades de validação de entrada e controle de acesso (CWE-20, CWE-264) são sistematicamente mal corrigidas e exigem revisão humana prioritária.
- Rejeição de Trade-off: Não é necessário aceitar regressão de funcionalidade para corrigir segurança; os dois objetivos são alcançáveis simultaneamente (como provado pelos 24,8% de sucesso total).
Para Pesquisadores:
- Foco na Semântica: O gargalo não é a geração de código, mas a compreensão da vulnerabilidade. Futuras pesquisas devem focar em fornecer contexto específico da vulnerabilidade (descrições de exploração, padrões de remediação).
- Roteamento por CWE: Abordagens especializadas que direcionam diferentes tipos de vulnerabilidade para estratégias de reparo distintas podem melhorar o desempenho global.
- Métricas Contínuas: A comunidade deve mover-se além de métricas binárias (passou/falhou) para métricas contínuas como o SRS, que capturam o valor parcial de patches imperfeitos.

Conclusão:
O estudo demonstra que, embora os LLMs sejam competentes em manter a funcionalidade do código, eles falham sistematicamente em compreender e corrigir a lógica de segurança subjacente. A correção de segurança por LLMs é atualmente uma habilidade "tudo ou nada", dependente fortemente do tipo de vulnerabilidade, exigindo validação humana rigorosa antes de qualquer uso em produção.

Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

1. O Grande Problema: O Robô Entende a Gramática, mas não a Lógica

2. A "Máscara Perigosa": O Conserto que Passa no Teste

3. A Regra do "Tudo ou Nada"

4. Nem Todos os Problemas São Iguais

5. A Conclusão: Não Confie Cegamente

Título: Por que os LLMs Falham: Uma Análise de Falhas e Medição de Sucesso Parcial para Geração Automatizada de Patches de Segurança

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Implicações

Mais como este

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem