Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

O artigo apresenta o NabaOS, um framework de verificação leve inspirado na epistemologia indiana Nyaya Shastra que utiliza recibos de execução de ferramentas assinados por HMAC para detectar alucinações em agentes de IA em tempo real com baixa latência, oferecendo uma alternativa prática e eficiente aos pesados e lentos protocolos de prova de conhecimento zero.

Abhinaba Basu

Publicado Thu, 12 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente pessoal super inteligente, um robô que pode ler seus e-mails, verificar suas contas bancárias e pesquisar na internet para você. O problema é que, às vezes, esse robô é um pouco "alucinado". Ele pode inventar que encontrou um e-mail que não existe, dizer que você tem 5 mensagens quando só tem 3, ou afirmar que uma notícia é real sem nunca ter lido o site.

O artigo que você leu apresenta uma solução chamada NabaOS. Em vez de usar matemática complexa e pesada (como "provas de conhecimento zero", que são como fazer um exame de matemática de 10 horas para provar que você fez a lição de casa), eles criaram um sistema leve e rápido baseado em recibos, inspirado em uma antiga filosofia indiana.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O "Robô Mentiroso"

Atualmente, quando seu assistente diz: "Encontrei 3 e-mails da Alice sobre o prazo", você não sabe se ele realmente abriu o e-mail, se o sistema devolveu 3 resultados ou se ele apenas inventou isso para parecer útil.

  • A solução antiga (Provas Criptográficas): Era como pedir para o robô provar que ele fez a tarefa. O problema é que essa prova demorava minutos para ser gerada. Para um assistente que precisa responder em segundos, isso é impossível. É como pedir para um carteiro escrever um livro inteiro antes de entregar uma carta.

2. A Solução NabaOS: O "Recibo de Loja"

A ideia do NabaOS é simples: toda vez que o robô usa uma ferramenta (como checar e-mails), o sistema gera um "recibo" digital assinado.

  • A Analogia da Loja: Imagine que você compra algo em uma loja. O caixa gera um recibo com o item, o preço e a data. Se você chegar em casa e o vendedor disser "você comprou 5 sapatos", mas o recibo diz "1 sapato", você sabe que ele está mentindo.
  • Como funciona no NabaOS:
    1. O robô pede para o sistema verificar seus e-mails.
    2. O sistema faz a verificação e gera um recibo assinado digitalmente (que o robô não consegue falsificar).
    3. O robô escreve a resposta para você.
    4. O sistema NabaOS olha a resposta do robô e compara com o recibo. Se o robô disser "3 e-mails" e o recibo disser "3", tudo certo. Se ele disser "5", o sistema pega no flag.

3. A Filosofia Indiana: Não é só "Verdadeiro ou Falso"

O grande diferencial do NabaOS é que ele não usa apenas um selo de "Verificado" ou "Não Verificado". Ele usa uma classificação antiga da filosofia indiana (Nyaya) para dizer como o robô sabe o que sabe. É como se ele dissesse:

  • Olho no Olho (Pratyaksa): "Eu vi isso no recibo." (Ex: "Você tem 3 e-mails"). Confiança Máxima.
  • Chute Educado (Anumana): "Eu vi os e-mails e deduzi que a Alice está preocupada." (Isso é uma inferência, não um fato direto). Confiança Média.
  • Fala de Terceiro (Shabda): "Eu li no site da Reuters que..." (O robô precisa provar que foi ao site). Depende da fonte.
  • Ausência (Abhava): "Não encontrei nada." (O sistema verifica se o recibo realmente diz "0 resultados").
  • Adivinhação (Sem base): "Acho que vai chover." (Sem recibo nenhum). Baixa confiança.

Isso é melhor do que um simples "Verificado", porque permite que você, usuário, decida o quanto confiar. Se o robô diz "Alice está preocupada" (uma dedução), você sabe que é uma opinião do robô, não um fato bruto.

4. O Teste (A Prova de Fogo)

Os criadores criaram um teste chamado NyayaVerifyBench. Eles pegaram 1.800 situações onde o robô foi treinado para mentir de 6 jeitos diferentes (inventar e-mails, mudar números, inventar sites, etc.).

  • O Resultado: O NabaOS pegou 91% das mentiras.
  • A Velocidade: Tudo isso aconteceu em menos de 15 milissegundos (mais rápido que um piscar de olhos).
  • Comparação: Outros métodos que tentam "ler" a resposta do robô para achar mentiras funcionam mal em outros idiomas e são muito lentos. O NabaOS funciona igual em inglês, hindi, chinês e espanhol, porque ele lê o "recibo" (dados puros), não o texto.

5. Por que isso é importante?

Para o futuro, onde robôs vão fazer coisas complexas (como comprar ações ou agendar cirurgias), precisamos saber se eles estão falando a verdade.

  • Provas Criptográficas são como ter um guarda-costas gigante que protege a porta, mas é lento e caro.
  • NabaOS é como ter um sistema de recibos e etiquetas de confiança. É rápido, barato e diz exatamente o que você precisa saber: "Isso é um fato que vi no sistema" ou "Isso é uma ideia que o robô teve".

Resumo final: O NabaOS transforma a "caixa preta" da inteligência artificial em uma "caixa de recibos". Ele não garante que o robô é perfeito, mas garante que, se ele diz que fez algo, ele tem o comprovante. E se ele inventar, o sistema pega no flag instantaneamente.