Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente pessoal super inteligente, um robô que pode ler seus e-mails, verificar suas contas bancárias e pesquisar na internet para você. O problema é que, às vezes, esse robô é um pouco "alucinado". Ele pode inventar que encontrou um e-mail que não existe, dizer que você tem 5 mensagens quando só tem 3, ou afirmar que uma notícia é real sem nunca ter lido o site.

O artigo que você leu apresenta uma solução chamada NabaOS. Em vez de usar matemática complexa e pesada (como "provas de conhecimento zero", que são como fazer um exame de matemática de 10 horas para provar que você fez a lição de casa), eles criaram um sistema leve e rápido baseado em recibos, inspirado em uma antiga filosofia indiana.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O "Robô Mentiroso"

Atualmente, quando seu assistente diz: "Encontrei 3 e-mails da Alice sobre o prazo", você não sabe se ele realmente abriu o e-mail, se o sistema devolveu 3 resultados ou se ele apenas inventou isso para parecer útil.

A solução antiga (Provas Criptográficas): Era como pedir para o robô provar que ele fez a tarefa. O problema é que essa prova demorava minutos para ser gerada. Para um assistente que precisa responder em segundos, isso é impossível. É como pedir para um carteiro escrever um livro inteiro antes de entregar uma carta.

2. A Solução NabaOS: O "Recibo de Loja"

A ideia do NabaOS é simples: toda vez que o robô usa uma ferramenta (como checar e-mails), o sistema gera um "recibo" digital assinado.

A Analogia da Loja: Imagine que você compra algo em uma loja. O caixa gera um recibo com o item, o preço e a data. Se você chegar em casa e o vendedor disser "você comprou 5 sapatos", mas o recibo diz "1 sapato", você sabe que ele está mentindo.
Como funciona no NabaOS:
1. O robô pede para o sistema verificar seus e-mails.
2. O sistema faz a verificação e gera um recibo assinado digitalmente (que o robô não consegue falsificar).
3. O robô escreve a resposta para você.
4. O sistema NabaOS olha a resposta do robô e compara com o recibo. Se o robô disser "3 e-mails" e o recibo disser "3", tudo certo. Se ele disser "5", o sistema pega no flag.

3. A Filosofia Indiana: Não é só "Verdadeiro ou Falso"

O grande diferencial do NabaOS é que ele não usa apenas um selo de "Verificado" ou "Não Verificado". Ele usa uma classificação antiga da filosofia indiana (Nyaya) para dizer como o robô sabe o que sabe. É como se ele dissesse:

Olho no Olho (Pratyaksa): "Eu vi isso no recibo." (Ex: "Você tem 3 e-mails"). Confiança Máxima.
Chute Educado (Anumana): "Eu vi os e-mails e deduzi que a Alice está preocupada." (Isso é uma inferência, não um fato direto). Confiança Média.
Fala de Terceiro (Shabda): "Eu li no site da Reuters que..." (O robô precisa provar que foi ao site). Depende da fonte.
Ausência (Abhava): "Não encontrei nada." (O sistema verifica se o recibo realmente diz "0 resultados").
Adivinhação (Sem base): "Acho que vai chover." (Sem recibo nenhum). Baixa confiança.

Isso é melhor do que um simples "Verificado", porque permite que você, usuário, decida o quanto confiar. Se o robô diz "Alice está preocupada" (uma dedução), você sabe que é uma opinião do robô, não um fato bruto.

4. O Teste (A Prova de Fogo)

Os criadores criaram um teste chamado NyayaVerifyBench. Eles pegaram 1.800 situações onde o robô foi treinado para mentir de 6 jeitos diferentes (inventar e-mails, mudar números, inventar sites, etc.).

O Resultado: O NabaOS pegou 91% das mentiras.
A Velocidade: Tudo isso aconteceu em menos de 15 milissegundos (mais rápido que um piscar de olhos).
Comparação: Outros métodos que tentam "ler" a resposta do robô para achar mentiras funcionam mal em outros idiomas e são muito lentos. O NabaOS funciona igual em inglês, hindi, chinês e espanhol, porque ele lê o "recibo" (dados puros), não o texto.

5. Por que isso é importante?

Para o futuro, onde robôs vão fazer coisas complexas (como comprar ações ou agendar cirurgias), precisamos saber se eles estão falando a verdade.

Provas Criptográficas são como ter um guarda-costas gigante que protege a porta, mas é lento e caro.
NabaOS é como ter um sistema de recibos e etiquetas de confiança. É rápido, barato e diz exatamente o que você precisa saber: "Isso é um fato que vi no sistema" ou "Isso é uma ideia que o robô teve".

Resumo final: O NabaOS transforma a "caixa preta" da inteligência artificial em uma "caixa de recibos". Ele não garante que o robô é perfeito, mas garante que, se ele diz que fez algo, ele tem o comprovante. E se ele inventar, o sistema pega no flag instantaneamente.

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

1. O Problema: O "Robô Mentiroso"

2. A Solução NabaOS: O "Recibo de Loja"

3. A Filosofia Indiana: Não é só "Verdadeiro ou Falso"

4. O Teste (A Prova de Fogo)

5. Por que isso é importante?

Título: Comprovantes de Ferramentas, não Provas de Conhecimento Zero: Detecção Prática de Alucinações para Agentes de IA

1. O Problema: A Lacuna de Confiança em Agentes de IA

2. Metodologia: O Framework NabaOS

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Conclusão

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

1. O Problema: O "Robô Mentiroso"

2. A Solução NabaOS: O "Recibo de Loja"

3. A Filosofia Indiana: Não é só "Verdadeiro ou Falso"

4. O Teste (A Prova de Fogo)

5. Por que isso é importante?

Título: Comprovantes de Ferramentas, não Provas de Conhecimento Zero: Detecção Prática de Alucinações para Agentes de IA

1. O Problema: A Lacuna de Confiança em Agentes de IA

2. Metodologia: O Framework NabaOS

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem