EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

O artigo apresenta o EigenData, uma plataforma multiagente autônoma e autoevolutiva que automatiza a síntese, auditoria e reparo de dados para chamadas de função, demonstrando sua eficácia ao corrigir sistematicamente o benchmark BFCL-V3 e introduzir métricas de avaliação baseadas no estado do banco de dados que melhor se correlacionam com julgamentos humanos de correção funcional.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin

Publicado Mon, 09 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô superinteligente (uma Inteligência Artificial) a ser um detetive particular ou um agente de viagens. Para ele aprender a fazer isso bem, você precisa de milhões de histórias de casos resolvidos, onde o robô usa ferramentas certas, no momento certo, para chegar ao resultado correto.

O problema é que, até hoje, criar essas histórias era como tentar escrever um livro inteiro de cabeça, sozinho, sem erros. Era caro, lento e cheio de falhas.

Aqui entra o EigenData.

O Que é o EigenData?

Pense no EigenData não como um simples gerador de texto, mas como uma fábrica autônoma e autoconsertável de treinamento para robôs. É uma plataforma onde várias "IA especializadas" trabalham juntas para criar, testar e consertar o material de estudo dos robôs.

A fábrica é dividida em três departamentos principais, coordenados por um Chefe de Obra chamado EigenCore:

  1. O Arquiteto de Dados (DatabaseAgent):

    • O que faz: Antes de o robô resolver um problema, ele precisa de um "cenário". Se o robô vai reservar voos, o Arquiteto cria um banco de dados com voos reais, preços, assentos e passageiros.
    • Analogia: É como o cenógrafo que monta o cenário de um filme. Ele garante que o avião no hangar tenha combustível, que o passageiro tenha passagem comprada e que nada esteja "quebrado" antes da cena começar.
  2. O Engenheiro de Código (CodingAgent):

    • O que faz: Ele escreve o código que faz as ferramentas funcionarem. Se o robô precisa "cancelar uma reserva", o Engenheiro cria o botão e a lógica que apaga a reserva de verdade.
    • O diferencial: Ele não apenas escreve o código; ele é um inspetor de qualidade maníaco. Ele cria testes, tenta "quebrar" o código que ele mesmo fez, conserta os erros e só deixa passar quando o código funciona perfeitamente. É como um chef que prova a comida, ajusta o sal, e prova de novo antes de servir.
  3. O Roteirista (DataAgent):

    • O que faz: Ele cria as conversas (os diálogos) entre o usuário e o robô. Ele inventa situações complexas: "O cliente está furioso, o voo foi cancelado e ele quer um reembolso imediato".
    • O diferencial: Ele usa um processo de auto-evolução. Ele escreve um roteiro, um "juiz" (outra IA) critica, o roteirista melhora, e o juiz critica de novo, até que o roteiro seja perfeito. Ele também sabe identificar onde o roteiro está ruim e conserta apenas aquela parte, sem precisar reescrever tudo.

O Grande Teste: O Caso do "Berkeley" (BFCL)

Os autores usaram essa fábrica para consertar um dos testes mais famosos do mundo para robôs, chamado BFCL (Berkeley Function-Calling Leaderboard).

Imagine que esse teste era como uma prova de matemática que tinha 71,5% das questões erradas.

  • Às vezes, a pergunta dizia "use um número inteiro", mas a resposta esperada era uma "palavra".
  • Às vezes, o código da ferramenta tinha um bug que fazia o robô ser punido mesmo quando estava certo.
  • Às vezes, a resposta "correta" do gabarito estava errada.

O que o EigenData fez?
Ele entrou na prova, identificou todos os erros, corrigiu o código das ferramentas, ajustou as perguntas e reescreveu as respostas corretas.

O Resultado Surpreendente

Depois que o EigenData consertou a prova, algo mágico aconteceu:

  • A classificação dos robôs mudou. Alguns robôs que pareciam ótimos na prova original (porque a prova tinha "pegadinhas" que eles adivinharam) caíram de lugar. Outros que pareciam ruins, mas eram inteligentes, subiram no ranking.
  • A prova agora reflete a realidade. A nova classificação bateu de frente com o que humanos reais acham: "Este robô realmente resolveu o problema do cliente?".

Por que isso é importante?

Antes, os robôs eram treinados para "adivinhar a resposta do professor" (o gabarito). Agora, com o EigenData, eles são treinados para resolver o problema real.

É a diferença entre um aluno que decora a resposta certa de um livro de exercícios cheio de erros, e um aluno que aprendeu a pensar, usar as ferramentas corretamente e chegar ao resultado certo, não importa como a pergunta seja feita.

Em resumo: O EigenData é uma equipe de IA que constrói, testa e conserta o próprio material de ensino, garantindo que os robôs do futuro aprendam com exemplos perfeitos, e não com erros humanos.