One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

O artigo apresenta o One-Eval, um sistema agêntico que automatiza e torna rastreável a avaliação de modelos de linguagem grandes, convertendo solicitações em linguagem natural em fluxos de trabalho executáveis e personalizáveis para reduzir o esforço manual e aumentar a reprodutibilidade em ambientes industriais.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang

Publicado Wed, 11 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um gerente de uma grande empresa e precisa contratar um novo funcionário (neste caso, um Modelo de Inteligência Artificial). Antes de contratá-lo, você precisa fazer uma entrevista, um teste de raciocínio e verificar se ele sabe fazer o trabalho.

No mundo da tecnologia atual, fazer esses testes em modelos de linguagem (como o ChatGPT ou o Qwen) é como tentar montar um quebra-cabeça gigante, mas com peças de tamanhos diferentes, em caixas diferentes e com instruções em línguas diferentes. O pesquisador precisa:

  1. Encontrar o teste certo.
  2. Baixar os dados manualmente.
  3. Ajustar as configurações para que o computador entenda.
  4. Ler os resultados e tentar descobrir o que eles significam.

Isso é chato, demorado e cheio de erros.

O que é o One-Eval?

O One-Eval é como se fosse um assistente pessoal superinteligente e organizado que faz todo esse trabalho sujo por você. Em vez de você ter que montar o quebra-cabeça, você apenas diz ao assistente: "Quero testar a inteligência matemática do meu modelo e ver onde ele erra".

Aqui está como ele funciona, usando uma analogia de uma Cozinha de Restaurante de Alta Tecnologia:

1. O Pedido (NL2Bench)

Você chega no balcão e diz: "Quero um prato que teste a criatividade e a lógica".

  • O problema antigo: O cozinheiro teria que procurar em 100 livros de receitas diferentes, tentar entender qual ingrediente usar e como cortar.
  • O One-Eval: O "Chefe de Cozinha" (o agente NL2Bench) ouve seu pedido, entende que você quer "criatividade e lógica", e imediatamente sugere: "Ok, vamos usar o teste de 'Resolução de Problemas' e o teste de 'Histórias Criativas' que temos na despensa". Ele transforma sua frase solta em um plano de ação claro.

2. A Preparação (BenchResolve)

Agora que o plano está feito, precisamos pegar os ingredientes.

  • O problema antigo: Às vezes, o ingrediente "farinha" está em um pacote de 1kg, às vezes em 500g, e às vezes o nome é diferente. O cozinheiro teria que medir tudo manualmente.
  • O One-Eval: O "Garçom Robô" (o agente BenchResolve) vai até a despensa (a internet e bancos de dados), pega os pacotes, abre, mede tudo para o tamanho padrão da cozinha e coloca na tigela certa. Ele garante que, não importa de onde veio o ingrediente, ele estará pronto para ser usado sem que você precise tocar em nada.

3. O Prato e o Relatório (Metrics & Reporting)

O modelo "come" o teste e produz uma resposta. Agora, como saber se foi bom?

  • O problema antigo: O cozinheiro te entrega um papel com apenas um número: "Nota: 7,5". Você não sabe se ele errou na salada, no tempero ou no cozimento.
  • O One-Eval: O "Crítico Gastronômico" (o agente de Relatórios) não te dá apenas uma nota. Ele te entrega um relatório detalhado: "O modelo acertou 90% das contas, mas errou quando a pergunta tinha duas partes. Aqui estão 3 exemplos de onde ele errou e por que errou. Sugiro treinar mais na parte de lógica complexa."

O "Segurança Humano" (Human-in-the-Loop)

O sistema é inteligente, mas não é onisciente. Em momentos importantes (como escolher qual teste usar), ele para e pergunta: "Ei, você tem certeza que quer usar este teste difícil? Posso ajustar algo?".
É como se o assistente dissesse: "Vou preparar o jantar, mas antes de acender o fogo, confirme se você não é alérgico a castanhas". Isso garante que você tenha o controle total, mas sem ter que fazer o trabalho braçal.

Por que isso é importante?

Hoje, testar uma IA é como tentar dirigir um carro de Fórmula 1 sem volante, apenas empurrando-o. O One-Eval coloca o volante, o acelerador e o GPS na mão do piloto.

  • Rastreável: Se algo der errado, você pode olhar o "diário de bordo" e ver exatamente o que o robô fez.
  • Automático: Você pede, ele faz, ele entrega o resultado pronto para tomada de decisão.
  • Útil para empresas: Em vez de apenas ver uma nota na prancheta, as empresas podem tomar decisões reais, como "Vamos lançar este modelo" ou "Precisamos corrigir esse erro de lógica antes".

Em resumo, o One-Eval transforma a avaliação de Inteligência Artificial de um "burocracia técnica chata" em um processo simples, transparente e focado em resolver problemas reais.