One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um gerente de uma grande empresa e precisa contratar um novo funcionário (neste caso, um Modelo de Inteligência Artificial). Antes de contratá-lo, você precisa fazer uma entrevista, um teste de raciocínio e verificar se ele sabe fazer o trabalho.

No mundo da tecnologia atual, fazer esses testes em modelos de linguagem (como o ChatGPT ou o Qwen) é como tentar montar um quebra-cabeça gigante, mas com peças de tamanhos diferentes, em caixas diferentes e com instruções em línguas diferentes. O pesquisador precisa:

Encontrar o teste certo.
Baixar os dados manualmente.
Ajustar as configurações para que o computador entenda.
Ler os resultados e tentar descobrir o que eles significam.

Isso é chato, demorado e cheio de erros.

O que é o One-Eval?

O One-Eval é como se fosse um assistente pessoal superinteligente e organizado que faz todo esse trabalho sujo por você. Em vez de você ter que montar o quebra-cabeça, você apenas diz ao assistente: "Quero testar a inteligência matemática do meu modelo e ver onde ele erra".

Aqui está como ele funciona, usando uma analogia de uma Cozinha de Restaurante de Alta Tecnologia:

1. O Pedido (NL2Bench)

Você chega no balcão e diz: "Quero um prato que teste a criatividade e a lógica".

O problema antigo: O cozinheiro teria que procurar em 100 livros de receitas diferentes, tentar entender qual ingrediente usar e como cortar.
O One-Eval: O "Chefe de Cozinha" (o agente NL2Bench) ouve seu pedido, entende que você quer "criatividade e lógica", e imediatamente sugere: "Ok, vamos usar o teste de 'Resolução de Problemas' e o teste de 'Histórias Criativas' que temos na despensa". Ele transforma sua frase solta em um plano de ação claro.

2. A Preparação (BenchResolve)

Agora que o plano está feito, precisamos pegar os ingredientes.

O problema antigo: Às vezes, o ingrediente "farinha" está em um pacote de 1kg, às vezes em 500g, e às vezes o nome é diferente. O cozinheiro teria que medir tudo manualmente.
O One-Eval: O "Garçom Robô" (o agente BenchResolve) vai até a despensa (a internet e bancos de dados), pega os pacotes, abre, mede tudo para o tamanho padrão da cozinha e coloca na tigela certa. Ele garante que, não importa de onde veio o ingrediente, ele estará pronto para ser usado sem que você precise tocar em nada.

3. O Prato e o Relatório (Metrics & Reporting)

O modelo "come" o teste e produz uma resposta. Agora, como saber se foi bom?

O problema antigo: O cozinheiro te entrega um papel com apenas um número: "Nota: 7,5". Você não sabe se ele errou na salada, no tempero ou no cozimento.
O One-Eval: O "Crítico Gastronômico" (o agente de Relatórios) não te dá apenas uma nota. Ele te entrega um relatório detalhado: "O modelo acertou 90% das contas, mas errou quando a pergunta tinha duas partes. Aqui estão 3 exemplos de onde ele errou e por que errou. Sugiro treinar mais na parte de lógica complexa."

O "Segurança Humano" (Human-in-the-Loop)

O sistema é inteligente, mas não é onisciente. Em momentos importantes (como escolher qual teste usar), ele para e pergunta: "Ei, você tem certeza que quer usar este teste difícil? Posso ajustar algo?".
É como se o assistente dissesse: "Vou preparar o jantar, mas antes de acender o fogo, confirme se você não é alérgico a castanhas". Isso garante que você tenha o controle total, mas sem ter que fazer o trabalho braçal.

Por que isso é importante?

Hoje, testar uma IA é como tentar dirigir um carro de Fórmula 1 sem volante, apenas empurrando-o. O One-Eval coloca o volante, o acelerador e o GPS na mão do piloto.

Rastreável: Se algo der errado, você pode olhar o "diário de bordo" e ver exatamente o que o robô fez.
Automático: Você pede, ele faz, ele entrega o resultado pronto para tomada de decisão.
Útil para empresas: Em vez de apenas ver uma nota na prancheta, as empresas podem tomar decisões reais, como "Vamos lançar este modelo" ou "Precisamos corrigir esse erro de lógica antes".

Em resumo, o One-Eval transforma a avaliação de Inteligência Artificial de um "burocracia técnica chata" em um processo simples, transparente e focado em resolver problemas reais.

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

1. O Pedido (NL2Bench)

2. A Preparação (BenchResolve)

3. O Prato e o Relatório (Metrics & Reporting)

O "Segurança Humano" (Human-in-the-Loop)

Por que isso é importante?

Título: One-Eval: Um Sistema Agente para Avaliação Automatizada e Rastreável de LLMs

1. O Problema

2. Metodologia: O Sistema One-Eval

A. Componentes Principais

B. Mecanismo Humano-no-Loop

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Impacto

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

1. O Pedido (NL2Bench)

2. A Preparação (BenchResolve)

3. O Prato e o Relatório (Metrics & Reporting)

O "Segurança Humano" (Human-in-the-Loop)

Por que isso é importante?

Título: One-Eval: Um Sistema Agente para Avaliação Automatizada e Rastreável de LLMs

1. O Problema

2. Metodologia: O Sistema One-Eval

A. Componentes Principais

B. Mecanismo Humano-no-Loop

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance