\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está testando se um novo assistente de IA é realmente capaz de fazer o trabalho de um especialista humano, como um advogado, um médico ou um engenheiro financeiro. Até agora, a maioria dos testes de IA era como um prova de múltipla escolha de escola: perguntas com respostas certas e erradas, onde a IA podia "chutar" ou memorizar fatos.

Mas a vida real não é uma prova de múltipla escolha. É mais como um jogo de RPG complexo onde você precisa resolver problemas difíceis, usar ferramentas, pesquisar em bibliotecas gigantes e tomar decisões que custam dinheiro se errar.

É aí que entra o $OneMillion-Bench (ou "Banco de Testes de Um Milhão de Dólares").

Aqui está uma explicação simples do que é esse projeto e por que ele é importante, usando analogias do dia a dia:

1. O Que é esse "Banco de Testes"?

Pense no $OneMillion-Bench não como uma prova, mas como um simulador de trabalho real.

O Problema Antigo: Os testes antigos perguntavam: "Quem foi o primeiro presidente dos EUA?". A IA responde "George Washington". Pronto, ponto.
O Novo Teste: O teste agora diz: "Você é um advogado em Nova York. Um cliente quer comprar uma empresa no Brasil. Analise os riscos legais, pesquise as leis locais, verifique se há conflitos de interesse e crie um contrato. Se você errar um detalhe, o cliente perde milhões."

O nome vem de um cálculo simples: os criadores pegaram 400 tarefas difíceis (em Direito, Finanças, Saúde, Indústria e Ciência) e calcularam quanto tempo um especialista humano levaria para fazer cada uma. O valor total do tempo de trabalho desses especialistas é mais de 1 milhão de dólares. Ou seja, eles estão testando a IA com tarefas que valem muito dinheiro no mundo real.

2. Como eles avaliam a IA? (A Régua de Especialista)

Antes, a gente só olhava se a resposta final estava certa. Agora, eles usam uma régua de avaliação detalhada (chamada de Rubricas).

Imagine que você pediu a um cozinheiro para fazer um bolo.

Teste Antigo: O bolo está comido? Sim. Nota 10.
Teste $OneMillion-Bench: O cozinheiro usou os ingredientes certos? Ele seguiu a temperatura do forno? O bolo cresceu uniformemente? Ele não queimou a borda?
- Se o bolo estiver bom, mas o cozinheiro usou sal em vez de açúcar (mesmo que o cliente não tenha percebido na primeira mordida), ele perde pontos.
- Se o cozinheiro inventar um ingrediente que não existe (alucinação), ele perde muitos pontos.
- Se o cozinheiro não seguir a regra de "não usar glúten", ele falha, mesmo que o bolo seja delicioso.

O teste avalia como a IA pensa, não apenas o que ela responde.

3. O Que Eles Descobriram? (Os Resultados)

Eles testaram 35 modelos de IA diferentes (incluindo os mais famosos do mundo) nessas tarefas difíceis. Aqui estão as descobertas principais:

A IA ainda não é um "Super-Humano" completo: Mesmo os modelos mais inteligentes erram muito quando precisam seguir regras estritas de profissionais. Eles são ótimos em conversar, mas ainda tropeçam em tarefas que exigem precisão cirúrgica.
A Ferramenta de Pesquisa é uma Espada de Dois Gumes:
- Analogia: Dar acesso à internet para a IA é como dar um mapa e uma bússola para um turista.
- Para os modelos mais espertos, a pesquisa ajuda muito (eles encontram o caminho certo e ganham pontos).
- Para os modelos mais fracos, a pesquisa os confunde (eles leem informações erradas, ficam tontos e pioram a resposta). Às vezes, é melhor a IA usar o que ela já sabe do que tentar pesquisar e se perder.
O "Custo" vs. "Valor": Eles mediram quanto custa para rodar a IA versus quanto valor ela gera. Descobriram que, às vezes, usar uma IA menor com uma ferramenta de pesquisa inteligente gera mais valor do que usar um "gigante" super caro que não sabe usar a ferramenta direito.

4. Por que isso importa para você?

Estamos entrando numa era onde a IA não vai apenas "conversar" com você, mas vai trabalhar para você.

Ela vai revisar seus contratos antes de você assinar.
Ela vai analisar seus investimentos.
Ela vai ajudar a diagnosticar doenças.

O $OneMillion-Bench nos diz a verdade: Ainda não podemos confiar cegamente na IA para fazer o trabalho chato e perigoso de especialistas. Ela precisa ser supervisionada.

Resumo em uma frase:

O $OneMillion-Bench é como um estágio de trabalho real para a Inteligência Artificial, onde ela é avaliada não por quanto sabe de cabeça, mas por quanto consegue fazer de útil, seguro e preciso em tarefas que valem milhões de dólares, mostrando que ainda temos um longo caminho para ir antes que as IAs sejam verdadeiros especialistas.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: $OneMillion-Bench

1. Problema e Motivação

Os modelos de linguagem (LMs) evoluíram de assistentes de chat para agentes capazes de raciocínio de longo prazo e uso de ferramentas. No entanto, os benchmarks existentes permanecem majoritariamente confinados a tarefas estruturadas ou estilo de exame, que falham em capturar a complexidade, as restrições profissionais e a necessidade de valor econômico real do trabalho profissional.

A Lacuna: Existe uma "fenda crítica" entre o desempenho em benchmarks de exames e as demandas rigorosas de ambientes profissionais reais (como auditoria atuarial, conformidade legal em fusões e aquisições, ou modelos de avaliação de investimentos).
O Desafio: É fundamentalmente incerto se os agentes atuais podem criar valor confiável em ambientes profissionais de alto risco, onde a correção depende tanto do processo de raciocínio quanto da resposta final, exigindo recuperação de fontes autoritativas, resolução de evidências conflitantes e adesão estrita a regras de domínio.

2. Metodologia e Construção do Benchmark

O $OneMillion-Bench ($ 1M-Bench) foi introduzido para preencher essa lacuna, oferecendo um testbed unificado para avaliar a confiabilidade, profundidade profissional e prontidão prática de agentes de linguagem.

Estrutura do Dataset:
- Volume: 400 tarefas curadas por especialistas.
- Domínios: Cobertura em 5 áreas de alto impacto: Finanças, Direito, Saúde, Ciências Naturais e Indústria.
- Bilinguismo: 200 tarefas em inglês (Global) e 200 em chinês (CN), com este último adaptado para regulamentos e contextos locais da China, não sendo apenas uma tradução.
- Valor Econômico: Cada tarefa é atribuída um valor monetário real, calculado com base no tempo estimado de um profissional sênior para completá-la multiplicado pelo salário horário de mercado. O valor total das tarefas excede US$ 1 milhão, dando nome ao benchmark.
Pipeline de Curadoria de Dados:
1. Criação de Tarefa: Especialistas desenham tarefas semi-abertas com respostas de referência e critérios de pontuação (rubricas).
2. Validação Adversarial: As tarefas são testadas contra agentes de ponta. Apenas tarefas que os agentes falham em resolver (abaixo de um limiar) são mantidas, garantindo discriminação de capacidade.
3. Revisão por Pares e Consenso: Um segundo especialista revisa a tarefa e as rubricas. Disputas são resolvidas por um terceiro especialista.
4. Filtragem: Tarefas muito fáceis (resolvidas por todos) ou impossíveis (onde todos falham consistentemente) são removidas ou refinadas.
Mecanismo de Avaliação (Rubricas):
- Diferente de métricas de precisão binária, o benchmark utiliza um sistema de rubricas baseadas em especialistas.
- Expert Score: Uma pontuação ponderada que mede o cumprimento de critérios profissionais (factualidade, coerência lógica, viabilidade prática, conformidade).
- Penalizações Negativas: O sistema inclui rubricas com pesos negativos (de -20 a -2) para penalizar violações de normas, alucinações factuais, ou falhas em seguir instruções críticas, alinhando a avaliação com a lógica de segurança e conformidade do mundo real.
- Pass Rate: A porcentagem de tarefas onde o agente atinge um limiar de competência (Expert Score ≥ 0.7).

3. Principais Contribuições

Avaliação Baseada em Valor Econômico: O benchmark quantifica a capacidade dos agentes através da lente de custos laborais tangíveis, respondendo "quanto trabalho confiável um agente pode entregar e qual é o seu valor?".
Taxonomia Orientada a Habilidades: Análise granular além da precisão agregada, cobrindo: Busca na Web, Raciocínio, Verbalização e Seguimento de Instruções.
Mecanismo de Rubricas com Penalidades Negativas: Uma inovação para evitar "hacking de recompensa", focando na integridade do processo e na adesão a políticas específicas de domínio.
Benchmarks de Cenários Reais: Simula fluxos de trabalho industriais reais, exigindo integração de informações em tempo real e tomada de decisão sob restrições complexas.

4. Resultados Principais

O benchmark foi usado para avaliar 35 modelos, incluindo modelos "Vanilla" (sem ferramentas), Agentes com Busca na Web e Agentes de Pesquisa Profunda (Deep Research).

Desempenho Geral:
- O Claude-Opus-4.6 emergiu como o líder em ambos os conjuntos de dados (Global e CN), tanto em modo vanilla quanto com busca na web.
- Gap de Desempenho: Existe uma lacuna significativa entre os modelos de ponta e a competência humana esperada. A maioria dos modelos obtém "quase acertos" (Expert Score moderado), mas falha em atingir o limiar de "Pass Rate" (competência completa) em uma proporção substancial de tarefas.
Impacto da Busca na Web (Web Search):
- Amplificador de Capacidade: Para modelos fortes (ex: Claude-Opus-4.6, GPT-5.2), a busca na web melhora significativamente a pontuação, especialmente em critérios baseados em evidências (Fatos e Raciocínio Analítico).
- Risco de Regressão: Para modelos mais fracos ou menos robustos, a busca na web pode degradar o desempenho, introduzindo ruído ou evidências conflitantes que confundem o raciocínio do agente.
- Não é uma Solução Mágica: Agentes especializados de "Deep Research" (como o o3-DeepResearch) têm desempenho competitivo, mas não superam consistentemente os melhores modelos gerais equipados com busca na web, sugerindo que a cobertura robusta de rubricas e a conformidade são mais decisivas do que pipelines de pesquisa complexos.
Análise por Domínio e Habilidade:
- Finanças: Consistentemente o domínio mais desafiador para a maioria dos modelos.
- Seguimento de Instruções: É a habilidade mais frágil; a adição de ferramentas de busca pode causar desvios nas instruções para modelos menos robustos.
- Sensibilidade Temporal: Os modelos performam melhor em questões atemporais e sofrem quedas significativas em tarefas sensíveis ao tempo, indicando uma dependência excessiva de pistas de ancoragem temporal.
Custo vs. Retorno (Pareto):
- Agentes com ferramentas de busca alcançam um trade-off Pareto-ótimo, entregando um valor econômico muito superior ao custo de inferência em comparação com modelos base sem ferramentas.

5. Significado e Conclusão

O $OneMillion-Bench representa uma mudança de paradigma na avaliação de agentes de linguagem:

Do "Acerto" para o "Valor": Move o foco da simples correção da resposta final para a confiabilidade do processo, a conformidade profissional e o valor econômico gerado.
Realidade Profissional: Demonstra que, embora os modelos sejam poderosos, eles ainda não são totalmente confiáveis para trabalho autônomo profissional de alto risco, onde erros de raciocínio ou alucinações podem ter consequências financeiras ou legais graves.
Futuro: O benchmark serve como um alvo prático e desafiador para a próxima geração de agentes, incentivando o desenvolvimento de sistemas que não apenas respondem, mas realizam o trabalho necessário para responder com qualidade profissional.

Em suma, o trabalho estabelece que a maturidade dos agentes deve ser medida pela sua capacidade de operar de forma segura, fundamentada e economicamente significativa em cenários profissionais complexos, e não apenas por sua performance em testes de conhecimento estático.

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

1. O Que é esse "Banco de Testes"?

2. Como eles avaliam a IA? (A Régua de Especialista)

3. O Que Eles Descobriram? (Os Resultados)

4. Por que isso importa para você?

Resumo em uma frase:

Resumo Técnico: $OneMillion-Bench

1. Problema e Motivação

2. Metodologia e Construção do Benchmark

3. Principais Contribuições

4. Resultados Principais

5. Significado e Conclusão

Mais como este

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers