\$OneMillion-Bench: How Far are Language Agents from Human Experts?

El paper introduce \$OneMillion-Bench, un nuevo conjunto de 400 tareas curadas por expertos en cinco dominios profesionales que evalúa la fiabilidad y profundidad de los agentes de lenguaje en escenarios reales de alto impacto económico, superando las limitaciones de las pruebas actuales mediante una evaluación basada en criterios rigurosos de precisión factual, coherencia lógica y cumplimiento profesional.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que hasta ahora, hemos estado probando la inteligencia de las máquinas con exámenes de opción múltiple, como si fueran estudiantes de secundaria resolviendo problemas de matemáticas en un cuaderno. Sabemos que las máquinas son muy buenas en eso. Pero, ¿son realmente útiles en el mundo real? ¿Podrían, por ejemplo, actuar como un abogado experto, un médico o un ingeniero financiero sin cometer errores catastróficos?

El artículo que presentas, $OneMillion-Bench, es como un "examen final de la vida real" para estas inteligencias artificiales. Aquí te explico de qué trata usando analogías sencillas:

1. El Problema: Exámenes vs. La Vida Real

Hasta ahora, las pruebas de IA eran como pedirle a un chef que describa cómo se hace una tortilla en un papel. La IA puede escribir una receta perfecta. Pero $OneMillion-Bench le pide a la IA que cocine la tortilla de verdad, con ingredientes reales, sin quemarla y que esté lista para que un cliente la coma.

El problema es que las tareas reales (en leyes, finanzas, medicina) son complejas, requieren buscar información actualizada, seguir reglas estrictas y tomar decisiones que cuestan dinero si fallas.

2. La Solución: El "Banco de Pruebas de un Millón de Dólares"

Los autores crearon un banco de pruebas llamado $OneMillion-Bench.

  • ¿Qué es? Es una colección de 400 tareas difíciles creadas por expertos reales (abogados, doctores, financieros).
  • ¿Por qué "un millón"? Imagina que cada tarea tiene un precio. Si un experto humano tardara 20 horas en hacerla y cobra $50 la hora, esa tarea vale $1,000. Sumando las 400 tareas, el valor total de todo el trabajo humano necesario para resolverlas supera un millón de dólares.
  • La idea: No medimos solo si la IA "acierta", sino cuánto valor económico real puede generar. Si la IA hace el trabajo de un experto, ¿cuánto dinero se ahorra la empresa?

3. ¿Cómo se califica? (La Rúbrica)

En los exámenes escolares, solo importa la respuesta final (el número 5). En este examen, importa todo el proceso.
Imagina que la IA es un detective.

  • Si el detective encuentra al criminal (la respuesta correcta) pero usó pruebas falsas o rompió la ley para hacerlo, reproba.
  • El examen usa una puntuación basada en reglas (rúbricas). Los expertos humanos crearon listas de verificación:
    • ¿Buscó la información en la fuente correcta?
    • ¿Siguió las leyes locales?
    • ¿No inventó datos (alucinó)?
    • ¿La explicación tiene sentido lógico?

4. Los Resultados: ¿Quién es el mejor?

Probaron a 35 modelos de IA diferentes (los más famosos del mundo) en dos modos:

  1. Solo cerebro: La IA responde con lo que sabe de su entrenamiento.
  2. Con herramientas: La IA puede usar internet para buscar información actualizada (como un estudiante que tiene acceso a la biblioteca).

Las conclusiones clave:

  • Hay un líder: El modelo Claude-Opus-4.6 fue el que mejor lo hizo, especialmente cuando pudo buscar información en internet.
  • Internet es un arma de doble filo: Para los modelos inteligentes, buscar en internet les ayuda mucho. Pero para los modelos menos avanzados, buscar información a veces los confunde o les da datos contradictorios que los hacen fallar más. Es como darle un mapa a un conductor experto: llega más rápido. Pero darle un mapa a alguien que no sabe conducir puede hacer que se pierda.
  • Los "investigadores profundos" no ganaron: Había modelos diseñados específicamente para investigar mucho (Deep Research), pero no superaron a los modelos generales que usaban internet de forma inteligente. La clave no es investigar más, sino investigar mejor.
  • La brecha con los humanos: Aunque los modelos son impresionantes, todavía fallan en tareas que requieren un juicio humano muy fino. A menudo dan respuestas "casi correctas" pero que no sirven en la vida real porque se saltan un detalle legal o médico importante.

5. ¿Por qué es importante esto?

Este trabajo nos dice que la IA ya no es solo un "chatbot" divertido. Estamos entrando en una era donde la IA puede hacer trabajos reales que valen dinero.

  • El mensaje final: No basta con que la IA sea "lista". Para que sea útil en hospitales, tribunales o bancos, debe ser confiable, precisa y capaz de seguir reglas.
  • El futuro: Este examen ayuda a las empresas a saber qué IA pueden contratar para hacer el trabajo sucio y difícil, y a los desarrolladores a saber dónde deben mejorar sus máquinas.

En resumen:
$OneMillion-Bench es como un simulador de vuelo de alta precisión para la Inteligencia Artificial. Antes, solo probábamos si el avión podía despegar en un día soleado. Ahora, les pedimos que aterrice en medio de una tormenta, con visibilidad cero y pasajeros a bordo, para ver si realmente están listos para volar en el mundo real.