SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Este trabajo presenta SimpleQA Verified, un nuevo benchmark de 1.000 preguntas que corrige las limitaciones de fiabilidad del benchmark original de OpenAI mediante un riguroso proceso de filtrado, logrando que Gemini 2.5 Pro alcance un estado del arte en la evaluación de la factualidad paramétrica de los modelos de lenguaje.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das

Publicado Wed, 11 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los modelos de Inteligencia Artificial (como los chatbots que usamos hoy) son como estudiantes superdotados que han leído casi todo internet. El problema es que, a veces, estos estudiantes se inventan cosas (alucinaciones) o confían en información vieja y desactualizada.

Para saber si realmente saben lo que dicen, necesitamos un examen.

Este artículo presenta un nuevo examen llamado "SimpleQA Verified". Aquí te explico de qué trata, usando analogías sencillas:

1. El problema con el examen anterior

Antes, OpenAI tenía un examen llamado "SimpleQA". Era como un examen de cultura general muy difícil. Pero tenía varios defectos, como si fuera un examen hecho por un solo profesor con gustos extraños:

  • Preguntas repetidas: Tenía muchas preguntas que eran casi iguales (como preguntar 10 veces "¿Cuál es la capital de Francia?" pero cambiando una coma).
  • Sesgo de temas: Preguntaba demasiado sobre un tema (por ejemplo, muchas sobre fechas de fundación de pueblos de Colombia) y muy poco sobre otros.
  • Respuestas incorrectas: Algunas respuestas "correctas" en el examen estaban mal escritas o eran confusas.

Esto hacía que los modelos de IA pudieran "hacer trampa" memorizando las respuestas de ese examen específico en lugar de aprender de verdad. Era como si el estudiante estudiara solo las preguntas de un examen viejo en lugar de aprender la materia.

2. La solución: "SimpleQA Verified" (El examen limpio)

Los autores de Google DeepMind tomaron ese examen antiguo y lo renovaron por completo. Imagina que son editores de un libro de texto que deciden: "Vamos a limpiar esto, quitar lo repetido, asegurar que las respuestas sean correctas y que las preguntas sean variadas".

Hicieron esto en varios pasos (como una fábrica de control de calidad):

  1. Quitaron el "ruido": Eliminaron preguntas que eran copias casi idénticas de otras.
  2. Respetaron a los dueños de la información: Si un sitio web decía "no permitas que los robots lean mi contenido", quitaron las preguntas que dependían de ese sitio. Es como respetar la privacidad de un vecino.
  3. Equilibraron el menú: Aseguraron que hubiera preguntas de deportes, arte, geografía y ciencia, no solo de un solo tema.
  4. Corrigieron las respuestas: Si una pregunta pedía un número (ej. "¿Cuántos habitantes tiene X?"), definieron un rango aceptable (ej. "entre 100 y 105") para no ser injustos si el modelo da una cifra muy cercana.
  5. Hicieron el examen más difícil: Seleccionaron solo las 1,000 preguntas más difíciles para que los modelos no pudieran aprobar solo con suerte.

El resultado es un examen de 1,000 preguntas que mide realmente cuánto sabe la IA de su propia memoria, sin ayuda de Google ni buscadores.

3. El nuevo juez (El corrector automático)

Antes, el "corrector automático" (un programa que califica las respuestas) se confundía si la IA daba una respuesta correcta pero con muchas palabras de relleno o si decía "no estoy seguro, pero creo que es...".

Los autores mejoraron al "juez":

  • Ahora entiende que si la IA dice "Creo que es 50, pero podría ser 51", y la respuesta correcta es 50, es correcta.
  • Si la IA empieza a divagar o a dar opciones, el juez sabe que eso cuenta como "no intentado" o "incorrecto", para evitar que la IA gane puntos por hablar mucho sin decir nada claro.

4. ¿Quién ganó la carrera?

Pusieron a prueba a los modelos de IA más potentes del mundo (como GPT-5, Claude Opus 4 y los de Google).

  • El ganador: Gemini 2.5 Pro (de Google) obtuvo la mejor puntuación (55.6 de 100).
  • La sorpresa: Este modelo superó a otros gigantes como GPT-5 y Claude Opus 4 en este examen específico.

¿Por qué es importante esto?

Imagina que quieres comprar un coche y el vendedor te dice: "¡Este coche es el mejor del mundo!". Para creerlo, necesitas una prueba de manejo real, no solo que el vendedor lo diga.

SimpleQA Verified es esa prueba de manejo real para la Inteligencia Artificial.

  • Nos dice qué modelos realmente "saben" cosas y cuáles solo están "adivinando" o memorizando trucos.
  • Ayuda a los creadores de IA a mejorar sus modelos para que sean más fiables y no inventen cosas (alucinen) cuando las personas necesitan información verdadera, como en medicina o leyes.

En resumen: Limpiaron el examen, mejoraron al corrector y descubrieron que Gemini 2.5 Pro es, por ahora, el estudiante con mejor memoria de hechos.