Are Large Language Models Truly Smarter Than Humans?

Each language version is independently generated for its own context, not a direct translation.

Imagina que los modelos de Inteligencia Artificial (IA) son como estudiantes de una escuela muy especial. Durante años, hemos estado poniéndoles exámenes para ver si son más inteligentes que los humanos. Los resultados en las listas de clasificación (los "leaderboards") han sido impresionantes: ¡parece que estos estudiantes sacan mejores notas que los mejores abogados, médicos y científicos!

Pero, ¿realmente son genios? ¿O simplemente han hecho trampa?

Este artículo, escrito por dos científicos, investiga si estos modelos han estado "haciendo trampa" estudiando las respuestas antes del examen. Para hacerlo, los autores realizaron tres experimentos diferentes (como tres tipos de detectives) sobre seis de los modelos de IA más avanzados del mundo.

Aquí tienes la explicación sencilla, con algunas analogías:

1. El Problema: El Examen Filtrado

Imagina que un profesor le da a un estudiante un examen final. Pero, antes de entrar al aula, el estudiante ya ha tenido acceso a las copias exactas de las preguntas y las respuestas correctas que se publicaron en internet.

La realidad: Los exámenes que usamos para medir la IA (llamados MMLU) son públicos. Están en internet desde hace años.
La sospecha: Es muy probable que las IAs hayan "leído" estas preguntas mientras aprendían (durante su entrenamiento). Si la IA recuerda la pregunta palabra por palabra, no está pensando; solo está recordando.

2. Los Tres Detectives (Los Experimentos)

Los autores usaron tres métodos para ver si la IA estaba memorizando o realmente entendiendo:

Detective 1: El Buscador de Copias (Experimento 1)

La analogía: Imagina que tomas las preguntas del examen y las pegas en Google. Si Google encuentra la pregunta exacta en internet, significa que la IA probablemente la vio antes.
El hallazgo: ¡Encontraron muchas copias!
- En total, el 13.8% de las preguntas tenían copias exactas en internet.
- En materias difíciles como Ciencias (STEM), el 18% estaba contaminado.
- En Filosofía, ¡hasta el 66% de las preguntas tenían copias!
- Conclusión: La IA no estaba resolviendo problemas nuevos; estaba reconociendo preguntas que ya había visto.

Detective 2: El Cambiador de Palabras (Experimento 2)

La analogía: Si un estudiante solo memoriza la frase exacta "¿Cuál es la capital de Francia?", le costará mucho responder si el profesor pregunta: "¿Qué ciudad es la sede del gobierno francés?". Si el estudiante realmente sabe geografía, no le importará el cambio de palabras.
El experimento: Los autores tomaron las preguntas y las reescribieron con otras palabras, pero manteniendo el mismo significado.
El hallazgo: Cuando cambiaron las palabras, la puntuación de la IA bajó drásticamente.
- En temas como Derecho y Ética, la puntuación cayó casi un 20%.
- Esto significa que la IA dependía de la "forma superficial" de la pregunta (las palabras exactas) y no del concepto real. Si la pregunta se veía diferente, la IA se confundía.

Detective 3: El Juego de "Adivina la Palabra" (Experimento 3)

La analogía: Imagina que le mostramos a la IA una pregunta donde borramos una palabra clave o una opción de respuesta incorrecta, y le decimos: "¿Qué palabra faltaba?". Si la IA puede adivinarla perfectamente, es porque la tiene guardada en su memoria, no porque esté pensando.
El hallazgo:
- El 72.5% de las preguntas activaron señales de que la IA las había memorizado.
- Un caso extraño: Un modelo llamado DeepSeek-R1 fue muy peculiar. No recordaba las palabras exactas (como un robot), pero sí recordaba la idea de las respuestas incorrectas. Era como si hubiera memorizado el "esqueleto" del examen pero no la piel. Esto explicaba por qué fallaba de una manera extraña en el experimento anterior.

3. ¿Qué significa todo esto?

La conclusión principal es que la IA no es necesariamente más inteligente que un humano en estos exámenes; simplemente ha visto el examen antes.

No es "inteligencia" pura: Gran parte de su éxito se debe a la memorización (recordar datos) y no a la generalización (aplicar lo aprendido a situaciones nuevas).
El peligro: Si confiamos en estas IAs para cosas importantes (como dar consejos médicos o legales) basándonos en sus puntuaciones de examen, podríamos estar en problemas. Porque si el examen real en el mundo real tiene una pregunta ligeramente diferente a la que estudiaron, la IA podría fallar o inventar respuestas falsas (alucinaciones).

4. La Lección Final

Imagina que un atleta corre una carrera contra un cronómetro. Si el atleta sabe exactamente dónde están los obstáculos porque ha corrido el mismo circuito mil veces, su tiempo será increíble. Pero si lo llevamos a una selva nueva, podría caerse.

El mensaje del artículo:
No debemos creer ciegamente en las listas de clasificación actuales. Para saber si la IA es realmente inteligente, necesitamos darle exámenes nuevos que nunca haya visto, con preguntas que cambien de forma, y asegurarnos de que no haya estado "haciendo trampa" estudiando las respuestas en internet.

Hasta que no hagamos esto, la pregunta "¿Son las IAs más inteligentes que los humanos?" sigue sin tener una respuesta definitiva, y hay muchas razones para ser escépticos.

Are Large Language Models Truly Smarter Than Humans?

1. El Problema: El Examen Filtrado

2. Los Tres Detectives (Los Experimentos)

Detective 1: El Buscador de Copias (Experimento 1)

Detective 2: El Cambiador de Palabras (Experimento 2)

Detective 3: El Juego de "Adivina la Palabra" (Experimento 3)

3. ¿Qué significa todo esto?

4. La Lección Final

Resumen Técnico: Contaminación de Benchmarks y Memoria en Modelos de Lenguaje

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Are Large Language Models Truly Smarter Than Humans?

1. El Problema: El Examen Filtrado

2. Los Tres Detectives (Los Experimentos)

Detective 1: El Buscador de Copias (Experimento 1)

Detective 2: El Cambiador de Palabras (Experimento 2)

Detective 3: El Juego de "Adivina la Palabra" (Experimento 3)

3. ¿Qué significa todo esto?

4. La Lección Final

Resumen Técnico: Contaminación de Benchmarks y Memoria en Modelos de Lenguaje

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents