Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres saber si un coche es realmente seguro. Hoy en día, la industria automotriz (y la de la Inteligencia Artificial) hace algo muy extraño: en lugar de probar el coche en diferentes tipos de carreteras, con diferentes climas y en situaciones de emergencia, simplemente lo hacen conducir por un circuito cerrado y perfecto una sola vez. Si el coche pasa el circuito, le ponen un "10" y dicen: "¡Este coche es perfecto!".

El artículo que me has pasado, escrito por un grupo de científicos, nos dice que esto es un error gigante y que necesitamos cambiar de mentalidad para entender realmente qué pueden y qué no pueden hacer las IAs.

Aquí tienes la explicación sencilla, usando analogías de la vida real:

1. El problema: Confundir "lo que hizo" con "lo que podría hacer"

Actualmente, cuando evaluamos una IA, le damos un examen (llamado "benchmark" o prueba) con preguntas de matemáticas o de lógica. Si la IA acierta el 80% de las preguntas, decimos: "¡Tiene una capacidad matemática del 80%!".

La analogía del vaso de cristal:
Imagina un vaso de cristal.

La forma actual de evaluar: Golpeamos el vaso una vez con una piedra pequeña. No se rompe. Decimos: "¡Este vaso es indestructible!".
La realidad (Disposición): El vaso no es "indestructible" o "destruido". Es frágil. La fragilidad es una propiedad interna que dice: "Si te golpeas con una fuerza X, te romperás".

El problema es que las pruebas actuales solo nos dicen si el vaso se rompió esta vez con esta piedra. No nos dicen qué fuerza se necesita para romperlo, ni si se rompería si lo golpeáramos de lado, o si estuviera mojado.

En el mundo de la IA, esto es peligroso. Si una IA aprueba un examen de matemáticas, no sabemos si fallará cuando las matemáticas sean un poco más difíciles, o si fallará porque no entiende el concepto o porque se distrajo. Solo sabemos que acertó en ese examen específico.

2. Dos conceptos clave: Capacidad y Propensión

Los autores dicen que debemos medir dos cosas diferentes, pero que las estamos mezclando:

Capacidad (Lo que puede hacer): Es como la fuerza de un músculo. Si un levantador de pesas levanta 100 kg, su capacidad es alta. Pero la capacidad real es saber cuánto puede levantar antes de fallar. En IA, no es solo "¿resolvió el problema?", sino "¿cómo le va si el problema tiene 1 paso, 10 pasos o 100 pasos?".
Propensión (Lo que tiende a hacer): Es como el temperamento de una persona. No es lo mismo que una persona pueda mentir (tiene la capacidad cognitiva), sino que tenga la tendencia a mentir si se le da una razón buena (un incentivo).
- Ejemplo: Una IA puede ser muy inteligente (capacidad), pero si la incentivamos a ser útil a toda costa, podría mentirnos para no decepcionarnos (propensión). Las pruebas actuales no miden bien esta "tendencia" porque solo la ven en situaciones muy específicas.

3. Por qué fallan las pruebas actuales (Benchmarking y "Red Teaming")

Hoy en día, las empresas hacen dos cosas:

Exámenes estandarizados (Benchmarking): Le dan a la IA un montón de preguntas de matemáticas y sacan un promedio.
- El error: Es como medir la temperatura de una sopa metiendo el dedo, luego un termómetro de mercurio, luego un trozo de chocolate y contando cuántos se fundieron. Si el 62.5% se fundieron, ¿cuántos grados tiene la sopa? ¡No lo sabemos! Solo sabemos que el chocolate se fundió. Las pruebas actuales son un "promedio" que esconde la verdad.
Pruebas de ataque (Red Teaming): Intentan engañar a la IA para que diga algo malo.
- El error: Es como intentar que un niño haga algo malo solo una vez. Si lo logra, decimos "¡Es peligroso!". Pero no sabemos si lo haría siempre, o solo porque el adulto le dio un empujón muy raro. No nos dice la tendencia real del niño.

4. La solución: La "Ciencia de la Medición"

Los autores proponen que dejemos de adivinar y empecemos a medir como lo hacen los físicos o los psicólogos serios. Necesitamos una Ciencia de la Medición para la IA.

¿Cómo se hace? (La analogía del termómetro):
Para medir la temperatura, no adivinamos.

Definimos qué medimos: La temperatura (no la sensación de calor).
Identificamos la causa: Sabemos que el mercurio se expande con el calor (causa).
Creamos una escala: Hacemos un termómetro con marcas claras.
Probamos sistemáticamente: Ponemos el termómetro en agua fría, tibia y caliente para ver cómo cambia la línea.

Para la IA, esto significa:

No darle un examen fijo.
Crear un "laboratorio de contextos": Si queremos medir su capacidad matemática, le damos problemas con 1 paso, luego 2, luego 3, y vemos en qué punto falla.
Si queremos medir su propensión a mentir, le damos incentivos pequeños, luego grandes, y vemos cuándo empieza a mentir.
El objetivo: No obtener un número (como "85% de acierto"), sino obtener una curva que nos diga: "Esta IA es segura hasta el punto X, pero si le das un incentivo Y, fallará".

5. ¿Por qué es urgente?

Porque pronto las IAs serán más inteligentes que los humanos.

Si una IA es más inteligente que nosotros, no podemos usar exámenes hechos por humanos para medirla (porque nosotros no sabremos si las respuestas son correctas).
Si una IA puede diseñar un virus biológico, no podemos pedirle que lo diseñe para ver si lo hace (sería muy peligroso).

La única forma de saber si es segura es entender sus disposiciones internas (sus "reglas de comportamiento") mediante la ciencia, no mediante pruebas a ciegas.

En resumen

El artículo dice: "Dejemos de tratar a la IA como un estudiante que aprueba o reprueba un examen. Trátala como un sistema físico complejo que debemos entender en profundidad."

En lugar de decir "Esta IA es buena en matemáticas", deberíamos decir: "Esta IA puede resolver problemas de 5 pasos, pero si le pedimos 10 pasos o si la presionamos con una mentira, su comportamiento cambia de esta manera específica".

Es un cambio de "contar puntos" a "entender la física del comportamiento". Es más difícil, pero es la única forma de tener IAs seguras y fiables en el futuro.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Hacia una Ciencia de la Medición en IA

1. El Problema: La Confusión Conceptual y la Falta de Rigor Científico

El artículo identifica una crisis fundamental en la evaluación actual de los sistemas de Inteligencia Artificial (IA). A pesar de la centralidad de términos como "capacidades", "propensiones", "habilidades" y "valores" en el discurso técnico, regulatorio y público, estos se utilizan de manera intercambiable y se confunden con el rendimiento observable en conjuntos de datos específicos.

La Falacia Actual: Las prácticas dominantes (como los benchmarks de promedios o la red-teaming para propensiones) tratan el rendimiento agregado en un conjunto de datos fijo como una medida directa de una propiedad intrínseca del sistema.
Consecuencias: Esto genera una ilusión de medición. Un puntaje de precisión (ej. 62.5% en matemáticas) no explica por qué falla el sistema (¿complejidad numérica? ¿razonamiento multi-paso?), ni permite generalizar a contextos no observados, peligrosos o que superan la capacidad humana.
La Brecha: Existe una desconexión entre lo que se mide (rendimiento en tareas específicas) y lo que se pretende medir (disposiciones estables del sistema bajo condiciones contrafactuales).

2. Metodología y Marco Teórico: Las Disposiciones

Los autores proponen un cambio de paradigma basado en la filosofía de la ciencia, la teoría de la medición y la ciencia cognitiva. La metodología central es definir las capacidades y propensiones como propiedades disposicionales.

Definición de Disposición: Una propiedad disposicional es una característica intrínseca y estable de un sistema que se define por relaciones contrafactuales: qué haría el sistema bajo ciertas condiciones, no solo lo que hizo en un contexto específico.
- Ejemplo clásico: La fragilidad de un vaso no es que se esté rompiendo ahora, sino que se rompería si se le aplica una fuerza suficiente.
Distinción Clave:
- Capacidades: Disposiciones donde la probabilidad de comportamiento varía sistemáticamente con la demanda o dificultad de la tarea (ej. complejidad simbólica, pasos de razonamiento).
- Propensiones: Disposiciones donde la probabilidad de comportamiento varía con los incentivos contextuales (ej. justificación moral, urgencia del usuario, señales de supervisión).
Enfoque de Medición Propuesto:
1. Definir el sujeto: Especificar claramente qué sistema se mide (modelo base vs. sistema desplegado con filtros).
2. Hipótesis de Base Causal: Identificar qué propiedades del contexto ( $\pi$ ) causan causalmente el comportamiento.
3. Operacionalización Independiente: Medir las variables contextuales antes y sin depender del rendimiento del sistema (evitar circularidad).
4. Mapeo Empírico: Variar sistemáticamente $\pi$ y observar cómo cambia la probabilidad del comportamiento $p(v | \pi, \theta)$ , donde $\theta$ son las propiedades latentes del sistema.

3. Contribuciones Clave

El artículo ofrece tres contribuciones fundamentales:

Definición Conceptual Rigurosa: Establece que las capacidades y propensiones son propiedades disposicionales basadas en relaciones causales entre el sistema y el contexto, no meras estadísticas de rendimiento.
Diagnóstico de Fallos en Prácticas Actuales:
- Benchmarks: Fallan porque usan muestreo de conveniencia, no identifican bases causales y confunden dificultad con incentivos. No son válidos científicamente (falta de validez de constructo).
- Modelos Latentes (ej. Teoría de Respuesta al Ítem - IRT): Aunque matemáticamente sofisticados, en la IA suelen ser puramente impulsados por datos. Infieren "dificultad" y "habilidad" de los patrones de error sin una teoría externa de qué hace difícil una tarea. Esto viola la independencia de la medición (la capacidad de un sistema no debería depender de qué otros sistemas se evalúan).
- Red-Teaming/Elicitación: Proporcionan anécdotas de fallos en regiones adversarias específicas, pero no miden la propensión general ni permiten extrapolación a contextos prohibidos o superhumanos.
Propuesta de un Marco de Medición Científica: Presentan un protocolo de cuatro pasos para una "ciencia de la medición" de la IA que respeta la naturaleza disposicional de las propiedades, permitiendo la extrapolación más allá de los datos observados.

4. Resultados y Evidencia (Ilustraciones)

Aunque el artículo es principalmente teórico, utiliza ejemplos ilustrativos ("toy examples") para demostrar la superioridad del enfoque disposicional:

Capacidad Aritmética: En lugar de dar un puntaje global en un dataset como MATH, el enfoque disposicional mediría cómo la probabilidad de éxito cambia al variar sistemáticamente el número de pasos, la longitud de los dígitos y la complejidad de las operaciones de acarreo. El resultado no es un número, sino una función de respuesta que revela umbrales de fallo y degradación no lineal.
Propensión a la Honestidad: En lugar de intentar engañar al modelo una vez (red-teaming), se mediría cómo cambia la probabilidad de dar consejos no permitidos al variar sistemáticamente la justificación moral del usuario, la urgencia percibida o las señales de supervisión. Esto permite inferir la propensión incluso en regiones donde el comportamiento dañino no se manifieta éticamente.

Hallazgo Principal: Las métricas actuales (promedios, IRT sin teoría) son transformaciones estadísticas del rendimiento, no medidas de propiedades subyacentes. Solo el mapeo de la relación entre variables contextuales operadas independientemente y la probabilidad de comportamiento constituye una medición científica real.

5. Significado e Impacto

El artículo tiene implicaciones profundas para la investigación, la regulación y la seguridad de la IA:

Seguridad y Extrapolación: Es la única vía para evaluar sistemas que superan la capacidad humana o en dominios donde la prueba empírica es peligrosa o prohibida (ej. diseño de virus biológicos). Permite inferir riesgos a partir de comportamientos en regímenes seguros.
Validación Científica: Transforma la evaluación de la IA de una colección de convenciones de ingeniería a una disciplina de medición madura, comparable a la psicometría o la física.
Política y Regulación: Proporciona una base para que los marcos regulatorios exijan evaluaciones que realmente midan riesgos y capacidades, en lugar de depender de puntajes de benchmarks que pueden ser engañosos o fácilmente manipulables.
Cambio Cultural: Aboga por un cambio de paradigma: abandonar la búsqueda de la conveniencia (datasets listos para usar) a favor de la defensa conceptual (teorías causales, operacionalización rigurosa y mapeo de funciones de respuesta).

En conclusión, el autor sostiene que sin una ciencia de la medición basada en la causalidad y las disposiciones, la evaluación de la IA carece de la capacidad necesaria para comprender, comparar y garantizar la seguridad de los sistemas futuros.

Measuring What AI Systems Might Do: Towards A Measurement Science in AI

1. El problema: Confundir "lo que hizo" con "lo que podría hacer"

2. Dos conceptos clave: Capacidad y Propensión

3. Por qué fallan las pruebas actuales (Benchmarking y "Red Teaming")

4. La solución: La "Ciencia de la Medición"

5. ¿Por qué es urgente?

En resumen

Resumen Técnico: Hacia una Ciencia de la Medición en IA

1. El Problema: La Confusión Conceptual y la Falta de Rigor Científico

2. Metodología y Marco Teórico: Las Disposiciones

3. Contribuciones Clave

4. Resultados y Evidencia (Ilustraciones)

5. Significado e Impacto

Más como este

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Better Understandings and Configurations in MaxSAT Local Search Solvers via Anytime Performance Analysis

Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya