SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás diseñando un nuevo sistema de inteligencia artificial (IA) para drones de rescate o para gestionar la electricidad de una ciudad. Quieres que estos sistemas sean "buenos", justos y éticos. Pero, ¿cómo pruebas si son realmente éticos antes de lanzarlos al mundo?

El problema es que la "ética" es difícil de medir. No es como medir la velocidad de un coche (que es un número claro). La ética depende de lo que la gente siente que es correcto, y eso cambia de persona a persona.

Aquí es donde entra SEED-SET, la solución que proponen los autores de este paper. Vamos a explicarlo con una analogía sencilla: El Chef y el Crítico de Comida.

1. El Problema: El Chef (La IA) y el Crítico (La Ética)

Imagina que tienes un Chef (tu sistema de IA) que está cocinando platos (tomando decisiones).

Lo objetivo (Medible): Puedes medir cosas fáciles: ¿Cuánto costaron los ingredientes? ¿Cuánto tardó en cocinar? ¿Qué tan caliente está la comida? (En el paper, esto son métricas como "costo", "voltaje" o "daño por fuego").
Lo subjetivo (La Ética): Pero, ¿está el plato justo? ¿Es bueno para los pobres? ¿Es seguro para los niños? Aquí no hay una regla fija. Depende del Crítico (el ser humano o la comunidad). Un crítico podría decir: "Me importa más que sea barato", mientras que otro dice: "Me importa más que sea justo, aunque sea caro".

El desafío: Antes, para probar si el Chef era ético, tenías que cocinar miles de platos y preguntar a miles de críticos. Eso es demasiado lento, caro y agotador. Además, si solo miras los números fríos (costo, tiempo), podrías perder la esencia de lo que hace que un plato sea "bueno" para la gente.

2. La Solución: SEED-SET (El Maestro de Ceremonias Inteligente)

Los autores crearon un sistema llamado SEED-SET. Imagina que es un Maestro de Ceremonias muy inteligente que organiza una competencia de cocina, pero con un truco especial:

A. Dos Libros de Recetas (Los Modelos)

En lugar de tener una sola forma de juzgar, SEED-SET usa dos "libros de recetas" (modelos matemáticos) que trabajan juntos:

El Libro de Números (Objetivo): Este libro registra los datos fríos: costo, tiempo, seguridad técnica. Aprende a predecir qué pasará con los ingredientes.
El Libro de Sentimientos (Subjetivo): Este libro aprende lo que le gusta al Crítico. No sabe la "receta" exacta, pero aprende de las comparaciones: "¿Prefieres el plato A o el plato B?".

B. El Truco del "Gusto por Parejas" (Elicitación de Preferencias)

En lugar de preguntar al Crítico: "¿Qué nota le das a este plato del 1 al 10?" (lo cual es confuso y subjetivo), SEED-SET le pregunta: "¿Prefieres el Plato A o el Plato B?".

Es como pedirle a un amigo que elija entre dos películas. Es mucho más fácil y honesto elegir una que otra que dar una puntuación exacta.
Aquí usan Inteligencia Artificial (LLMs) como "Críticos de prueba" para hacer estas preguntas rápidamente, ahorrando tiempo y dinero.

C. El Juego de "Explorar vs. Aprovechar" (Adquisición de Datos)

Esta es la parte más brillante. El Maestro de Ceremonias (SEED-SET) no prueba recetas al azar. Usa una estrategia inteligente:

Explorar: Prueba recetas raras y nuevas para ver qué pasa (descubrir zonas desconocidas).
Aprovechar: Prueba recetas que parecen muy buenas según lo que ya sabe del Crítico.

La magia: SEED-SET combina ambos libros. Si el "Libro de Números" dice que una receta es barata, pero el "Libro de Sentimientos" dice que al Crítico no le gusta lo barato, el sistema sabe: "¡Ah! Probemos una receta que sea un poco más cara pero que el Crítico ame".

3. ¿Por qué es genial esto? (Los Resultados)

En el paper, probaron esto en tres situaciones reales:

Red Eléctrica: ¿Cómo repartir la energía para que sea barata pero justa para los barrios pobres?
Rescate con Drones: ¿Cómo apagar un fuego sin usar químicos tóxicos que dañen el medio ambiente?
Tráfico Urbano: ¿Cómo planear rutas que no pasen por escuelas o zonas peligrosas?

El resultado:

SEED-SET encontró las mejores soluciones éticas dos veces más rápido que los métodos antiguos.
Logró probar un 25% más de situaciones diferentes en el mismo tiempo.
Es capaz de adaptarse a diferentes tipos de críticos (por ejemplo, si el crítico cambia de opinión y quiere priorizar el precio sobre la justicia, el sistema se adapta al instante).

En Resumen

Imagina que quieres entrenar a un robot para que sea un buen ciudadano.

Antes: Le dábamos miles de ejemplos y le decíamos "haz esto", "no hagas aquello", esperando que adivinara.
Ahora (con SEED-SET): Le damos un asistente que le dice: "Mira, si haces esto, el vecino se enfadará, pero si haces aquello, el vecino estará feliz. Vamos a probar solo las opciones que más probablemente hagan feliz al vecino, sin perder tiempo en las que sabemos que fallarán".

Es una forma más inteligente, rápida y humana de asegurar que nuestras máquinas tomen decisiones que respeten nuestros valores, sin tener que probar millones de veces hasta que algo salga mal.

Each language version is independently generated for its own context, not a direct translation.

A continuación presento un resumen técnico detallado del artículo "SEED-SET: SCALABLE EVOLVING EXPERIMENTAL DESIGN FOR SYSTEM-LEVEL ETHICAL TESTING" (Diseño Experimental Evolutivo Escalable para Pruebas Éticas a Nivel de Sistema), publicado en ICLR 2026.

1. El Problema

La implementación de sistemas autónomos (como drones o redes eléctricas inteligentes) en dominios de alto riesgo plantea desafíos críticos en la alineación ética. Evaluar estos sistemas es difícil debido a tres factores principales:

Falta de métricas objetivas universales: Conceptos como la "justicia" o la "aceptabilidad social" carecen de etiquetas de verdad absoluta (ground truth).
Subjetividad y evolución de los valores: Los criterios éticos dependen de los grupos de interés (stakeholders) y evolucionan con el tiempo, lo que hace que las pruebas estáticas (suites de pruebas) sean obsoletas rápidamente.
Costo de evaluación: Las pruebas en el mundo real o simulaciones de alta fidelidad son costosas en términos de recursos y tiempo, requiriendo métodos de evaluación que sean eficientes en el uso de muestras (sample-efficient).

Existe una brecha entre las evaluaciones puramente objetivas (basadas en reglas) y las subjetivas (basadas en preferencias humanas), y los métodos actuales no logran unificar ambas bajo restricciones de datos realistas.

2. Metodología: SEED-SET

Los autores proponen SEED-SET, un marco de Diseño Experimental Bayesiano (BED) que integra evaluaciones objetivas y juicios subjetivos de los interesados mediante un modelo jerárquico.

Componentes Clave:

Modelado Jerárquico con Procesos Gaussianos Variacionales (HVGP):
- GP Objetivo: Modela la función $f_{obj}: x \to y$ , donde $x$ son los parámetros de diseño del sistema y $y$ son métricas objetivas observables (ej. costo, daño por fuego, equidad en voltaje).
- GP Subjetivo: Modela la función $f_{subj}: y \to z$ , donde $z$ es una utilidad latente que representa el juicio ético de los interesados basado en las métricas objetivas $y$ .
- Esta separación permite que las preferencias se anclen en resultados observables, mejorando la interpretabilidad y la eficiencia de los datos.
Evaluación de Preferencias con LLMs:
- Dado que obtener evaluaciones humanas es costoso y lento, el marco utiliza Grandes Modelos de Lenguaje (LLMs) como evaluadores proxy.
- Se emplea un diseño de prompts específico donde el LLM recibe pares de escenarios y sus métricas objetivas ( $y_1, y_2$ ) y debe elegir cuál es preferible según criterios éticos definidos por el usuario. Esto se formaliza como una elicitación de preferencias por pares.
Estrategia de Adquisición Conjunta:
- El núcleo de SEED-SET es una función de adquisición novedosa que maximiza la ganancia de información esperada (EIG) considerando simultáneamente la exploración de la incertidumbre en las métricas objetivas y la explotación de las preferencias aprendidas.
- La función de adquisición $V(x)$ $V (x)$ combina:
  - Información mutua en el espacio de objetivos.
  - Información mutua en el espacio subjetivo.
  - Alineación preferencial con los criterios definidos.
- Esto permite generar pares de escenarios de prueba que son simultáneamente informativos para el modelo y desafiantes según los valores éticos.

3. Contribuciones Clave

Formulación Unificada: Introducen una formulación agnóstica al dominio para la prueba ética a nivel de sistema, tratándola como una tarea de inferencia adaptativa con restricciones de muestras sobre métricas objetivas y valores subjetivos.
Modelo HVGP Jerárquico: Formalizan un modelo de Procesos Gaussianos Variacionales que mapea parámetros de diseño a criterios éticos medibles y aprende su utilidad según factores subjetivos, resolviendo el problema de la falta de etiquetas de verdad absoluta.
Criterio de Adquisición Conjunta: Derivan un criterio de adquisición que equilibra la exploración de factores éticos inciertos con la explotación de preferencias aprendidas, superando las limitaciones de los enfoques de dos etapas o separados.
Validación Escalable: Demuestran que el método escala a espacios de búsqueda de alta dimensión, generando hasta 2 veces más candidatos de prueba óptimos en comparación con las líneas base.

4. Resultados Experimentales

El método se validó en tres aplicaciones del mundo real:

Asignación de Recursos en Redes Eléctricas (IEEE 5-bus y 30-bus): Evaluación de la equidad en la distribución de energía y costos.
Rescate con Drones (Búsqueda y Rescate): Evaluación de daños químicos vs. daños por fuego y factores de propagación.
Diseño de Rutas Óptimas (Tráfico Urbano): Evaluación de rutas considerando zonas escolares y peatonales.

Hallazgos principales:

Rendimiento Superior: SEED-SET superó consistentemente a las líneas base (Muestreo Aleatorio, GP Único, Aprendizaje Activo de Espacio de Versiones - VS-AL) en puntuaciones de preferencia.
Eficiencia de Muestras: En escenarios de alta dimensión (como la red de 30-bus), los métodos de GP único fallaron en explorar el espacio eficientemente, mientras que la estructura jerárquica de SEED-SET permitió encontrar soluciones óptimas con menos iteraciones.
Adaptabilidad a Stakeholders: El sistema pudo adaptar sus pruebas a diferentes grupos de interés (ej. priorizar "costo" vs. "prioridad de área") generando escenarios de prueba específicos para cada perfil.
Robustez del LLM: Los estudios de ablación mostraron que el uso de LLMs como evaluadores es robusto frente a variaciones en la temperatura, el prompt y el modelo subyacente, gracias a la naturaleza probabilística de la elicitación por pares.

5. Significado e Impacto

El trabajo de SEED-SET es significativo porque:

Cierra la brecha entre teoría y práctica: Proporciona un marco práctico para evaluar la ética en sistemas autónomos sin depender de etiquetas de verdad absoluta o grandes volúmenes de datos humanos.
Eficiencia de Recursos: Al reducir la necesidad de evaluaciones humanas costosas mediante el uso inteligente de LLMs y modelos probabilísticos, hace viable la evaluación ética continua en sistemas complejos.
Interpretabilidad: Al separar las métricas objetivas de las subjetivas, ofrece a los ingenieros y reguladores una comprensión clara de por qué un sistema se considera ético o no, basándose en comportamientos observables.
Escalabilidad: La utilización de GPs Variacionales permite manejar espacios de diseño complejos y de alta dimensión, un requisito esencial para los sistemas autónomos modernos.

En resumen, SEED-SET establece un nuevo estándar para la evaluación ética de sistemas autónomos, combinando la rigurosidad matemática del diseño experimental bayesiano con la flexibilidad de la inteligencia artificial generativa para capturar matices éticos complejos y evolutivos.