Risk-Aware Rulebooks for Multi-Objective Trajectory Evaluation under Uncertainty

Each language version is independently generated for its own context, not a direct translation.

Imagina que conduces un coche autónomo. No es como conducir un coche normal donde tú decides todo al instante; aquí, el coche tiene que tomar decisiones basadas en reglas, pero el mundo exterior es un caos impredecible.

Este paper propone una nueva forma de pensar sobre cómo estos coches toman decisiones cuando no están seguros de qué va a pasar. Vamos a explicarlo con una analogía sencilla: El "Manual de Reglas" con un "Oráculo del Futuro".

1. El Problema: El Dilema del Conductor

Imagina que vas conduciendo por una carretera. Tienes varias reglas en tu cabeza:

Regla de Oro (Seguridad): No chocar con nadie.
Regla de Oro (Comodidad): Ir rápido y no dar frenazos bruscos.
Regla de Oro (Normas): No pasar el límite de velocidad.

El problema es que estas reglas a veces pelean entre sí. Si ves a un peatón distraído, ¿debes frenar de golpe (seguro pero incómodo y lento) o seguir igual de rápido (cómodo pero arriesgado)?

Los sistemas antiguos trataban el entorno como si fuera "ruido" o suerte ciega. Pero este paper dice: "¡Espera! El coche no solo reacciona al entorno, ¡también lo cambia!". Si el coche frena, el peatón podría pensar "¡Oh, me cede el paso!" y cruzar. Si acelera, el peatón podría asustarse y quedarse quieto. El coche y el entorno bailan juntos.

2. La Solución: El "Manual de Reglas" (Rulebook)

Los autores crearon un sistema llamado "Rulebook" (Manual de Reglas). Imagina que este manual es una lista de instrucciones para el coche, pero con dos superpoderes:

Jerarquía de Importancia: No todas las reglas son iguales.
- Ejemplo: "No chocar" es mucho más importante que "Ir cómodo".
- Ejemplo: "No chocar" es más importante que "Mantenerse en el carril".
- Pero a veces, dos reglas son incomparables. ¿Qué es más importante: "No molestar a los animales" o "No dañar la propiedad"? A veces no hay una respuesta obvia, y el sistema lo acepta.
El Oráculo del Futuro (Riesgo): Aquí es donde entra la magia. En lugar de mirar solo lo que pasó ayer, el sistema simula el futuro.
- Imagina que el coche tiene un cristal mágico que le muestra 100 futuros posibles. En 98 de ellos, el peatón no cruza. En 2, el peatón se lanza a la carretera.
- El sistema no solo pregunta: "¿Chocamos?".
- Pregunta: "¿Cuál es el riesgo de chocar?" y "¿Qué tan malo sería si chocamos?".

3. Cómo funciona la "Evaluación de Riesgo"

El sistema usa una herramienta matemática (llamada medida de riesgo) para evaluar cada posible camino que el coche podría tomar. Piensa en esto como si el coche tuviera un termómetro de peligro para cada regla.

Regla de Seguridad: Si el termómetro marca "peligro alto" (incluso si es solo un 1% de probabilidad), el sistema lo toma muy en serio.
Regla de Comodidad: Si el termómetro marca "un poco incómodo", el sistema lo ignora si la seguridad está bien.

El sistema crea un ranking (una lista de mejores a peores) de todos los caminos posibles.

Camino A: Es rápido, pero tiene un pequeño riesgo de chocar.
Camino B: Es lento, pero 100% seguro.
Camino C: Es seguro, pero muy incómodo para los pasajeros.

El sistema compara estos caminos usando su "Manual de Reglas". Si la seguridad es la regla #1, descarta automáticamente el Camino A, aunque sea el más rápido.

4. La Gran Ventaja: Explicar el "Por qué"

Lo más genial de este sistema es que es explicable.

En la vida real, si un coche autónomo toma una decisión rara, los humanos se preguntan: "¿Por qué frenó de golpe?".
Con este nuevo sistema, el coche puede decir:

"Frené de golpe no porque tuviera miedo, sino porque mi 'Regla de Seguridad' (que es la más importante) detectó un riesgo del 0.1% de que un peatón cruzara. Aunque la 'Regla de Comodidad' quería que siguiera rápido, la Seguridad ganó la pelea en mi Manual de Reglas."

Esto evita que el coche tenga "preferencias circulares" (donde el camino A es mejor que el B, el B mejor que el C, pero el C es mejor que el A, creando un bucle sin fin). El sistema garantiza que siempre haya una decisión lógica y coherente.

En Resumen

Este paper presenta un sistema de navegación para coches autónomos que:

Entiende que sus acciones cambian el comportamiento de las personas alrededor.
Usa un Manual de Reglas donde algunas reglas son más importantes que otras.
Simula el futuro para calcular el riesgo, no solo la probabilidad.
Elige el camino que hace el mejor equilibrio (trade-off) entre seguridad, comodidad y normas, y lo hace de una manera que podemos entender y explicar.

Es como tener un copiloto muy inteligente que no solo mira el mapa, sino que entiende la psicología de los peatones, calcula los riesgos de cada futuro posible y toma la decisión más sensata, explicándonos luego por qué lo hizo.

Each language version is independently generated for its own context, not a direct translation.

1. Planteamiento del Problema

Los sistemas autónomos de misión crítica (como vehículos autónomos) deben satisfacer múltiples requisitos de seguridad (evitar colisiones, obedecer leyes de tráfico) y optimizar objetivos de rendimiento (tiempo de viaje, confort), los cuales a menudo entran en conflicto. La complejidad se agrava por:

Incertidumbre ambiental: Los sistemas operan en entornos no estructurados donde las interacciones con otros agentes (peatones, otros vehículos) son impredecibles.
Relaciones complejas entre requisitos: No todos los requisitos tienen la misma importancia (jerarquía) y algunos pueden ser incomparables (ej. seguridad de propiedad vs. seguridad de animales).
Limitaciones de enfoques existentes:
- Las lógicas temporales (STL, LTL) suelen combinar todos los requisitos en una sola fórmula, perdiendo matices de importancia relativa.
- Los enfoques de "reglamentos" (rulebooks) anteriores permiten jerarquías y requisitos no comparables, pero están limitados a la evaluación retrospectiva (post-ejecución), asumiendo que el entorno es ruido exógeno fijo, sin modelar cómo la trayectoria del sistema influye en la respuesta del entorno.

El problema central es cómo evaluar y comparar trayectorias candidatas durante la fase de planificación, bajo incertidumbre ambiental, considerando que la acción del sistema puede alterar la distribución de probabilidades de las respuestas del entorno.

2. Metodología

El artículo propone extender el formalismo de Reglamentos (Rulebooks) para hacerlo consciente del riesgo (Risk-Aware). La metodología se basa en los siguientes pilares:

A. Modelado de Interacción Sistema-Entorno

A diferencia de modelos anteriores que tratan el entorno como ruido exógeno, este enfoque modela explícitamente la interacción:

Se define un espacio de probabilidad $(\Omega, \Sigma, Pr)$ que representa los posibles escenarios ambientales (ej. nivel de agresividad de peatones).
Se introduce una función $E: T \times \Omega \to E$ que modela cómo una trayectoria del sistema $\tau$ influye en la trayectoria del entorno $\xi$ .
Esto genera variables aleatorias dependientes de la trayectoria: $r_\tau(\omega) = r(\tau, E(\tau, \omega))$ , donde $r$ es una regla de violación.

B. Reglas Conscientes del Riesgo

Cada regla $r$ se equipa con:

Una medida de riesgo $\rho_r$ (ej. Valor en Riesgo - VaR, Valor Condicional en Riesgo - CVaR, peor caso, esperanza).
Un umbral $\gamma_r$ .

Se define una función de regla consciente del riesgo $r_{risk}: T \to \mathbb{R}_{\geq 0}$ :
$r_{risk}(\tau) = \max\{\rho_r(r_\tau) - \gamma_r, 0\}$
Esto cuantifica cuánto excede el riesgo de una trayectoria el umbral permitido.

C. Estructura de Preorden

El conjunto de reglas conscientes del riesgo hereda un preorden ( $\preceq_{risk}$ ) del reglamento original.

Una trayectoria $\tau$ es "al menos tan buena como" $\tau'$ si, para cualquier regla donde $\tau$ viola más, existe una regla de mayor prioridad donde $\tau'$ viola más.
Se demuestra matemáticamente que esta relación induce un preorden sobre el conjunto de trayectorias, garantizando la consistencia y evitando preferencias cíclicas (ej. A > B > C > A).

D. Definición de Optimalidad y Seguridad

Seguridad: Una trayectoria es segura si $r_{risk}(\tau) = 0$ para todas las reglas (el riesgo no supera los umbrales).
Optimalidad: Una trayectoria es óptima si no existe otra trayectoria que sea estrictamente "menos riesgosa" según el preorden.

3. Contribuciones Clave

Formalismo Unificado bajo Incertidumbre: Extiende los reglamentos de evaluación retrospectiva a la planificación prospectiva, permitiendo comparar trayectorias antes de su ejecución considerando la distribución de respuestas ambientales.
Modelado de Interacción Bidireccional: Reconoce que la trayectoria del sistema altera la distribución de probabilidad del entorno (ej. frenar puede aumentar la probabilidad de que un peatón cruce).
Generalización de Criterios de Riesgo: Permite el uso flexible de diferentes medidas de riesgo (esperanza, VaR, CVaR, peor caso) por regla, integrando criterios de expectativa, peor caso y riesgo de cola en una sola estructura.
Garantías Teóricas:
- Prueba que el formalismo induce un preorden, asegurando que el concepto de "trayectoria óptima" esté bien definido.
- Establece una conexión formal entre seguridad y optimalidad: si existe una trayectoria segura, es óptima; y toda trayectoria segura es óptima.
Propiedad de Compensación Racional: Demuestra que cualquier mejora estricta en una regla de una trayectoria óptima debe ser compensada por un deterioro en otra regla de igual o mayor prioridad. Esto justifica las compensaciones (trade-offs) de manera transparente.

4. Resultados y Ejemplo de Aplicación

El artículo ilustra el enfoque con un caso de estudio de un vehículo autónomo (AV) interactuando con peatones en una acera.

Escenarios: Se consideran 4 escenarios ambientales ( $\omega_1$ a $\omega_4$ ) que varían desde comportamiento racional hasta peatones que cruzan erráticamente si el AV frena.
Trayectorias: Se evalúan 4 estrategias del AV: mantener velocidad, frenar suavemente, frenar abruptamente o desviarse lateralmente.
Reglas:
1. Evitar colisiones (prioridad máxima).
2. Mantener carril.
3. Flujo de tráfico.
4. Confort de pasajeros.
Hallazgos del análisis:
- La elección de la medida de riesgo y el umbral para la regla de colisión cambia drásticamente la trayectoria óptima.
- Si se usa un riesgo tolerante (ej. VaR con $\alpha \leq 0.999$ ), mantener la velocidad es óptimo.
- Si se usa un riesgo conservador (ej. VaR con $\alpha > 0.999$ o CVaR alto), frenar abruptamente o desviarse se vuelve óptimo.
- El formalismo permite explicar por qué se selecciona una trayectoria: la decisión se basa en compensaciones explícitas entre reglas jerárquicas bajo incertidumbre.

5. Significado e Impacto

Explicabilidad (Explainability): El mayor aporte es la capacidad de rastrear la selección de una trayectoria hasta comparaciones de reglas específicas. Esto es crucial para sistemas de misión crítica donde se debe justificar la decisión ante reguladores o usuarios.
Flexibilidad: El marco es lo suficientemente general para abarcar restricciones duras, suaves, restricciones de probabilidad (chance constraints) y especificaciones de lógica temporal basadas en riesgo.
Fundamento para Algoritmos: Proporciona una base teórica sólida para desarrollar algoritmos de planificación, control y verificación que sean compatibles con la gestión explícita del riesgo y la incertidumbre en entornos dinámicos.

En resumen, el paper propone un marco matemático riguroso que transforma la toma de decisiones de sistemas autónomos de un problema de optimización ciega a uno de gestión de riesgos estructurada y explicables, donde las compensaciones entre seguridad y rendimiento son transparentes y consistentes.