Depth-Enhanced YOLO-SAM2 Detection for Reliable Ballast Insufficiency Identification

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como una historia sobre cómo enseñarle a una computadora a "ver" con ojos de rayos X para cuidar los rieles de un tren. Aquí te lo explico de forma sencilla, usando analogías cotidianas.

🚂 El Problema: El "Suelo" del Tren que se Desmorona

Imagina que los rieles de un tren no están flotando en el aire, sino que descansan sobre bloques de madera o concreto (llamados durmientes) que, a su vez, están apoyados sobre una cama de piedras llamadas balasto.

Estas piedras son vitales. Son como los zapatos de un corredor: si tienes los zapatos bien puestos y apretados, corres seguro. Si las piedras faltan o están muy bajas, el tren se tambalea, se rompe y puede salirse de las vías.

El problema es que, tradicionalmente, alguien tenía que caminar por las vías (¡peligroso!) y mirar con sus propios ojos para ver si faltaban piedras. Pero los humanos se cansan, se distraen y a veces uno ve lo que quiere ver.

🤖 La Solución: Un "Ojo Mágico" con Gafas de Rayos X

Los autores de este paper crearon un sistema automático que usa una cámara especial (Intel RealSense) que no solo ve colores (RGB), sino que también ve la profundidad (como si tuviera visión 3D).

Sin embargo, tenían dos grandes obstáculos, como si estuvieras intentando medir la altura de una montaña con un mapa mal dibujado:

El mapa estaba torcido: La cámara a veces ve las cosas inclinadas o deformadas por el ángulo o la luz. Es como mirar a través de un vaso de agua con agua; todo se ve curvado.
El ángulo de visión: Las piedras y los rieles están en diagonal. Si intentas medir un objeto inclinado con una caja cuadrada (como un recuadro de Instagram), te sobra espacio vacío y te falta precisión.

🔧 La Magia: Tres Pasos para Arreglarlo

El sistema que crearon funciona como un equipo de tres expertos trabajando juntos:

1. El Detective Rápido (YOLO)

Primero, usan un "detective" llamado YOLO (You Only Look Once). Es como un guardia de seguridad muy rápido que escanea la foto y grita: "¡Ahí hay un trozo de balasto!".

El problema: Este detective es bueno encontrando cosas, pero a veces es demasiado optimista. Si ve una sombra, piensa: "¡Seguro hay piedras ahí!" y no se da cuenta de que en realidad hay un hueco. Por eso, a menudo falla al detectar los problemas reales.

2. El Cirujano de Precisión (SAM2)

Aquí entra el segundo experto, SAM2. Imagina que YOLO le señala una zona, pero el recuadro es cuadrado y torpe. SAM2 es como un cirujano con tijeras láser: toma ese recuadro torpe y recorta la imagen exactamente alrededor de la forma real de las piedras y los rieles.

La clave: En lugar de usar cajas cuadradas, usa cajas rotadas (como un rectángulo inclinado que sigue la línea del riel). Esto permite medir la altura de las piedras con mucha más precisión, sin incluir aire o tierra de alrededor.

3. El Arquitecto que Endereza el Mundo (Corrección de Profundidad)

Este es el truco más genial. Como la cámara ve las cosas deformadas, el sistema usa matemáticas (polinomios y RANSAC) para "enderezar" la realidad.

La analogía: Imagina que tienes una foto de una mesa que parece inclinada porque la cámara estaba torcida. El sistema sabe que la mesa debería estar plana. Calcula cuánto está torcida la foto y la "estira" digitalmente hasta que la mesa vuelve a verse plana y real.
Además, suaviza las mediciones en el tiempo (como un filtro de video) para que no haya saltos bruscos si la cámara vibra un poco.

📏 El Veredicto: ¿Hay suficientes piedras?

Una vez que tienen la imagen "enderezada" y recortada perfectamente, el sistema hace dos preguntas:

¿Hay un hueco grande en medio? (Como si faltara la mitad de la cama de piedras).
¿Hay grietas pequeñas en los bordes? (Como si las piedras se hubieran deslizado hacia los lados).

Si la respuesta es "sí" a cualquiera de las dos, el sistema alerta: "¡Peligro! Faltan piedras".

🏆 ¿Funciona?

Los resultados fueron increíbles:

El sistema antiguo (solo con el detective YOLO) detectaba bien los casos seguros, pero perdía el 50% de los casos peligrosos (no veía los huecos). Era como un guardia que prefiere no molestar a nadie, aunque haya un ladrón.
El nuevo sistema (con corrección de profundidad y cajas rotadas) detectó el 80% de los casos peligrosos.

En Resumen

Este paper nos dice que para cuidar los trenes, no basta con tener una cámara normal. Necesitas:

Ojos que vean en 3D (profundidad).
Unas gafas que corrijan las distorsiones (matemáticas para enderezar la imagen).
Unas tijeras que recorten justo donde importa (cajas rotadas).

Al combinar todo esto, logramos un sistema que no solo "ve" las piedras, sino que realmente entiende si hay suficientes para que el tren viaje seguro, evitando accidentes antes de que ocurran. ¡Es como darle al tren un superpoder de visión para mantener sus zapatos siempre bien puestos!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Detección de Insuficiencia de Balasto Mejorada con Profundidad mediante YOLO-SAM2

1. Problema Definido

El mantenimiento de los ferrocarriles depende críticamente del balasto (la capa de piedras bajo y entre los durmientes), que soporta el peso de los trenes y asegura el drenaje. La insuficiencia de balasto compromete la integridad estructural y la seguridad operativa.

Limitaciones actuales: Los métodos tradicionales de inspección son manuales, laboriosos y subjetivos.
Limitaciones de la visión por computadora actual: Los modelos de detección de objetos basados únicamente en imágenes RGB (como YOLOv8) muestran un rendimiento de seguridad deficiente. Aunque logran una alta precisión (0.99), su recall (sensibilidad) es muy bajo (0.49) para la clase "insuficiente". Esto se debe a que el modelo tiende a sobre-predir la clase "suficiente", ignorando casos peligrosos de falta de material.
Desafío técnico: La integración de sensores de profundidad (RGB-D) como Intel RealSense ofrece información geométrica necesaria, pero estos sensores sufren de distorsiones espaciales (sesgos, inclinación y deformación de superficies) que hacen que las mediciones de profundidad crudas sean poco fiables para el análisis geométrico preciso.

2. Metodología Propuesta

El artículo propone un marco de trabajo integrado que combina detección, segmentación, corrección de profundidad y clasificación geométrica. El flujo de trabajo consta de cuatro componentes principales:

A. Detección Inicial con YOLOv8:
- Se utiliza YOLOv8 en el canal RGB para localizar regiones de interés (ROI) del balasto.
- Se restringe la búsqueda al 70% central de la imagen para reducir falsos positivos fuera de la vía.
B. Segmentación con SAM2 y Extracción de Cajas Rotadas:
- Para abordar la orientación variable de los durmientes (que las cajas delimitadoras estándar no capturan bien), se emplea el modelo SAM2 (Segment Anything Model 2).
- SAM2 refina las máscaras dentro de las ROI de YOLO.
- Se calculan cajas delimitadoras rotadas (Rotated Bounding Boxes - RBB) ajustadas a la orientación física de los durmientes, en lugar de usar cajas alineadas con los ejes (AABB). Esto permite un muestreo de profundidad más consistente.
C. Corrección de Profundidad (Deep Correction):
- Se introduce un método robusto para corregir los sesgos espaciales del sensor RealSense sin necesidad de calibración externa.
- Muestreo: Se extraen muestras de profundidad exclusivamente de las superficies de los durmientes (que se asumen planas en el mundo real).
- Modelado: Se ajusta una superficie polinómica 2D (usando RANSAC para manejar valores atípicos) que modela la distorsión (inclinación y curvatura) del sensor.
- Estabilización Temporal: Se aplica un filtro de media móvil exponencial (EMA) a los coeficientes de corrección entre frames para suavizar las transiciones y reducir el parpadeo.
- Se resta la superficie de sesgo estimada de los datos crudos para obtener un mapa de profundidad corregido ( $D_{corr}$ ).
D. Reconstrucción de Plano y Clasificación Dual:
- Se reconstruye un plano de referencia alineado con los durmientes dentro de cada caja rotada mediante interpolación lineal de los bordes superior e inferior.
- Se calculan los residuos de profundidad (diferencia entre la profundidad real y el plano de referencia).
- Estrategia de Clasificación Dual: Se identifican dos modos de fallo principales mediante dos criterios:
  1. Criterio Global: Detecta depresiones generalizadas del balasto (proporción de píxeles por debajo de un umbral en toda la región).
  2. Criterio de Brecha en los Bordes: Detecta pérdida localizada de material cerca de las interfaces durmiente-balasto.
- La clasificación final es una combinación lógica (OR) de estos criterios geométricos y, opcionalmente, la predicción de YOLO.

3. Contribuciones Clave

Pipeline Integrado RGB-D: Una arquitectura que combina YOLO, SAM2 y cajas delimitadoras rotadas, adaptada específicamente a la geometría de las vías férreas.
Método de Corrección de Sesgo Espacial: Una técnica novedosa que utiliza ajuste polinómico basado en RANSAC y suavizado temporal para corregir distorsiones de sensores RealSense sin calibración externa, utilizando los durmientes como referencia geométrica.
Clasificador de Insuficiencia Dual: Un sistema que evalúa simultáneamente residuos de profundidad globales y brechas localizadas, logrando una alta precisión y recall en la identificación de balasto insuficiente.

4. Resultados Experimentales

Los experimentos se realizaron con datos recopilados en campo (1,405 imágenes para entrenamiento, 418 para prueba) utilizando una cámara Intel RealSense D435.

Comparativa de Modelos:
- Solo YOLO (RGB): Alta precisión (0.99) pero bajo recall (0.49) y F1-score (0.66). Falla al detectar casos críticos de insuficiencia.
- YOLO-SAM2 con Cajas Alineadas (AABB) + Profundidad: Mejora el recall a ~0.76, pero la precisión disminuye.
- Propuesta Completa (RBB + Corrección de Profundidad + Criterios Múltiples): Logra el mejor rendimiento global.
  - Precisión: 0.8623
  - Recall: 0.7539 (una mejora masiva respecto al 0.49 del modelo solo RGB).
  - F1-Score: 0.8045 (superando el 0.66 inicial).
Hallazgos Clave:
- La corrección de profundidad elimina distorsiones visuales, permitiendo una reconstrucción clara de los límites de los durmientes.
- El uso de cajas rotadas (RBB) mejora la precisión al alinearse mejor con la geometría real, mientras que las cajas alineadas (AABB) tienden a tener un recall ligeramente superior pero menor precisión. La combinación óptima utiliza RBB con múltiples criterios de decisión.

5. Significado e Impacto

Este trabajo demuestra que la integración de corrección geométrica de profundidad con modelos de visión por estado del arte (YOLO-SAM2) es fundamental para la inspección automatizada de infraestructuras críticas.

Seguridad: Al mejorar drásticamente el recall de la insuficiencia de balasto, el sistema reduce el riesgo de no detectar fallos estructurales peligrosos, un problema crítico en los enfoques basados solo en RGB.
Robustez: El método es capaz de operar en condiciones visualmente ambiguas o con ruido de sensor, gracias a la corrección de distorsiones y el análisis geométrico basado en la física del entorno (superficies planas de los durmientes).
Futuro: El enfoque sienta las bases para sistemas de mantenimiento ferroviario totalmente automatizados, con potencial para expandirse a condiciones de vía más complejas y fusión de múltiples cámaras.

En resumen, el artículo presenta una solución técnica sólida que supera las limitaciones de la visión monocromática, utilizando la geometría 3D corregida para garantizar la seguridad operativa en ferrocarriles.