ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que estás intentando enseñarle a un robot a realizar una cirugía de laparoscopía (esa cirugía donde se hacen pequeños agujeros y se usan cámaras y herramientas largas). El mayor desafío no es solo que el robot "vea" las herramientas, sino que entienda dónde están exactamente, cómo se mueven y qué parte es la punta y cuál es el mango, incluso si están manchadas de sangre, cubiertas de humo o parcialmente ocultas.

Este paper presenta ROBUST-MIPS, que es básicamente un "libro de texto" gigante y muy detallado para enseñarle a las computadoras a entender las herramientas quirúrgicas.

Aquí te lo explico como si fuera una historia, usando analogías sencillas:

1. El Problema: Dibujar vs. Conectar puntos

Antes de este trabajo, para enseñar a una computadora a reconocer una herramienta, los expertos tenían que dibujar un polígono complejo alrededor de toda la herramienta (como si estuvieras coloreando dentro de los bordes de un dibujo).

La analogía: Imagina que tienes que colorear un dibujo de un lápiz muy fino y retorcido. Si el lápiz se mueve rápido o hay humo, es muy difícil y lento recortar perfectamente los bordes. Además, si hay dos lápices cruzados, se vuelve un caos.

La solución de ROBUST-MIPS: En lugar de colorear todo, los autores decidieron usar esqueletos.

La analogía: Piensa en un muñeco de alambre o un "stick figure" (figura de palitos). En lugar de dibujar el contorno del lápiz, solo marcas 3 o 4 puntos clave:
1. Entrada: Dónde entra el lápiz en el cuerpo (donde sale del agujero).
2. Articulación: La "cadera" o la bisagra donde el lápiz se dobla.
3. Puntas: La punta del lápiz (o las dos puntas si es una tijera).
Por qué es mejor: Es como conectar puntos en un libro de niños. Es mucho más rápido de hacer, menos propenso a errores y le da a la computadora una idea muy clara de la estructura y la dirección de la herramienta.

2. El Dataset (El "Libro de Ejercicios")

Los autores tomaron un conjunto de datos existente llamado ROBUST-MIS (que ya tenía miles de imágenes de cirugías reales) y le añadieron estos nuevos "esqueletos".

La analogía: Imagina que tienes un álbum de fotos de una fiesta (ROBUST-MIS). Alguien ya había etiquetado quién era cada persona. Ahora, los autores de este paper han ido foto por foto y han dibujado un "palito" sobre cada persona para mostrar exactamente cómo están de pie, si tienen los brazos cruzados o si están agachados.
El reto: En las fotos, a veces la herramienta está tapada por un órgano, hay sangre, o la punta está fuera de la cámara. Los autores crearon reglas muy estrictas para decir: "Si no se ve, pero sabemos que está ahí por la forma del brazo, la marcamos como 'oculta'". Si no se puede adivinar, la marcan como "faltante".

3. La Herramienta de Anotación (El "Lápiz Mágico")

Crear este dataset fue un trabajo manual enorme. Para ayudar, crearon un software especial.

La analogía: Es como un videojuego donde tienes que hacer clic en los puntos clave de la herramienta. El programa es inteligente: si la herramienta sale de la pantalla, te deja hacer clic en un "espacio vacío" alrededor de la foto para marcar dónde estaría la punta, aunque no se vea. También te ayuda a borrar las máscaras de las herramientas que no son importantes (como los tubos de entrada fijos) para que la computadora no se confunda.

4. Las Pruebas (El "Examen Final")

Para ver si su nuevo método funcionaba, tomaron modelos de inteligencia artificial que normalmente se usan para detectar la postura de humanos (como cuando una cámara detecta si estás bailando) y los entrenaron con sus datos de herramientas quirúrgicas.

El resultado: ¡Funcionó muy bien! Los modelos lograron entender la postura de las herramientas con una precisión muy alta.
La métrica especial: Como las tijeras tienen dos puntas que son iguales (no importa cuál sea la izquierda o la derecha), crearon una regla especial de puntuación. Si el robot dice que la punta A está donde debería estar la punta B, y la punta B donde la A, ¡sigue contando como correcto! Es como si en un examen de matemáticas, si pones 2+3=5 o 3+2=5, ambos están bien.

5. ¿Por qué es importante esto?

Este dataset es como un puente entre dos mundos:

Segmentación: Saber "dónde está el objeto" (dibujar el contorno).
Pose (Postura): Saber "cómo está orientado el objeto" (dónde están sus extremos).

Al tener ambos en el mismo dataset, los científicos pueden comparar qué método es mejor para cada tarea. Además, al hacer el dataset público y gratuito, permiten que cualquier investigador en el mundo pueda entrenar a sus robots para que sean más seguros y precisos en el quirófano.

En resumen

ROBUST-MIPS es un nuevo y enorme manual de entrenamiento para robots quirúrgicos. Cambió la forma de enseñarles a las máquinas: en lugar de pedirles que "pinten" las herramientas (lo cual es lento y difícil), les enseñó a "conectar los puntos" de su esqueleto. Esto hace que los robots entiendan mejor el caos de una cirugía real (sangre, humo, herramientas cruzadas) y puedan moverse con la precisión de un cirujano experto.

¡Es un gran paso para que la cirugía asistida por computadora sea una realidad más segura y común!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments", presentado en español:

1. Problema y Motivación

La localización de instrumentos quirúrgicos en videos endoscópicos intraoperatorios es fundamental para tecnologías de intervención asistida por computadora (CAI), como el análisis de seguridad y el control automático del endoscopio.

Limitaciones actuales: La mayoría de los trabajos se centran en la segmentación semántica o por instancias, que requieren anotaciones de polígonos complejos y costosas en tiempo.
Ineficacia de los "Bounding Boxes": En el contexto de video endoscópico, las cajas delimitadoras (bounding boxes) son poco informativas debido a la estructura alargada y articulada de los instrumentos, que a menudo se superponen y ocupan grandes porciones de la imagen.
Necesidad de datos: El rendimiento de los modelos basados en aprendizaje profundo está limitado por la escasez de datos anotados diversos. Se argumenta que las anotaciones de pose esquelética (puntos clave y líneas) ofrecen un equilibrio mejor entre la riqueza de la información semántica y la facilidad de anotación, capturando tanto la estructura como la instancia del instrumento.

2. Metodología

El equipo creó ROBUST-MIPS, un conjunto de datos derivado del desafío ROBUST-MIS 2019, enriquecido con anotaciones de pose esquelética.

A. Fuentes de Datos y Estructura

Origen: 10,040 frames extraídos de 30 procedimientos quirúrgicos laparoscópicos (resecciones rectales, proctocolectomías y resecciones sigmoideas) realizados en el Hospital Universitario de Heidelberg.
División: Los datos se dividen en entrenamiento, validación y prueba, con un enfoque en la generalización a través de diferentes pacientes y tipos de cirugía (estadios de desplazamiento de dominio).

B. Protocolo de Etiquetado (Keypoints)

Se definieron cuatro tipos principales de puntos clave para representar los instrumentos:

EntryPoint: Intersección entre el vástago del instrumento y el borde circular del campo de visión (FoV). Es dinámico.
HingePoint: La unión entre el vástago y la punta (para instrumentos rígidos) o la articulación (para instrumentos articulados).
Tip1 / Tip2: Los extremos de los instrumentos.
- Nota importante: Para instrumentos simétricos (como pinzas), Tip1 y Tip2 se tratan como un conjunto no ordenado (permutación invariante) para evitar ruido en las etiquetas debido a la ambigüedad visual bajo oclusión o rotación.

C. Estados de Visibilidad

Cada punto clave se etiqueta con uno de tres estados:

Visible: Claramente visible.
Ocluido: No visible directamente pero inferible por geometría o simetría (ej. cubierto por tejido).
Ausente (Missing): Fuera de vista, no inferible, o físicamente inexistente (ej. la segunda punta de un instrumento rígido).

D. Software y Procesamiento

Se desarrolló un software de anotación de código abierto (tool-pose-annotation-gui) que permite etiquetar puntos visibles, ocluidos y fuera de los límites de la imagen.
Limpieza de Máscaras: Se eliminaron las máscaras de los trocar (cánulas) de las anotaciones de segmentación por instancias, ya que no aportan información dinámica de pose, definiendo el EntryPoint en la distal de la cánula.
Formato: Los datos se almacenan en JSON compatible con el esquema de Microsoft COCO, incluyendo coordenadas, visibilidad y cajas delimitadoras ajustadas (con un margen de 20 píxeles para evitar cajas demasiado estrechas en orientaciones verticales/horizontales).

3. Contribuciones Clave

ROBUST-MIPS Dataset: El primer conjunto de datos a gran escala que combina segmentación por instancias y pose esquelética para instrumentos quirúrgicos laparoscópicos (10,040 imágenes).
Protocolo de Anotación Robusto: Un esquema detallado para manejar oclusiones, instrumentos articulados vs. rígidos, y la invariancia de orden en las puntas simétricas.
Herramientas de Código Abierto: Liberación del software de anotación personalizado y los modelos de referencia (baselines) entrenados.
Nueva Métrica de Evaluación: Propuesta de una modificación a la métrica COCO OKS (Object Keypoint Similarity):
- Invariancia de puntas: Evalúa la predicción contra ambas permutaciones de las puntas (Tip1/Tip2) y toma el mejor valor.
- Escala Robusta: Redefinición del factor de escala ( $s$ ) basado en la media aritmética de las dimensiones al cuadrado ( $\sqrt{(w^2+h^2)/2}$ ) en lugar del área, para evitar penalizaciones injustas cuando los instrumentos están alineados con los ejes (donde el área de la caja tiende a cero).

4. Resultados y Evaluación

Se entrenaron y evaluaron tres modelos de referencia populares de estimación de pose humana (adaptados a herramientas): RTMPose, SimpleBaseLine y ViTPose.

Rendimiento: Los modelos demostraron una alta capacidad de generalización. El mejor modelo, ViTPose-L, alcanzó una Precisión Promedio (AP) de 0.754 en el conjunto de prueba.
Métricas: Se reportaron AP y AR (Recall Promedio) bajo umbrales de OKS (0.50 a 0.95) y IoU.
Visualización: Las comparaciones cualitativas (Figura 8) muestran que los modelos pueden localizar con precisión los instrumentos incluso en condiciones desafiantes como sangrado, humo y oclusiones parciales.

5. Significado e Impacto

Aceleración de la Investigación: Al proporcionar anotaciones de pose más rápidas de crear que los polígonos de segmentación, ROBUST-MIPS fomenta el crecimiento de datos anotados para la comunidad.
Comparación Directa: Permite estudiar el rendimiento y la interacción entre la segmentación por instancias y la estimación de pose en la misma tarea y entorno.
Robustez: El conjunto de datos incluye condiciones de imagen realistas y difíciles, lo que es crucial para desarrollar algoritmos CAI que funcionen en quirófanos reales.
Limitaciones y Futuro: El artículo reconoce que los instrumentos muy curvos (ganchos, tijeras) no se representan perfectamente con líneas rectas entre puntos clave y que la falta de clasificación detallada de tipos de instrumentos limita la generalización. Sugiere futuras arquitecturas que codifiquen explícitamente la invariancia de orden de las puntas.

En resumen, ROBUST-MIPS establece un nuevo estándar para la localización de instrumentos quirúrgicos, demostrando que la anotación de pose esquelética es una alternativa viable, eficiente y rica en información para avanzar en la inteligencia artificial aplicada a la cirugía mínimamente invasiva.