SurgSync: Time-Synchronized Multi-Modal Data Collection Framework and Dataset for Surgical Robotics

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen einem Roboter beibringen, wie man eine Operation durchführt. Das ist wie beim Lernen eines komplexen Tanzes: Der Roboter muss nicht nur die Bewegungen sehen, sondern auch fühlen, wann er das Gewebe berührt, und alles muss im perfekten Takt ablaufen.

Das Problem bisher war: Die Daten, die wir Roboter zum Lernen haben, waren wie ein schlecht synchronisierter Film. Das Bild war unscharf, der Ton (die Roboterbewegungen) war nicht zum Bild passend, und es fehlten wichtige Details darüber, wann das Instrument wirklich etwas berührt hat.

Die Forscher haben mit „SurgSync" eine Lösung entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Der perfekte Dirigent (Die Zeit-Synchronisation)

Stellen Sie sich ein Orchester vor. Wenn die Geige 10 Millisekunden später spielt als die Trompete, klingt es schrecklich. Bei Operationen ist das noch schlimmer: Wenn der Roboterarm sich bewegt, aber die Kamera das Bild eine winzige Sekunde später zeigt, lernt der Roboter nichts.

Das Problem: Bisherige Systeme waren wie ein Orchester ohne Dirigenten.
Die SurgSync-Lösung: Sie haben zwei Arten von „Dirigenten" (Aufnahmegeräten) gebaut:
- Der Live-Dirigent (Online): Passt alles in Echtzeit an. Wenn das Bild und die Bewegung nicht genau passen, wird das Bild verworfen, damit nichts falsch ist. Das ist perfekt für sofortige Übertragungen.
- Der Nachbearbeitungs-Dirigent (Offline): Nimmt alles auf, was passiert, ohne etwas zu verwerfen. Später, am Computer, wird alles wie ein Puzzle exakt zusammengesetzt. Das ist wie ein riesiger Datensatz für das maschinelle Lernen, bei dem wir später alles perfekt abstimmen können.

2. Die Brille mit Super-Auflösung (Die Kamera)

Früher nutzten die Forschungsroboter Kameras, die so aussahen wie alte Handy-Kameras aus den 2000ern – unscharf und mit schlechten Farben.

Die SurgSync-Lösung: Sie haben eine moderne „Chip-on-Tip"-Kamera eingebaut. Das ist wie der Wechsel von einer alten Brille zu einem hochauflösenden VR-Headset. Die Bilder sind jetzt so scharf, dass man selbst die feinsten Details des Gewebes erkennen kann. Das hilft dem Roboter, Dinge zu „sehen", die vorher unsichtbar waren.

3. Der sechste Sinn (Der Berührungssensor)

Ein Roboter kann sehen, aber er kann nicht fühlen. Wenn er ein Gewebe berührt, weiß er das oft nicht genau, es sei denn, er sieht es. Aber manchmal ist das Bild getrübt oder das Gewebe ist transparent.

Die SurgSync-Lösung: Sie haben einen kleinen, kapazitiven Sensor an das Instrument gebaut. Man kann sich das wie einen „elektrischen Hautkontakt" vorstellen. Sobald das Instrument das Gewebe (wie Hühnerbrust oder Rindfleisch im Labor) berührt, gibt der Sensor ein Signal ab. Das ist wie ein Taster, der dem Roboter sagt: „Achtung, ich berühre jetzt etwas!" Das ist entscheidend, um zu lernen, wie fest man drücken darf, ohne das Gewebe zu zerreißen.

4. Der Nachbearbeitungs-Werkzeugkasten

Nur Daten zu sammeln reicht nicht. Man muss sie auch aufbereiten. SurgSync bietet ein digitales Werkzeugkasten-Programm.

Es berechnet, wie tief Dinge sind (Tiefenschätzung).
Es zeigt an, wie sich Dinge bewegen (Optischer Fluss).
Es projiziert die genaue Position des Roboters auf das Bild, damit man sieht, wo genau die Spitze ist, auch wenn sie sich bewegt.

Das große Experiment

Um zu testen, ob das alles funktioniert, haben die Forscher 13 Menschen (von Anfängern bis zu echten Chirurgen) gebeten, verschiedene Aufgaben zu erledigen: Fäden legen, Gewebe bewegen, Nähte setzen – alles an Hühnerbrust und anderen Gewebeproben.

Das Ergebnis? Sie haben einen riesigen Datensatz mit 214 perfekten Aufnahmen gesammelt. Um zu beweisen, dass die Daten gut sind, haben sie eine KI trainiert, die die chirurgischen Fähigkeiten der Teilnehmer bewertet hat. Die KI konnte die Fähigkeiten der Chirurgen sehr genau einschätzen – ein Beweis dafür, dass die Daten so hochwertig sind, dass sie echte KI-Modelle trainieren können.

Fazit

SurgSync ist wie ein neues, hochmodernes Studio für Roboter-Chirurgen. Es sorgt dafür, dass Bild, Bewegung und Gefühl perfekt synchronisiert sind, die Bilder gestochen scharf sind und der Roboter wirklich „fühlen" kann, was er tut. Damit wird der Weg frei für Roboter, die in Zukunft Operationen nicht nur ausführen, sondern auch lernen, wie man sie sicher und geschickt durchführt.

Alles, was sie gebaut haben (Software und Daten), ist für jeden kostenlos verfügbar, damit andere Forscher ebenfalls daran arbeiten können.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „SurgSync: Time-Synchronized Multi-Modal Data Collection Framework and Dataset for Surgical Robotics" auf Deutsch:

1. Problemstellung

Der Bereich der roboterassistierten Chirurgie (RAS) leidet unter einem Mangel an hochwertigen, gut annotierten und groß angelegten öffentlichen Datensätzen. Obwohl synthetische Daten durch Simulationen generiert werden können, besteht eine signifikante Lücke zwischen Simulation und Realität („Sim-to-Real Gap"), die die Komplexität der Verfahren und die Gesamtleistung von KI-Modellen einschränkt.

Bestehende Datensätze im Bereich der chirurgischen Robotik weisen drei wesentliche praktische Einschränkungen auf:

Schwache oder inkonsistente Zeit-Synchronisation: Die zeitliche Ausrichtung zwischen verschiedenen Sensormodalitäten (z. B. Video, Kinematik, Kräfte) ist oft unzureichend, was Ursache-Wirkungs-Beziehungen verschleiert und sequenzbasierte Modelle beeinträchtigt.
Veraltete Bildverarbeitungspipelines: Diese begrenzen die visuelle Qualität und die Leistung nachgelagerter Computer-Vision-Aufgaben.
Eingeschränkte Aufgabenabdeckung und fehlende Nachbearbeitungstools: Viele Datensätze decken nur wenige Aufgaben ab und bieten keine Werkzeuge für die Reproduzierbarkeit und Wiederverwendung der Daten.

Insbesondere für Systeme wie den da Vinci Research Kit (dVRK), bei denen feine motorische Aktionen und Gewebedynamiken im Subsekundenbereich ablaufen, ist eine kohärente Erfassung über alle Modalitäten hinweg entscheidend.

2. Methodik und Framework (SurgSync)

Das vorgestellte Framework SurgSync ist eine Open-Source-Lösung, die auf dem Robot Operating System (ROS) basiert und für dVRK-Systeme (Classic und Si) entwickelt wurde. Es besteht aus folgenden Kernkomponenten:

A. Zeit-synchronisierte Recorder (Dual-Mode)

Das Framework implementiert zwei verschiedene Aufzeichnungsmodi, um unterschiedliche Anforderungen zu erfüllen:

Online-Matching Recorder: Dieser Modus erzwingt eine strenge Zeit-Synchronisation in Echtzeit mittels Multithreading. Nur Datenpunkte, die innerhalb einer definierten Zeittoleranz (im Experiment 10 ms) liegen, werden aufgenommen. Dies gewährleistet eine natürliche Kontinuität für Teleoperationsaufzeichnungen und vermeidet Drift, führt jedoch zu unregelmäßigen Zeitintervallen ( $\Delta t$ ).
Offline-Matching Recorder: Dieser Modus entkoppelt die Aufzeichnung von der Synchronisation, um die Effizienz zu maximieren. Video- und Kinematikdaten werden separat und mit minimaler Verarbeitung aufgezeichnet. Eine nachgelagerte Pipeline rekonstruiert dann eine einheitliche Frame-Sequenz, indem für jeden Frame die $k$ nächsten Samples (hier $k=1$ ) mittels Interpolation ausgewählt werden. Dies erzeugt einen gleichmäßig abgetasteten Datensatz, ist jedoch für das Training von Robot-Policies besser geeignet als für Echtzeitanwendungen.

B. Hardware-Integration

Modernes Endoskop: Integration eines Chip-on-Tip-Endoskops (von Cornerstone Robotics) mit dem dVRK-Si. Dies ermöglicht eine Bildqualität, die mit klinischen Systemen vergleichbar ist (über 30-fach höhere Laplace-Varianz im Vergleich zum Legacy-System).
Kontaktsensor: Ein neuartiger kapazitiver Kontaktsensor (basierend auf Arduino UNO) wird in die Instrumente integriert. Er erfasst den Kontakt zwischen Instrument und Gewebe (Ground Truth) und leitet das Signal über einen digitalen Eingang des dVRK-Controllers weiter.
Side-View-Kamera: Eine zusätzliche Kamera (Intel RealSense) erfasst Seitenansichten, um die räumliche Wahrnehmung zu erweitern.

C. Nachbearbeitungs-Toolbox

Eine konfigurierbare Toolbox unterstützt folgende Aufgaben:

Kinematische Reprojektion: Projektion der 3D-Positionen der Instrumentenspitze (basierend auf Hand-Augen-Kalibrierung) auf 2D-Bilder unter Verwendung einer Gauß-Wärmekarte (Gaussian Heatmap). Dies erzeugt „Attention-Weighted Images", die den Fokus auf relevante Interaktionsbereiche lenken.
Tiefenschätzung & Optischer Fluss: Berechnung von Disparitätskarten (Tiefe) und dichtem optischem Fluss zwischen aufeinanderfolgenden Frames.
Datenannotation: Ein benutzerfreundliches GUI (PyQt) zur manuellen Kennzeichnung von Kontakten, Phasen und Ereignissen.

3. Wichtige Beiträge

Design-Pattern für Zeit-Synchronisation: Ein robustes System mit zwei Recorder-Modi (Online/Offline), das Zeit-Synchronisation als primäres Designkriterium behandelt.
Verbesserte Bildgebung: Schaffung eines hochauflösenden Bildstapels durch Integration moderner Endoskope in Forschungsplattformen.
Ground-Truth-Erfassung für Gewebekontakt: Ein funktionierender kapazitiver Sensor für die Erfassung von Kontaktzuständen an ex-vivo-Gewebe.
Umfassende Nachbearbeitung: Ein Toolset für Kalibrierung, Tiefenschätzung und kinematische Projektion.
Validierter Datensatz: Ein Datensatz mit 214 validierten Aufnahmen aus Benutzerstudien mit verschiedenen Skill-Leveln.

4. Ergebnisse und Evaluation

Datensatz: Es wurden 214 Aufnahmen über mehrere kanonische Trainingsaufgaben (Peg Transfer, Nahttechnik, Gewebemanipulation, Dissektion) an Phantomen und ex-vivo-Gewebe (Hühnerbrust, Rindfleisch) gesammelt. Die Teilnehmer umfassten Novizen, erfahrene Benutzer und Chirurgen.
Synchronisationsqualität:
- Der Online-Matching-Recorder erreichte eine durchschnittliche Latenz von 6,36 ms (Std. Abw. 4,72 ms).
- Der Offline-Matching-Recorder erreichte eine deutlich geringere Latenz von 1,35 ms (Std. Abw. 0,81 ms) nach der Nachbearbeitung, da keine Echtzeit-Dropping-Logik erforderlich war.
Kontakterkennung: Die Genauigkeit des Kontaktsensors variierte je nach Aufgabe (99,1% bei Gewebemanipulation, 74,3% bei Dissektion, 45,2% bei Nahttechnik), wobei Fehler hauptsächlich auf Rauschen und Feuchtigkeit zurückzuführen waren.
Skill-Assessment: Ein State-of-the-Art-Algorithmus zur Bewertung chirurgischer Fähigkeiten wurde auf dem Naht-Teil des Datensatzes getestet. Das Modell erreichte eine mittlere Spearman-Rangkorrelation (SROCC) von 0,803 für das Nähen und 0,765 für das Knoten, was die Eignung des Datensatzes für KI-Training demonstriert.
Cross-Platform: Das Framework wurde erfolgreich an zwei verschiedenen Institutionen (Johns Hopkins University und University of British Columbia) mit unterschiedlicher Hardware validiert.

5. Bedeutung und Ausblick

SurgSync adressiert kritische Lücken in der Verfügbarkeit von Trainingsdaten für die chirurgische KI. Durch die Bereitstellung von hochpräzise synchronisierten, multimodalen Daten (Visuell, Kinematisch, Kontakt) ermöglicht es die Entwicklung robusterer Modelle für die Überwachung autonomer Systeme und die chirurgische Kompetenzbewertung.

Die Open-Source-Verfügbarkeit von Software und Daten (unter surgsync.github.io) fördert die Reproduzierbarkeit und die Erstellung kombinierter, groß angelegter Datensätze durch verschiedene Forschungsgruppen. Zukünftige Arbeiten zielen darauf ab, den Datensatz durch weitere Instrumententypen, Aufgaben und möglicherweise in-vivo- oder Leichenstudien zu erweitern.