Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

Die Studie stellt SMMA vor, ein auf Deep Learning basierendes, vollautomatisiertes Framework zur präzisen Messung der Geniohyoid-Muskeldicke während der Sprache, das manuelle Annotationen überflüssig macht und neue Einblicke in die Sprachmotorik sowie potenzielle Anwendungen bei der Diagnose von Sprech- und Schluckstörungen ermöglicht.

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun, Shuming Huang, Zhen Song, Min Ney Wong, Yongping Zheng

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🗣️ Der unsichtbare Muskel im Hals: Wie KI die Sprache „misst"

Stellen Sie sich vor, Ihr Mund ist eine kleine Baustelle. Wenn Sie sprechen, arbeiten dort viele kleine Motoren (Muskeln), die Ihre Zunge bewegen, damit Sie Vokale wie „A", „I" oder „U" bilden können. Ein ganz wichtiger, aber oft übersehener Motor ist der Geniohyoid-Muskel. Er liegt tief im Hals, unter der Zunge, und hilft dabei, den Kiefer zu senken oder zu heben.

Bisher war es für Forscher wie ein Versuch, die Arbeit dieses Motors zu messen, indem man durch einen dichten Nebel schaut. Man musste Ultraschallbilder machen und dann mit der Hand mühsam die Ränder des Muskels nachzeichnen – ein Prozess, der so lange dauerte wie das Ausmessen eines ganzen Fußballfeldes mit einem Lineal. Das machte große Studien fast unmöglich.

Die Lösung? Die Forscher haben SMMA entwickelt. Das ist wie ein super-schneller, digitaler Assistent, der die ganze Arbeit für uns erledigt.

1. Der „Augen"-Teil: Die KI als Detektiv

Stellen Sie sich vor, Sie haben einen Haufen von 1.650 Ultraschall-Fotos. Ein menschlicher Experte müsste stundenlang auf jedem Bild suchen und den Muskel nachzeichnen.
Die KI (ein sogenanntes „Deep Learning"-Modell namens UltraUNet) ist wie ein hochentwickelter Detektiv mit Röntgenblick.

  • Was sie tut: Sie schaut sich das Bild an und sagt sofort: „Aha! Hier ist der Muskel, hier ist das Fett, hier ist nichts."
  • Das Ergebnis: Sie malt den Muskel in Sekunden automatisch ein. Das ist so präzise, dass sie fast so gut ist wie ein menschlicher Experte (zu 90 % Übereinstimmung).

2. Der „Lineal"-Teil: Das Skelett im Muskel

Sobald die KI den Muskel gefunden hat, kommt der zweite Teil ins Spiel. Stellen Sie sich den Muskel wie einen dicken Wurstbrötchen vor.

  • Die KI zieht eine unsichtbare Rückgrat-Linie (ein Skelett) genau durch die Mitte des Muskels.
  • Dann misst sie an jedem Punkt dieser Linie, wie dick die Wurst ist.
  • Der Clou: Sie macht das nicht nur einmal, sondern 30 Mal pro Sekunde, während die Person spricht. Es ist, als würde man einen Film drehen, in dem man sieht, wie der Muskel sich in Echtzeit zusammenzieht und entspannt.

Was haben sie herausgefunden? (Die Entdeckungen)

Mit diesem neuen Werkzeug haben die Forscher 11 Menschen (5 Männer, 6 Frauen) gebeten, verschiedene Vokale zu sagen. Hier kamen spannende Dinge ans Licht:

  • Der „A"-Vokal ist ein Kraftsport: Wenn jemand ein tiefes „A:" sagt (wie in „Vater"), muss der Kiefer weit nach unten. Dafür muss der Geniohyoid-Muskel hart arbeiten. Die KI zeigte: Der Muskel wird dabei dicker (ca. 7,3 mm).
  • Der „I"-Vokal ist entspannt: Bei einem hohen „I:" (wie in „Igel") bleibt der Kiefer oben. Der Muskel muss weniger arbeiten und bleibt dünn (ca. 6,0 mm).
  • Männer vs. Frauen: Männer haben generell etwas dickere Muskeln als Frauen (wie bei vielen Körperteilen auch), aber das Verhalten der Muskeln beim Sprechen ist bei beiden Geschlechtern gleich.

Warum ist das wichtig?

Früher war es wie das Suchen nach einer Nadel im Heuhaufen, um zu verstehen, wie wir sprechen. Jetzt haben wir einen Roboter-Nadel-Sucher.

  1. Für die Medizin: Wenn jemand Schwierigkeiten beim Sprechen oder Schlucken hat (z. B. nach einem Schlaganfall), können Ärzte jetzt objektiv sehen, welche Muskeln nicht richtig arbeiten.
  2. Für die Forschung: Man kann endlich große Studien machen, um zu verstehen, wie unser Gehirn die Sprache steuert, ohne dass jemand stundenlang vor dem Computer sitzen muss.
  3. Für die Zukunft: Es ist der erste Schritt zu einer automatisierten Diagnose, die so schnell und genau ist wie ein Foto.

Zusammengefasst: Die Forscher haben einen digitalen Assistenten gebaut, der tief im Hals nachschaut, wie sich unsere Muskeln beim Sprechen bewegen. Er ist schnell, genau und macht die Wissenschaft über die menschliche Sprache endlich für alle zugänglich – ohne dass man stundenlang mit dem Lineal messen muss.