AuToMATo: An Out-Of-The-Box Persistence-Based Clustering Algorithm

Die Autoren stellen AuToMATo vor, einen neuartigen, auf persistenter Homologie basierenden Clustering-Algorithmus, der durch eine Standardkonfiguration ohne manuelle Parametereinstellung auskommt, in Vergleichen mit anderen State-of-the-Art-Verfahren überzeugt und als Open-Source-Implementierung in Python verfügbar ist.

Marius Huber, Sara Kalisnik, Patrick Schnider

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen Haufen bunter Murmeln auf einem Tisch verteilt. Einige liegen eng beieinander in kleinen Gruppen, andere sind weit verstreut, und wieder andere bilden große, wirre Schwärme. Ihre Aufgabe ist es, diese Murmeln in sinnvolle Gruppen zu sortieren. Das nennt man in der Datenwissenschaft Clustering (Gruppierung).

Das Problem dabei: Die meisten Werkzeuge, die wir dafür benutzen, erfordern, dass Sie als Mensch vorher genau einstellen, wie "eng" eine Gruppe sein darf oder wie "weit" ein Murmel von der nächsten entfernt sein muss, um nicht dazuzugehören. Das ist wie beim Kochen: Wenn Sie nicht genau wissen, wie viel Salz rein soll, schmeckt das Gericht vielleicht nicht. Und wenn Sie das Salz falsch dosieren, ist das ganze Essen ruiniert.

Hier kommt AuToMATo ins Spiel.

Was ist AuToMATo?

AuToMATo ist ein neues, intelligentes Werkzeug, das diese Murmeln (Datenpunkte) automatisch gruppiert, ohne dass Sie vorher die "Salzmenge" (die Parameter) einstellen müssen. Es ist wie ein Koch, der einfach schmeckt und sagt: "Ah, hier passt das zusammen, hier nicht."

Der Name steht für Automated Topological Mode Analysis Tool. Klingt kompliziert, aber das Prinzip ist eigentlich ganz einfach und basiert auf zwei genialen Ideen:

1. Die Bergland-Simulation (ToMATo)

Stellen Sie sich vor, die Murmeln liegen nicht auf einem flachen Tisch, sondern auf einer unsichtbaren, hügeligen Landschaft.

  • Wo viele Murmeln eng beieinander liegen, ist ein Berggipfel.
  • Wo nur wenige Murmeln sind, ist ein Tal.

Das alte Werkzeug (ToMATo) hat versucht, diese Berge zu finden. Aber es hatte ein Problem: Es wusste nicht, welche Berge "echte" Berge sind und welche nur kleine Hügel oder Rauschen (Fehler) sind. Der Benutzer musste manuell eine Linie ziehen: "Alles über dieser Linie ist ein Berg, alles darunter ist nur ein Hügel." Das war oft willkürlich.

2. Der "Was-wäre-wenn"-Test (Der Bootstrap)

AuToMATo macht etwas Cleveres: Es führt einen Probelauf durch.
Stellen Sie sich vor, Sie nehmen Ihren Murmelpool, mischen ihn gut durch und ziehen zufällig immer wieder neue, kleine Teilmengen davon heraus (wie wenn Sie immer wieder eine Handvoll Murmeln aus dem Sack greifen).

  • Bei jedem dieser Züge schaut es sich die Landschaft an: "Bleibt dieser Berggipfel auch hier bestehen? Oder verschwindet er, weil er nur ein Zufall war?"
  • Wenn ein Berggipfel in fast allen Probelaufen stabil bleibt, ist er wichtig.
  • Wenn ein Gipfel in den meisten Probelaufen verschwindet, war er nur ein Zufall (Rauschen).

Dieser Prozess nennt sich "Bottleneck-Bootstrap". Er hilft AuToMATo, die echten Signale vom Hintergrundrauschen zu trennen, ohne dass Sie eine Grenze festlegen müssen. Das Werkzeug entscheidet selbst: "Dieser Gipfel ist stabil genug, um eine echte Gruppe zu sein."

Warum ist das so gut?

In den Tests hat sich gezeigt, dass AuToMATo oft besser funktioniert als die besten Experten, die manuelle Einstellungen für andere Werkzeuge vornehmen.

  • Andere Werkzeuge: Brauchen oft viel Feintuning. Ein falscher Parameter, und die Gruppen sind falsch.
  • AuToMATo: Funktioniert "out-of-the-box" (direkt aus der Schachtel). Sie geben die Daten ein, und es liefert eine sehr gute Gruppierung.

Ein echtes Anwendungsbeispiel: Die Mapper-Karte

Ein besonders spannender Einsatz ist die Erstellung von Karten für komplexe Daten (das "Mapper"-Verfahren). Stellen Sie sich vor, Sie wollen die Struktur von Diabetes-Patienten verstehen.

  • Mit herkömmlichen Methoden (wie DBSCAN) entstehen oft krumme, unverständliche Linien und Verbindungen, die keinen Sinn ergeben.
  • Mit AuToMATo entsteht eine klare Karte: Ein zentraler Kern für gesunde Menschen und zwei klare "Ausläufer" (Flares), die die beiden verschiedenen Diabetes-Typen darstellen. Es erkennt die wahre Form der Daten, als würde es einen unsichtbaren Berggipfel sehen, den andere übersehen haben.

Fazit

AuToMATo ist wie ein erfahrener Bergführer in einer nebligen Landschaft. Während andere versuchen, die Sichtweite manuell einzustellen, nutzt AuToMATo einen cleveren Trick (das ständige Probieren und Vergleichen), um sicherzugehen, dass es nur die echten, stabilen Gipfel findet. Es macht die Datenanalyse einfacher, robuster und für jeden zugänglich, der keine Mathe-Experten-Parameter einstellen möchte.

Kurz gesagt: Es sortiert Ihre Daten automatisch so, wie es die Natur selbst tun würde, ohne dass Sie sich um die Einstellungen kümmern müssen.