A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – ohne komplizierte Fachbegriffe, sondern mit ein paar bildhaften Vergleichen.

Das große Problem: Der Daten-Dschungel

Stellen Sie sich vor, Sie haben einen riesigen Koffer voller Gegenstände. Darin sind nützliche Werkzeuge, aber auch alte Socken, leere Dosen und Steine. Wenn Sie versuchen, mit diesem Koffer zu reisen, wird er zu schwer und unhandlich. Genau so ist es mit Big Data (riesigen Datenmengen) in der modernen Welt.

Computer und KI-Systeme müssen oft aus diesen riesigen Datenbergen die wichtigsten Informationen herausfiltern. Das nennt man Feature Selection (Merkmalsauswahl). Das Ziel ist es, den Koffer zu entleeren, aber nur die unnötigen Dinge (die "Socken") wegzuschmeißen und die wichtigen Werkzeuge (die "Daten") zu behalten.

Das alte Werkzeug: Der unscharfe Blick

Bisher haben Wissenschaftler oft eine Methode namens "Fuzzy Rough Set" benutzt. Man kann sich das wie eine unscharfe Brille vorstellen.

Das Problem: Wenn man durch diese Brille schaut, um zu entscheiden, welche Daten wichtig sind, passiert oft etwas Schlimmes: Die Brille wird so unscharf, dass man nichts mehr unterscheiden kann. Oder sie wird so schwer (rechnerisch), dass der Computer vor lauter Rechnen fast abstürzt. Besonders wenn die Daten gemischt sind (z. B. Zahlen, Ja/Nein-Antworten und beschreibende Wörter wie "schwer" oder "leicht"), wird die alte Brille ganz trüb.

Die neue Lösung: Der "FSbuHD"-Koffer

Die Autoren dieses Papers haben eine neue, clevere Methode entwickelt, die sie FSbuHD nennen. Hier ist, wie sie funktioniert, mit ein paar Analogien:

1. Der neue Maßstab: Der Hybrid-Abstand

Statt die Daten nur mit der unscharfen Brille anzuschauen, bauen die Forscher ein neues Lineal, das für alles passt.

Die Idee: In der echten Welt haben wir verschiedene Arten von Daten. Ein "Fieber" ist eine Zahl (39 Grad), ein "Schmerz" ist ein Ja/Nein, und ein "Krankheitsverlauf" ist ein Wort ("leicht", "schwer").
Der Trick: Die Forscher haben eine Formel erfunden, die alle diese verschiedenen Dinge in eine gemeinsame Sprache übersetzt. Sie nennen das Hybrid Distance. Stellen Sie sich vor, Sie messen nicht nur die Distanz zwischen zwei Punkten, sondern auch, wie ähnlich sich ihre "Stimmung" oder "Beschreibung" ist. So können sie genau berechnen, wie ähnlich sich zwei Patienten oder zwei Datensätze wirklich sind.

2. Die zwei Modi: Normal und Optimistisch

Die neue Methode arbeitet in zwei Stellungen, je nachdem, wie vorsichtig oder mutig der Computer sein soll:

Normaler Modus: Der Computer ist etwas vorsichtig. Er sagt: "Ich bin mir nur sicher, wenn die Ähnlichkeit sehr hoch ist."
Optimistischer Modus: Der Computer ist mutiger. Er sagt: "Okay, sie sind sich vielleicht nicht zu 100 % ähnlich, aber sie könnten trotzdem zur selben Gruppe gehören."
Warum das gut ist: Je nach Aufgabe (z. B. medizinische Diagnose vs. Wettervorhersage) kann man wählen, welcher Modus besser passt.

3. Der schwarze Loch-Roboter (Der Black Hole Algorithmus)

Jetzt haben sie die perfekten Daten, aber sie müssen noch die besten Merkmale auswählen. Das ist wie das Finden des kleinsten Koffers, der trotzdem alles Nötige enthält.

Dafür nutzen sie einen Meta-Heuristik-Algorithmus namens "Black Hole" (Schwarzes Loch).
Die Analogie: Stellen Sie sich vor, Sie haben viele Sterne (Lösungsvorschläge) am Himmel. Der beste Stern wird zum "Schwarzen Loch". Alle anderen Sterne werden von diesem Loch angezogen und drehen sich darum. Wenn ein Stern zu nah kommt, wird er "verschluckt" und durch einen neuen, besseren Stern ersetzt.
Dieser Prozess wiederholt sich, bis der Algorithmus den absolut besten, kleinsten Koffer mit den wichtigsten Daten gefunden hat.

Was haben sie herausgefunden?

Die Forscher haben ihre neue Methode an acht verschiedenen Datensätzen getestet (z. B. medizinische Daten, Finanzdaten).

Das Ergebnis: Ihr neuer "Koffer" (FSbuHD) war oft kleiner und leichter als die alten. Das bedeutet, sie mussten weniger Daten speichern und verarbeiten.
Die Qualität: Trotz des kleineren Koffers waren die Ergebnisse (z. B. die Genauigkeit einer Diagnose) besser oder genauso gut wie bei den alten Methoden.
Der Vergleich: Sie haben ihre Methode mit anderen bekannten Algorithmen verglichen und gewonnen. Besonders bei gemischten Daten (Hybrid-Daten) war sie überlegen.

Fazit in einem Satz

Die Forscher haben eine neue Brille und ein neues Lineal erfunden, die es Computern ermöglichen, riesige, gemischte Datenmengen effizient zu durchsuchen, indem sie wie ein cleverer Roboter die unwichtigen Dinge wegwerfen und nur das Wesentliche behalten – und das alles schneller und genauer als die alten Methoden.

Kurz gesagt: Sie haben den Daten-Dschungel nicht nur entrümpelt, sondern dabei auch noch den besten Weg gefunden, ohne dabei die wertvollen Schätze zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des vorliegenden Artikels auf Deutsch:

Titel: Ein neues Modell zur Merkmalsauswahl basierend auf der Theorie der Fuzzy-Rough-Sets in normalen und optimistischen Zuständen auf hybriden Informationssystemen

Autoren: M. H. Safarpour, S. M. Alavi, M. Izadikhah, H. Dibachi
Veröffentlicht in: International Journal of Engineering (IJE), Transactions B: Applications, Vol. 38, No. 11, 2025.

1. Problemstellung

Die Autoren adressieren die Herausforderungen der Merkmalsauswahl (Feature Selection) im Kontext von Big Data und hybriden Informationssystemen (HIS). Hybride Systeme enthalten Daten mit unterschiedlichen Attributtypen (z. B. reellwertig, kategorisch, boolesch, mengenhaft und linguistische Variablen).

Zwei Hauptprobleme werden identifiziert:

Ineffizienz bei hohen Dimensionen: Herkömmliche Methoden zur Berechnung von Fuzzy-Äquivalenzrelationen basieren oft auf Schnittoperationen (Intersection) über mehrere Attribute. In hochdimensionalen Räumen ist dies rechenintensiv und speicherfordernd.
Rauschen und Diskriminierungsverlust: Die wiederholten Schnittoperationen können zu einer Verschlechterung der Unterscheidungsfähigkeit der Zugehörigkeitsgrade führen, insbesondere wenn Rauschen in den Daten vorhanden ist. Dies führt zu ungenauen Ähnlichkeitsrelationen und verschlechtert die Merkmalsauswahl.

Ziel ist es, ein neues Modell zu entwickeln, das diese Nachteile umgeht, indem es Distanzmaße anstelle reiner Schnittoperationen nutzt und das Problem als Optimierungsproblem formuliert.

2. Methodik

Das vorgeschlagene Modell trägt den Namen FSbuHD (Feature Selection based on Hybrid Distance). Der Ansatz gliedert sich in folgende Schritte:

A. Hybride Distanz (Hybrid Distance - HD)

Um die Ähnlichkeit zwischen Objekten in hybriden Systemen zu berechnen, wird eine kombinierte Distanzfunktion entwickelt, die spezifische Distanzmaße für verschiedene Attributtypen integriert:

Boolesche Attribute: Binäre Distanz (0 oder 1).
Reellwertige Attribute: Normalisierte Distanz basierend auf der Standardabweichung.
Mengenhafte Attribute: Distanz basierend auf dem Schnitt der Mengen.
Linguistische Variablen: Diese werden zunächst in trapezförmige Fuzzy-Zahlen umgewandelt, defuzzifiziert (mittels Schwerpunktmethode) und dann als reellwertige Werte behandelt.
Die Gesamthybriddistanz $HD(x, y)$ ist die euklidische Wurzel der Summe der quadrierten Distanzen aller einzelnen Attribute.

B. Fuzzy-Äquivalenzrelation mittels Gauß-Kern

Anstatt die Ähnlichkeit durch Schnittoperationen zu definieren, wird die Hybriddistanz in einen Gauß-Kern-Funktion eingespeist:
$R_G(x_i, x_j) = \exp\left(-\frac{HD(x_i, x_j)^2}{2\sigma^2}\right)$
Dies erzeugt eine $T_p$ -Äquivalenzrelation (basierend auf dem probabilistischen t-Norm), die reflexiv, symmetrisch und transitiv ist.

C. Zwei Betriebsmodi: Normal und Optimistisch

Das Modell definiert zwei Zustände basierend auf der Art der verwendeten Approximation:

Normaler Zustand: Verwendung der unteren Approximation ( $\underline{R}$ ).
Optimistischer Zustand: Verwendung der oberen Approximation ( $\overline{R}$ ).
Dies ermöglicht eine flexible Anpassung an die Entscheidungspräferenzen des Anwenders.

D. Formulierung als Optimierungsproblem

Das Merkmalsauswahlproblem wird in ein binäres Optimierungsproblem umgewandelt:

Zielfunktion: Minimierung der Anzahl der ausgewählten Merkmale ( $\sum \chi_k$ , wobei $\chi_k \in \{0,1\}$ ).
Nebenbedingungen: Die Distanz zwischen Objekten unterschiedlicher Klassen (aber innerhalb einer Toleranzgrenze $\delta$ ) muss so erhalten bleiben, dass die Ähnlichkeitsrelation nicht unter einen Schwellenwert fällt. Dies wird durch eine logarithmische Ungleichung sichergestellt.
Lösungsalgorithmus: Zur Lösung dieses NP-schweren Problems wird der Black Hole (BH) Metaheuristik-Algorithmus eingesetzt, der von der Gravitation schwarzer Löcher inspiriert ist.

3. Schlüsselergebnisse

Die Autoren haben das FSbuHD-Modell an acht Datensätzen aus dem UCI Machine Learning Repository (z. B. crx, australian, heart, ionosphere, wpbc) getestet und mit etablierten Algorithmen (FARNeM, WARA, CfsSubsetEval, RSFSAID) verglichen.

Reduktion der Merkmale: FSbuHD wählte in den meisten Fällen eine geringere Anzahl an Merkmalen aus als die Vergleichsalgorithmen, ohne die Klassifikationsleistung zu beeinträchtigen. Beispielsweise reduzierte es die Merkmale im "australian"-Datensatz von 14 auf 4 (optimistischer Zustand).
Klassifikationsleistung: Die Leistung wurde mit drei Klassifikatoren (Linear SVM, KNN, Complex Tree) und fünf-Fold-Cross-Validation evaluiert.
Metriken: Die Bewertung erfolgte mittels Genauigkeit (Accuracy), Präzision (Precision), Recall und dem Matthews Korrelationskoeffizienten (MCC).
Ergebnis: In den meisten Szenarien erzielte FSbuHD (sowohl im normalen als auch im optimistischen Modus) gleichwertige oder bessere Ergebnisse als die Vergleichsalgorithmen, insbesondere beim MCC, was auf eine robustere Vorhersagekraft hindeutet.

4. Bedeutung und Beitrag

Der Artikel leistet einen signifikanten Beitrag zur Forschung im Bereich des Data Mining und der Fuzzy-Logik:

Überwindung von Schnitt-Operationen: Durch den Ersatz der traditionellen Schnitt-basierten Ähnlichkeitsberechnung durch eine Distanz-basierte Gauß-Kern-Methode wird das Problem des Rauschens und der Rechenkomplexität in hochdimensionalen Räumen adressiert.
Umgang mit Hybriddaten: Das Modell ist speziell für hybride Informationssysteme konzipiert und kann nahtlos verschiedene Datentypen (inklusive linguistischer Variablen) verarbeiten, ohne dass eine vorangehende Diskretisierung notwendig ist, die Informationsverluste verursachen würde.
Flexibilität: Die Einführung der "normalen" und "optimistischen" Modi bietet Entscheidungsträgern die Möglichkeit, den Grad der Konservativität oder Risikobereitschaft bei der Merkmalsauswahl zu steuern.
Effizienz: Die Kombination aus einem neuen Distanzmodell und einem Metaheuristik-Löser (Black Hole) führt zu effizienten Merkmalsmengen, die die nachfolgende Klassifikation beschleunigen und die Generalisierungsfähigkeit verbessern.

Fazit: Das FSbuHD-Modell stellt eine robuste und effiziente Alternative zu bestehenden Fuzzy-Rough-Set-Methoden dar, insbesondere für komplexe, hybride Datensätze, und demonstriert durch empirische Tests eine überlegene Leistung in Bezug auf Merkmalsreduktion und Klassifikationsgenauigkeit.