A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Grote Data-Opdracht: Hoe je de "Nutteloze Rommel" uit je Data verwijdert

Stel je voor dat je een enorme koffer vol met spullen moet inpakken voor een lange reis. Je hebt duizenden items: kleding, boeken, gereedschap, maar ook oude bonnetjes, gebroken brillen en lege blikjes. Als je alles meeneemt, wordt je koffer te zwaar, duurt het inpakken eeuwen en vind je je eigen spullen nooit meer.

In de wereld van computers en Big Data gebeurt precies hetzelfde. Computers krijgen tegenwoordig enorme hoeveelheden informatie (data) binnen. Deze data bevat vaak veel "rommel": onbelangrijke details of dubbele informatie die alleen maar verwarring sticht en de computer vertraagt.

Het doel van dit onderzoek is het vinden van de perfecte manier om die rommel weg te halen, zodat de computer alleen de waardevolle spullen (de belangrijke kenmerken) overhoudt.

🧩 Het Probleem: De "Grijze" Wereld van Data

De auteurs van dit artikel kijken naar een specifieke soort data: Hybride Informatiesystemen. Wat betekent dat?
Stel je een medische patiëntendatabase voor.

Sommige gegevens zijn getallen (bijv. lichaamstemperatuur: 38,5°C).
Sommige zijn ja/nee (bijv. "Heeft koorts?").
Sommige zijn beschrijvingen (bijv. "Licht", "Gemiddeld", "Ernstig" pijn).
Sommige zijn sets van opties (bijv. "Symptomen: C, R, A").

De oude methoden om de beste kenmerken te kiezen, hadden twee grote problemen:

Ze waren te traag: Het berekenen van de gelijkenis tussen duizenden patiënten met al die verschillende soorten data kostte eeuwen.
Ze maakten ruis: Door de oude rekenmethodes (die vaak op "doorsneden" van lijnen leken) ontstonden er fouten. Het was alsof je door een vies raam kijkt; je ziet de contouren, maar de details zijn wazig en onbetrouwbaar.

💡 De Oplossing: FSbuHD (De Nieuwe Reisgids)

De onderzoekers hebben een nieuwe methode bedacht, die ze FSbuHD noemen. Laten we deze methode uitleggen met een paar leuke vergelijkingen.

1. De Afstandsmeter (Hybride Afstand)

In plaats van te proberen alles in één groot, rommelig blok te vergelijken, gebruiken ze een slimme afstandsmeter.

Vergelijking: Stel je voor dat je twee mensen wilt vergelijken. De ene heeft een hoge temperatuur (getal), de andere heeft "ernstige" hoofdpijn (woord). Hoe meet je de afstand tussen hen?
De nieuwe methode zet eerst die woorden om in getallen (zoals een vertaler) en meet dan de exacte "afstand" tussen de twee mensen. Als ze ver uit elkaar liggen, zijn ze heel verschillend. Als ze dicht bij elkaar liggen, lijken ze op elkaar. Dit werkt voor alle soorten data tegelijk.

2. De Twee Manieren van Kijken: "Normaal" en "Optimistisch"

De onderzoekers zeggen: "Laten we niet alleen kijken naar wat we zeker weten, maar ook naar wat misschien waar is." Ze hebben twee modi bedacht:

De Normale Modus: Hier kijken we alleen naar de mensen die we zeker als gelijk kunnen beschouwen. Dit is veilig en voorzichtig.
De Optimistische Modus: Hier kijken we ook naar de mensen die misschien wel op elkaar lijken. Dit is alsof je een breder net gooit om meer informatie te vangen. Soms vind je hierdoor sneller de juiste oplossing, zelfs als de data niet perfect is.

3. De Zwarte Gaten (Het Zoekproces)

Hoe vinden ze nu de beste set van kenmerken? Ze gebruiken een slim algoritme dat Zwarte Gaten (Black Hole) heet.

De Analogie: Stel je een sterrenhemel voor met duizenden sterren. Elke ster is een mogelijke combinatie van kenmerken.
De beste ster (de oplossing die het beste werkt) wordt de Zwarte Gaten.
Alle andere sterren worden door de zwaartekracht van die Zwarte Gaten naar toe getrokken.
Sterren die niet goed genoeg zijn, worden "verslonden" (weggegooid). Sterren die beter zijn, komen dichter bij de Zwarte Gaten.
Uiteindelijk blijft er één perfecte ster over: de kleinste set van kenmerken die nog steeds alles perfect kan voorspellen.

🏆 Wat Leverde Het Op?

De onderzoekers hebben hun nieuwe methode getest op echte data (zoals medische dossiers en auto-gegevens) en vergeleken met andere bekende methoden.

Resultaat: De FSbuHD-methode slaagde erin om veel minder kenmerken te kiezen dan de oude methoden, terwijl de nauwkeurigheid hetzelfde bleef of zelfs beter werd.
Vergelijking: Het is alsof de oude methoden een koffer inpakten met 500 items, terwijl FSbuHD erin slaagde om dezelfde reis te maken met slechts 50 items, zonder iets belangrijks te missen.
De "Optimistische" winnaar: In veel gevallen werkte de "optimistische" modus zelfs nog iets beter dan de normale modus, omdat het de computer toeliet om creatiever te zoeken naar patronen.

🚀 Conclusie in Eén Zin

Dit artikel introduceert een slimme nieuwe manier om grote en diverse datasets te "schoonmaken". Door slimme afstanden te meten en een natuur-geïnspireerde zoektocht (zoals zwarte gaten) te gebruiken, kunnen computers sneller en slimmer beslissingen nemen, zonder verstrikt te raken in de enorme hoeveelheid data die we vandaag de dag genereren.

Het is een stap in de richting van slimme computers die niet verdrinken in de data, maar er juist van leren.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems", geschreven in het Nederlands.

Titel: Een nieuwe modellering voor feature selectie gebaseerd op de theorie van vage ruwe verzamelingen (Fuzzy Rough Set Theory) in normale en optimistische toestanden op hybride informatiesystemen.

Auteurs: M. H. Safarpour, S. M. Alavi, M. Izadikhah, H. Dibachi.
Publicatie: International Journal of Engineering, Transactions B: Applications, Vol. 38, No. 11, November 2025.

1. Probleemstelling

De snelle groei van big data, gekenmerkt door volume, variëteit en snelheid, heeft geleid tot de noodzaak van efficiënte feature selectie (het selecteren van de meest relevante kenmerken) om de dimensionality van datasets te reduceren. Een specifieke uitdaging doet zich voor in Hybride Informatiesystemen (HIS), waarin datasets bestaan uit een mix van attribuuttypen: numeriek (real-valued), categorisch, binair, set-gebaseerd en linguïstische variabelen.

Bestaande methoden op basis van de theorie van vage ruwe verzamelingen (Fuzzy Rough Set Theory - FRST) hebben twee belangrijke beperkingen:

Berekeningskosten en geheugengebruik: Het verkrijgen van vage equivalentierelaties via intersectie-operaties in hoog-dimensionale ruimtes is tijdrovend en memory-intensief.
Ruisgevoeligheid: De traditionele intersectie-operaties kunnen leiden tot ruis in de data, wat de discriminatiekracht van de lidmaatschapsgraden vermindert en de feature selectie onnauwkeurig maakt.

Het doel van dit onderzoek is het overwinnen van deze beperkingen door een nieuw model te ontwikkelen dat de afstand tussen objecten gebruikt in plaats van traditionele intersectie-operaties.

2. Methodologie

De auteurs stellen een nieuw model voor, genaamd FSbuHD (Feature Selection based on Hybrid Distance). De kern van de methodologie bestaat uit de volgende stappen:

A. Hybride Afstandsmaat (Hybrid Distance - HD)

Om de diversiteit van attributen in een HIS te hanteren, wordt een hybride afstandsmaat gedefinieerd die specifieke afstandsformules combineert voor elk attribuuttype:

Booleaans: 0 als gelijk, 1 als verschillend.
Real-valued: Genormaliseerde absolute verschil (gebaseerd op standaarddeviatie).
Set-valued: Gebaseerd op de Jaccard-achtige overlap van verzamelingen.
Linguïstische variabelen: Eerst worden deze omgezet in trapezium-vormige vage getallen, vervolgens gefuzzified naar een crisp waarde (via de centroid-methode), en daarna de afstand berekend.

De totale hybride afstand tussen twee objecten $x$ en $y$ is de wortel van de som van de kwadraten van deze individuele afstanden.

B. Vage Equivalentierelatie via Gauß-kern

In plaats van intersectie te gebruiken, wordt de vage gelijkwaardigheidsrelatie ( $R_G$ ) berekend met behulp van een Gauß-kernfunctie die de hybride afstand gebruikt:
$R_G(x_i, x_j) = \exp\left(-\frac{HD(x_i, x_j)^2}{2\sigma^2}\right)$
Dit garandeert dat de relatie reflexief, symmetrisch en $T_p$ -transitief is (waarbij $T_p$ de probabilistische t-norm is).

C. Normalistische en Optimistische Modellen

Het model introduceert twee operationele toestanden gebaseerd op de keuze van de benadering:

Normale staat: Gebruikt de onderste benadering (fuzzy lower approximation) van de relatie. Dit is conservatiever en focust op objecten die zeker tot een klasse behoren.
Optimistische staat: Gebruikt de bovenste benadering (fuzzy upper approximation). Dit is minder restrictief en neemt objecten mee die mogelijk tot een klasse behoren.

D. Optimalisatieprobleem

Het feature selectie-probleem wordt geformuleerd als een combinatorisch optimalisatieprobleem:

Doelfunctie: Minimaliseer het aantal geselecteerde features ( $\sum \chi_k$ , waarbij $\chi_k \in \{0,1\}$ ).
Beperkingen: De afstand tussen objecten die tot verschillende klassen behoren, moet voldoende groot blijven (of de gelijkwaardigheid moet onder een drempelwaarde $\delta$ blijven) om de classificatiekwaliteit niet te verslechteren.
Oplossingsalgoritme: Het probleem wordt opgelost met een Meta-heuristisch algoritme, specifiek het Black Hole (BH) algoritme, dat geïnspireerd is op de zwaartekracht van zwarte gaten.

3. Belangrijkste Bijdragen

Nieuwe Similariteitsrelatie: Introductie van een vage equivalentierelatie gebaseerd op hybride afstand en een Gauß-kern, wat de problemen van intersectie-operaties (ruis en inefficiëntie) oplost.
Hybride Afstandsformulering: Een uitgebreide methode om afstand te berekenen in systemen met gemengde attribuuttypen (inclusief linguïstische variabelen).
Twee Operationele Modellen: Het definiëren van "normale" en "optimistische" toestanden voor feature selectie, waardoor flexibiliteit in de besluitvorming mogelijk is.
FSbuHD Model: Een geïntegreerd framework dat het feature selectie-probleem transformeert naar een optimalisatieprobleem opgelost met Black Hole.

4. Resultaten

De auteurs hebben het model getest op 8 datasets uit de UCI Machine Learning Repository (zoals crx, australian, heart, ionosphere, wpbc, zoo-3, wdbc).

Feature Reductie: FSbuHD slaagde erin om in de meeste gevallen een kleiner aantal features te selecteren dan vergelijkbare algoritmen (FARNeM, WARA, CfsSubsetEval, RSFSAID) zonder de classificatiekwaliteit te verliezen. Bijvoorbeeld, op de australian dataset selecteerde FSbuHD (optimistisch) slechts 4 features tegenover 6-14 bij andere methoden.
Classificatieprestaties: De geselecteerde features werden geëvalueerd met drie classifiers: Linear SVM, KNN en Complex Tree.
- Accuracy, Precision, Recall en MCC: In vergelijking met de originele datasets en andere feature selectie-algoritmen, presteerde FSbuHD consistent goed. In veel gevallen (aangeduid met vet of onderstreept in de tabellen) behaalde FSbuHD de hoogste scores op metrics zoals Accuracy en Matthews Correlation Coefficient (MCC).
- Het model bleek robuust en effectief in het behouden van de discriminatiekracht van de data met minder features.

5. Betekenis en Conclusie

Dit onderzoek biedt een significante bijdrage aan het veld van data mining en big data-analyse, specifiek voor hybride informatiesystemen.

Efficiëntie: Door het vermijden van complexe intersectie-operaties en het gebruik van een afstandsgedreven aanpak, wordt de berekeningslast verlaagd en de nauwkeurigheid verhoogd.
Flexibiliteit: De mogelijkheid om te kiezen tussen een "normale" (conservatieve) en "optimistische" (inclusieve) modus maakt het model aanpasbaar aan verschillende risicoprofielen in besluitvorming.
Toekomstperspectief: De auteurs suggereren dat het model verder kan worden geoptimaliseerd door andere meta-heuristische algoritmen te testen en alternatieve equivalentierelaties te onderzoeken.

Kortom, FSbuHD is een krachtige, nieuwe aanpak die de theorie van vage ruwe verzamelingen succesvol toepast op complexe, gemengde datasets, wat leidt tot efficiëntere en nauwkeurigere machine learning-modellen.