Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

Die Arbeit stellt einen deterministischen, regelbasierten Workflow vor, der Rohdaten aus einer Datenbank für akademische Mitarbeiter verarbeitet, um kosten- und studentenspezifische Kennzahlen zu berechnen und diese durch eine interpretierbare Fuzzy-Banding-Methode in nachvollziehbare Kategorien einzuteilen.

Shane Lee, Stella Ng

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, eine Universität ist wie ein riesiger, chaotischer Supermarkt. Tausende von Mitarbeitern (hier: Dozenten) arbeiten dort, und es fallen unzählige Kosten an. Die Verwaltung muss herausfinden: Wie viel kostet es eigentlich, einen einzelnen Studenten zu unterrichten?

Das Problem: Die Daten liegen in riesigen, unordentlichen Excel-Tabellen vor. Wenn man diese einfach so nimmt, kann man leicht Fehler machen oder die Zahlen nicht nachvollziehen.

Diese Paper beschreibt einen cleveren, automatisierten Weg, um aus diesem Chaos klare, vertrauenswürdige und verständliche Berichte zu machen. Hier ist die Erklärung in einfachen Worten:

1. Der "Koch-Rezept"-Ansatz (Deterministische Vorverarbeitung)

Stellen Sie sich vor, Sie backen einen Kuchen. Wenn Sie das Rezept genau gleich befolgen und die exakt gleichen Zutaten verwenden, muss der Kuchen jedes Mal gleich schmecken.

  • Das Problem: Oft ändern Leute Excel-Tabellen manuell, löschen Zeilen oder runden Zahlen anders. Das führt zu unterschiedlichen Ergebnissen.
  • Die Lösung: Die Autoren haben ein Computerprogramm (cad_processor.py) geschrieben, das wie ein strenger Koch ist.
    • Es nimmt die rohen Daten (den "Supermarkt-Einkaufskorb").
    • Es wendet starre Regeln an (z. B.: "Wenn die Studentenzahl fehlt, setze sie auf 0", "Wenn ein Name fehlt, wirf die Zeile weg").
    • Der "Fingerabdruck": Das Programm nimmt einen digitalen Fingerabdruck (SHA-256-Hash) von der Eingabe-Datei. Das ist wie ein Siegel auf einem Briefumschlag. Wenn auch nur ein einziges Pixel in der Datei geändert wird, ist der Fingerabdruck anders. So kann man später beweisen: "Ja, wir haben genau diese Datei verarbeitet, keine andere."
    • Das Ergebnis ist ein neuer, sauberer Bericht, den man jederzeit neu berechnen und mit dem Original abgleichen kann.

2. Die "Farbkarte" für die Kosten (Aggregation)

Das Programm rechnet nun alles zusammen. Es fasst die Kosten für jeden Kurs und jedes Jahr zusammen und teilt sie durch die Anzahl der Studenten.

  • Ergebnis: Eine Tabelle, die zeigt, wie viel es pro Kopf kostet.
  • Besonderheit: Das Programm achtet genau auf "leere Ecken". Wenn ein Kurs 10.000 Euro kostet, aber 0 Studenten hat, sagt es nicht einfach "unendlich", sondern markiert es als "undefiniert". Wenn beides 0 ist, sagt es "keine Aktivität". Das verhindert, dass die Zahlen in die Irre führen.

3. Der "Fuzzy-Band"-Trick (Die magische Einordnung)

Jetzt kommt der kreativste Teil. Die Zahlen allein sind oft schwer zu lesen. Ist 15.000 Euro pro Student viel oder wenig? Das hängt vom Jahr ab!

Stellen Sie sich vor, Sie bewerten die Leistung von Schülern in einem Jahr.

  • Der schlechteste Schüler hat 10 Punkte, der beste 100.
  • Ein Schüler mit 50 Punkten ist "durchschnittlich".
  • Aber im nächsten Jahr sind alle viel besser: Der schlechteste hat 40, der beste 120. Ein Schüler mit 50 Punkten wäre dann eher "schlecht".

Das Programm macht Folgendes:

  1. Es schaut sich nur das aktuelle Jahr an.
  2. Es findet den Minimum-Wert (der "Arme"), den Median (den "Durchschnitt") und den Maximum-Wert (den "Reichen").
  3. Es ordnet jeden Kurs einer von drei Kategorien zu: Niedrig, Mittel, Hoch.

Aber wie entscheidet es? Hier kommt die "Fuzzy"-Logik (unscharfe Logik) ins Spiel.
Stellen Sie sich eine Leiter vor:

  • Wer ganz unten steht, ist zu 100% "Niedrig".
  • Wer ganz oben steht, ist zu 100% "Hoch".
  • Wer genau in der Mitte steht, ist zu 100% "Mittel".
  • Der Clou: Wer genau auf der Grenze steht (z. B. zwischen Mittel und Hoch), bekommt Anteile von beiden. Das Programm sagt dann: "Du bist zu 50% Mittel und zu 50% Hoch."

Die Entscheidung: Um eine klare Antwort zu geben, hat das Programm eine feste Regel: "Wenn du unsicher bist zwischen Mittel und Hoch, nimm Mittel." Das verhindert, dass jemand an der Grenze plötzlich als "Hoch" abgestempelt wird, obwohl er eigentlich noch im Mittelfeld ist.

4. Das Ergebnis: Ein verständlicher Bericht

Am Ende erhalten die Entscheidungsträger (die Uni-Verwaltung) einen Bericht mit vier Teilen:

  1. Zusammenfassung: "Wir haben genau diese Datei verarbeitet, hier sind die Zählungen (wie viele Zeilen wurden weggeworfen?)."
  2. Trend: Eine farbig eingefärbte Tabelle. Je nach Kostenfarbe (z. B. Grün = günstig, Rot = teuer) sieht man sofort, welche Schulen im aktuellen Jahr gut oder schlecht dastehen.
  3. Detailbericht: Die genauen Zahlen für jeden einzelnen Kurs.
  4. Die "Fuzzy"-Bänder: Eine Liste, die jedem Kurs ein Label gibt (Niedrig/Mittel/Hoch) und dazu schreibt: "Dieses Label ist zu 60% Mittel und zu 40% Hoch".

Warum ist das wichtig?

  • Vertrauen: Jeder kann nachrechnen. Wenn die Zahlen nicht stimmen, kann man den "Fingerabdruck" prüfen und sehen, ob die falsche Datei benutzt wurde.
  • Fairness: Die Bewertung "teuer" oder "günstig" ist immer im Vergleich zum aktuellen Jahr fair, nicht im Vergleich zu einem alten Jahr.
  • Klarheit: Die unscharfen Grenzen (Fuzzy) werden ehrlich kommuniziert. Man weiß genau, woher die Einteilung kommt.

Kurz gesagt: Die Autoren haben ein Werkzeug gebaut, das aus einem chaotischen Datenberg einen klaren, überprüfbaren und fairen Spiegel der Uni-Kosten macht, ohne dabei die Nuancen der Realität zu verlieren.