TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, eine Universität ist wie eine riesige, alte Bibliothek mit Millionen von Büchern, Regeln, Kursbeschreibungen und historischen Dokumenten. Wenn Sie einen normalen KI-Chatbot (wie den ursprünglichen ChatGPT) fragen: „Was sind die Zulassungsvoraussetzungen für den Studiengang X?", antwortet er oft wie ein sehr gut ausgebildeter, aber etwas verwirrter Tourist. Er kennt die Welt im Allgemeinen, aber er hat nie diese spezifische Bibliothek betreten. Also erfindet er vielleicht eine Regel, die es gar nicht gibt, oder verwechselt die Universität mit einer anderen. Das kann für Studierende gefährlich sein.

Das Papier beschreibt TAMUSA-Chat, ein Projekt, das genau dieses Problem löst. Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Vergleichen:

1. Der „Schüler" und sein „Lehrbuch" (Domain Adaptation)

Stellen Sie sich den großen KI-Modell als einen genialen Schüler vor, der alle Bücher der Welt gelesen hat, aber nichts über die spezifischen Regeln der Texas A&M University in San Antonio (TAMUSA) weiß.

Das Problem: Wenn man ihn einfach fragt, antwortet er mit allgemeinen Fakten, die oft falsch sind, wenn es um spezifische Details geht.
Die Lösung (Feinabstimmung): Die Forscher haben diesem Schüler ein spezielles Lehrbuch gegeben, das nur aus den offiziellen Dokumenten der Universität besteht (Webseiten, PDFs, Handbücher). Sie haben ihn nicht neu unterrichtet, sondern ihn gezwungen, sich diese spezifischen Regeln zu merken.
Das Ergebnis: Der Schüler ist jetzt kein allgemeiner Experte mehr, sondern ein lokaler Spezialist. Er kennt die genauen Fristen, die richtigen Ansprechpartner und die aktuellen Regeln.

2. Der „Notizblock" und die „Quellenangabe" (RAG – Retrieval-Augmented Generation)

Selbst ein gut ausgebildeter Schüler kann manchmal Dinge vergessen oder sich irren. Deshalb hat TAMUSA-Chat einen zweiten Trick im Gepäck: Den „Notizblock".

Wie es funktioniert: Wenn ein Student eine Frage stellt, schaut der Chatbot nicht nur in sein Gedächtnis (das trainierte Modell), sondern schlägt sofort in den aktuellen offiziellen Dokumenten nach.
Die Analogie: Stellen Sie sich vor, der Chatbot ist ein Assistent, der bei jeder Antwort aufschreibt: „Ich habe das in diesem PDF auf Seite 12 gefunden."
Der Vorteil: Das verhindert „Halluzinationen" (das Erfinden von Fakten). Wenn die Antwort nicht im Notizblock steht, sagt der Bot ehrlich: „Ich weiß das nicht, bitte fragen Sie den menschlichen Berater." Das ist wie ein ehrlicher Bibliothekar, der niemals erfindet, sondern immer nachschlägt.

3. Der „Baukasten" (Modularität und Reproduzierbarkeit)

Früher waren solche KI-Systeme wie ein fertiges, versiegeltes Spielzeug: Man konnte es benutzen, aber nicht verstehen, wie es funktioniert oder was man ändern konnte.

TAMUSA-Chat ist wie ein offener LEGO-Baukasten.
Die Forscher haben jeden Schritt (Daten sammeln, Text bereinigen, Modell trainieren, Antworten generieren) in separate Module zerlegt.
Warum ist das toll? Andere Universitäten oder Forscher können genau sehen, wie die Teile zusammengebaut wurden. Sie können einen anderen „Kleber" (andere Trainingsmethoden) ausprobieren oder einen anderen „Baustein" (ein anderes KI-Modell) einfügen, ohne den ganzen Turm neu zu bauen. Das macht die Forschung wiederholbar und transparent.

4. Warum ist das wichtig? (Verantwortungsvolle KI)

Das Papier betont, dass man KI in einer Universität nicht einfach „einfach so" einsetzen darf. Es geht um Vertrauen.

Sicherheit: Der Bot weiß, welche Daten privat sind und welche öffentlich. Er wird nicht versehentlich die Sozialversicherungsnummer eines Studenten verraten.
Ehrlichkeit: Er gibt zu, wenn er unsicher ist.
Ethik: Die Forscher haben geprüft, ob der Bot Vorurteile hat (z. B. ob er bestimmte Gruppen benachteiligt), bevor er live ging.

Zusammenfassung

TAMUSA-Chat ist im Grunde ein KI-Assistent, der nicht aus dem Internet „gelernt" hat, sondern speziell für eine Universität „ausgebildet" wurde.

Er hat ein Gedächtnis, das auf den offiziellen Regeln der Universität basiert.
Er hat ein Nachschlagewerk, das er bei jeder Antwort konsultiert, um sicherzugehen.
Und er ist wie ein offenes Labor, damit andere Forscher lernen können, wie man solche Systeme sicher und fair baut.

Es ist der Unterschied zwischen einem Chatbot, der „vermutet", was die Regeln sind, und einem Chatbot, der die Regeln kennt und belegen kann.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment" auf Deutsch.

1. Problemstellung

Die Arbeit adressiert die Herausforderung, allgemeine Large Language Models (LLMs) für den Einsatz in spezifischen institutionellen Kontexten, insbesondere im Hochschulbereich, anzupassen.

Mangelnde Kontextualisierung: Off-the-shelf-Modelle, die auf allgemeinen Web-Korpora trainiert wurden, fehlen oft das Wissen über institutionsspezifische Richtlinien, Terminologien und Governance-Strukturen. Dies führt zu „Halluzinationen" (z. B. Erfinden nicht existierender Studiengänge) oder ungenauen Antworten auf nuancierte Fragen (z. B. Zulassungsvoraussetzungen basierend auf spezifischen Katalogjahren).
Risiko und Haftung: Der direkte Einsatz generischer Chatbots an Universitäten birgt Risiken durch Fehlinformationen, Datenschutzverletzungen und die Verstärkung gesellschaftlicher Vorurteile.
Forschungslücke: Bestehende Lösungen konzentrieren sich oft entweder auf reine Prompt-Engineering-Ansätze (die bei komplexen Anfragen instabil sind) oder auf das Training kompletter Modelle von Grund auf (was rechnerisch prohibitiv ist). Zudem fehlt es an reproduzierbaren, modularen Frameworks, die ethische Aspekte und Governance in den Entwicklungsprozess integrieren.

2. Methodik

TAMUSA-Chat ist ein Forschungsframework, das einen hybriden Ansatz verfolgt, der Supervised Fine-Tuning (SFT) mit Retrieval-Augmented Generation (RAG) kombiniert. Die Architektur ist in fünf funktionale Schichten unterteilt:

A. Datenerfassung und Vorverarbeitung (Data Acquisition & Processing)

Crawling: Nutzung von Playwright zum automatisierten Sammeln öffentlicher Inhalte von der TAMUSA-Website (HTML, PDF, Office-Dokumente). Der Crawler respektiert robots.txt, behandelt dynamische Inhalte und filtert Navigationselemente heraus.
Bereinigung: Entfernung von Duplikaten, Normalisierung von Text und Identifizierung von PII (Personenbezogene Daten) vor dem Training.
Datensatz-Erstellung: Transformation der Rohdaten in strukturierte JSON-Formate. Es werden Instruktions-Antwort-Paare generiert durch:
- Extraktion von FAQs.
- Template-basierte Fragegenerierung aus Inhalten.
- Synthetische Generierung mittels LLMs, gefolgt von menschlicher Validierung.
- Reformulierung zur Steigerung der Vielfalt.

B. Embedding und Retrieval (RAG)

Chunking: Dokumente werden in semantisch kohärente Blöcke (256–512 Tokens) unterteilt.
Vektorisierung: Nutzung von Sentence Transformers (z. B. all-MiniLM-L6-v2) zur Erzeugung dichter Vektoren.
Indexierung: Speicherung in einem FAISS-Index unter Verwendung von HNSW (Hierarchical Navigable Small World) für effiziente Approximate Nearest Neighbor-Suche.
Inferenz-Pipeline: Bei einer Benutzeranfrage wird die Query embedded, die relevantesten $k$ -Chunks (typischerweise 3) werden aus dem Index retrieved und als Kontext in den Prompt des LLMs eingefügt. Dies verankert die Antwort in verifizierbaren Quellen.

C. Modell-Feinabstimmung (Model Fine-Tuning)

Basis-Modelle: Evaluation verschiedener Open-Source-Modelle (LLaMA-2, Mistral, Falcon). Der Fokus liegt auf SmolLM-135M-Instruct, einem ultra-kompakten, instruktionsfeinabgestimmten Modell, das für hohe Effizienz auf Edge-Geräten und CPUs ausgelegt ist.
Training: Durchführung von Supervised Fine-Tuning (SFT) auf den institutionellen Datensätzen.
Techniken: Unterstützung für Full Fine-Tuning und Parameter-Efficient Fine-Tuning (z. B. LoRA).
Infrastruktur: Skalierbarkeit durch Integration mit High-Performance-Computing (HPC) Clustern (SLURM/PBS) und Unterstützung für verteiltes Training auf mehreren GPUs.

D. Deployment und Evaluation

Deployment: Unterstützung für FastAPI-REST-Services, Docker-Containerisierung und interaktive UIs (Gradio/Streamlit).
Evaluation: Kombination aus automatisierten Metriken und menschlicher Bewertung. Der Fokus liegt auf faktischer Genauigkeit, Vermeidung von Halluzinationen und ethischer Überprüfbarkeit.
Reproduzierbarkeit: Vollständige Versionierung von Trainings-Skripten, Konfigurationen (YAML) und Evaluationsprotokollen.

3. Wichtige Beiträge

Modulares Forschungsframework: TAMUSA-Chat bietet eine offene, modulare Architektur, die es Forschern ermöglicht, einzelne Komponenten (Embedding-Strategien, Fine-Tuning-Methoden, Retrieval-Mechanismen) unabhängig voneinander zu testen und zu optimieren.
Hybrider Ansatz (SFT + RAG): Die Kombination aus domain-spezifischem Fine-Tuning für den Sprachstil und RAG für faktische Genauigkeit adressiert das Problem der Halluzinationen effektiv, ohne die Kosten für das Training riesiger Modelle zu verursachen.
Fokus auf Responsible AI: Das Framework integriert Governance-Aspekte direkt in den Entwicklungsprozess, einschließlich PII-Filterung, Transparenz der Trainingsdaten, Bias-Monitoring und klaren Grenzen für autoritative Aussagen.
Open Source & Reproduzierbarkeit: Der vollständige Code, die Trainingsdaten-Strukturen und die Evaluationsmethoden sind öffentlich verfügbar (GitHub), was die wissenschaftliche Nachvollziehbarkeit und Zusammenarbeit fördert.
Empirische Einblicke: Die Arbeit liefert Erkenntnisse zur Effizienz der Domain-Adaptation bei kleinen Modellen (135M Parameter) und den Trade-offs zwischen Rechenressourcen und Leistung.

4. Ergebnisse und Korpus-Statistiken

Korpus: Der Datensatz basiert auf 3.847 gescrapten Webseiten und 412 Dokumenten (PDFs etc.).
Umfang: Nach Bereinigung enthält der Korpus ca. 2,4 Millionen Tokens.
Instruktionspaare: Es wurden 8.932 einzigartige Instruktions-Antwort-Paare generiert.
Modellleistung: Das System demonstriert, dass auch sehr kleine Modelle (SmolLM-135M) durch gezieltes SFT und RAG für spezifische institutionelle Aufgaben (z. B. Zulassungsfragen) effektiv adaptiert werden können, wobei die Genauigkeit durch den Retrieval-Mechanismus gesichert wird.

5. Bedeutung und Ausblick

TAMUSA-Chat stellt einen wichtigen Schritt dar, um den Einsatz von KI in Bildungseinrichtungen von reinen Prototypen hin zu verantwortungsvollen, governance-fähigen Systemen zu führen.

Für Institutionen: Es bietet einen Weg, kosteneffiziente, sichere und faktenbasierte Chatbots zu entwickeln, ohne auf proprietäre Black-Box-Modelle angewiesen zu sein.
Für die Forschung: Das Framework unterstreicht die Notwendigkeit von Transparenz, Modularität und ethischer Prüfung in der LLM-Entwicklung.
Zukünftige Arbeiten: Geplant sind weitere empirische Benchmarks, die Optimierung von RAG-Strategien und Tests zur adversarialen Robustheit (Sicherheit gegen gezielte Angriffe).

Zusammenfassend liefert das Paper nicht nur eine technische Implementierung, sondern ein ganzheitliches Paradigma für den verantwortungsvollen Einsatz von LLMs in spezialisierten, regulierten Umgebungen.