Toward using Speech to Sense Student Emotion in Remote Learning Environments

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie eine Stimme verrät, wie es einem Schüler wirklich geht – Eine Reise in die Welt der Fernlern-Emotionen

Stellen Sie sich vor, Sie sind Lehrer in einem riesigen, leeren Hörsaal. Aber niemand sitzt da. Stattdessen sind die Schüler zu Hause, vor ihren Bildschirmen. Das Problem: In einem echten Klassenzimmer sehen Sie, wenn ein Schüler verwirrt ist, gelangweilt oder begeistert. Sie sehen das genervte Seufzen oder das strahlende Lächeln. In der digitalen Welt, wo jeder allein vor dem Laptop sitzt, sind diese Signale wie ein Radio, das nur Rauschen sendet. Die Emotionen sind unsichtbar.

Diese Forscher haben sich eine clevere Idee überlegt: Warum nicht die Stimme als „Emotions-Radar" nutzen?

Hier ist die Geschichte ihrer Entdeckungen, einfach erklärt:

1. Das Problem: Der stille Schüler

In der Fernlehre müssen Schüler oft Aufgaben lösen und sich selbst prüfen (das nennen die Forscher „Selbstkontroll-Aufgaben"). Früher schrieben sie das nur auf. Aber Text ist wie ein trockener Brief: Man kann darin kaum hören, ob jemand frustriert oder glücklich ist.
Die Forscher fragten sich: „Was wäre, wenn die Schüler stattdessen einfach in ihr Mikrofon sprechen, um ihre Antworten zu geben? Könnte man aus ihrer Stimme herauslesen, wie sie sich fühlen?"

2. Der Versuch: Die „Stimmen-Sammlung"

Um das herauszufinden, haben sie mit einer Schweizer Fernuni zusammengearbeitet.

Die Aufgabe: 56 Studenten mussten in einem Online-Kurs offene Fragen beantworten. Statt zu tippen, drückten sie auf einen roten Knopf und sprachen ihre Antwort.
Das Ergebnis: Sie sammelten fast 5 Stunden an Sprachaufnahmen. Das ist wie ein riesiger Eimer voller verschiedener Stimmen, die alle über ihre Lernfortschritte plaudern.
Die Herausforderung: Diese Aufnahmen waren nicht wie ein Theaterstück, wo Schauspieler laut schreien oder weinen. Es waren ganz normale, spontane Gespräche. Wie ein Gespräch am Küchentisch, nur über Mathe oder Informatik.

3. Die Detektive: Menschen hören zu

Bevor man Computer einsetzen kann, mussten die Forscher sicherstellen, dass in diesen Stimmen überhaupt Emotionen stecken.

Die Jury: Sie stellten sechs „Gehör-Experten" (Psychologen und Linguisten) zusammen.
Die Aufgabe: Diese Experten hörten sich die kleinen Sprachstücke an und bewerteten sie auf einer Skala von 1 bis 9.
- Valenz (Stimmung): Ist der Schüler fröhlich (9) oder traurig (1)?
- Arousal (Aufregung): Ist er ruhig wie ein See (1) oder aufgeregt wie ein Kaffeehüpfer (9)?
- Dominanz (Kontrolle): Fühlt er sich schwach und ohnmächtig (1) oder stark und selbstbewusst (9)?
Das Ergebnis: Ja! Die Experten konnten klare Unterschiede hören. Auch wenn die Schüler nur „normal" sprachen, enthielten ihre Stimmen messbare Signale von Freude, Stress oder Langeweile. Es war, als ob die Stimme eine unsichtbare Farbe trug, die man sehen konnte.

4. Der Roboter-Lernprozess: Der Computer lernt zu hören

Jetzt kam der spannende Teil: Können Computer das auch?
Die Forscher fütterten einen Computer mit diesen Daten. Sie gaben ihm zwei Arten von „Brillen" zu tragen:

Die klassische Brille: Der Computer analysierte technische Details der Stimme (wie die Tonhöhe, die Schnelligkeit und die Klangfarbe).
Die moderne KI-Brille: Der Computer nutzte eine riesige, vorgefertigte KI (wie ein Gehirn, das schon Millionen Stunden Sprache gehört hat), um Muster zu erkennen.

Das Ergebnis war beeindruckend:
Der Computer konnte die Gefühle der Schüler ziemlich genau vorhersagen! Besonders gut funktionierte es, wenn er beide Brillen gleichzeitig trug (die klassische Analyse + die moderne KI).

Er konnte sagen: „Aha, dieser Schüler klingt heute etwas gestresst (hohe Erregung) und unsicher (geringe Dominanz)."
Die Vorhersagen waren so gut, dass sie fast so präzise waren wie bei professionellen Schauspielern, die Emotionen absichtlich vortragen.

5. Warum ist das wichtig? Die Zukunft des Lernens

Stellen Sie sich vor, ein digitales Lernsystem könnte diese Technologie nutzen.

Szenario: Ein Schüler sitzt vor der Aufgabe, ist frustriert und würde gerne aufgeben.
Ohne Radar: Der Schüler gibt auf, niemand merkt es, und er lernt nichts.
Mit Radar: Das System „hört" die Frustration in der Stimme. Es denkt: „Oh, hier stimmt etwas nicht."
Die Reaktion: Das System könnte sofort eine sanfte Ermutigung senden, eine einfachere Erklärung anbieten oder dem Lehrer eine Nachricht schicken: „Schüler X braucht Hilfe."

Fazit

Diese Studie ist wie der Bau eines neuen Sensors für die digitale Bildung. Sie zeigt, dass wir nicht nur wissen, was ein Schüler antwortet, sondern auch fühlen können, wie es ihm dabei geht. Die Stimme ist der Schlüssel, um die einsamen Lernenden in der digitalen Welt wieder zu verbinden und das Lernen menschlicher und angenehmer zu machen.

Kurz gesagt: Die Forscher haben bewiesen, dass man aus dem „Gedudel" einer Lern-Aufgabe herauslesen kann, ob jemand glücklich, gestresst oder unsicher ist – und das sogar mit einem Computer. Das ist ein großer Schritt hin zu smarteren, mitfühlenderen Schulen von morgen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Der Fernunterricht (Remote Learning) findet häufig asynchron statt, was im Vergleich zum Präsenzunterricht zu einem Mangel an emotionalen Hinweisen (Cues) führt. Da Emotionen kognitive Funktionen wie Aufmerksamkeit und Problemlösung stark beeinflussen, ist deren Erkennung für ein effektives Lernen entscheidend.

Herausforderung: Bestehende Ansätze zur emotionalen Gestaltung von Lernumgebungen operieren oft auf abstrakter Ebene. Es fehlt an konkreten Studien, die spezifische Aufgabenarten in Online-Lernumgebungen untersuchen, insbesondere offene Antworten.
Text vs. Sprache: Während Texteingaben in Selbstkontrollaufgaben (Self-Control Tasks) möglich sind, tragen diese oft nicht genügend emotionale Information, da es sich um wissensbasierte Fragen handelt. Sprachaufnahmen könnten hier reichhaltigere emotionale Signale liefern.
Forschungsfrage: Kann spontane Monolog-Sprache, die von Studierenden als offene Antworten auf Selbstkontrollaufgaben erzeugt wird, verlässliche emotionale Variationen aufweisen, und können diese automatisch vorhergesagt werden?

2. Methodik

Datenerhebung und -aufbereitung (SPOT-ED Dataset)

Kontext: Daten wurden im Frühjahr 2021 an der Fernhochschule FFHS (Schweiz) in einem Projektmanagement-Kurs gesammelt.
Aufgabe: Studierende beantworteten offene Fragen und reflektierten ihre Antworten in Sprachaufnahmen innerhalb einer Moodle-Umgebung (ersetzt Texteingabe).
Datensatz: Insgesamt 815 Aufnahmen (4,7 Stunden) von 56 Studierenden.
Vorverarbeitung:
- Segmentierung der Aufnahmen in semantisch abgeschlossene Phrasen mittels Montreal Forced Aligner (MFA), basierend auf langen Pausen.
- Sentiment-Analyse der Transkripte (mittels BERT-Modell für Deutsch), um eine ausgewogene Verteilung positiver, negativer und neutraler Segmente sicherzustellen.
- Auswahl von 1.132 Sprach-Chunks für das finale Dataset namens SPOT-ED (SPoken Online Tasks - Emotions Database).

Subjektive Emotionsbewertung

Annotation: Sechs native Hörer (darunter Psychologen, Linguisten und Pädagogen) bewerteten die Daten.
Skala: Verwendung des Self-Assessment Manikin (SAM) auf einer 9-stufigen Skala für drei dimensionale Emotionsmerkmale:
- Valenz (positiv/negativ)
- Arousal (ruhig/erregt)
- Dominanz (schwach/stark)
Aggregation: Um die subjektive Varianz zu minimieren, wurde ein Evaluator Weighted Estimator (EWE) verwendet, der die Korrelation jedes Annotators zum Durchschnitt gewichtet.
Qualitätssicherung: Die Inter-Annotator-Übereinstimmung (Korrelation $r$ ) lag bei $\ge 0,6$ für alle Dimensionen, was mit etablierten Datenbanken wie VAM vergleichbar ist.

Automatische Emotionsvorhersage

Experimentelle Protokolle:
1. Speaker-dependent: Trainieren und Testen auf denselben Sprechern (5-Fold-Cross-Validation pro Sprecher).
2. Speaker-independent: Trainieren auf einer Sprechergruppe, Testen auf einer anderen (Leave-One-Speaker-Group-Out).
Feature-Repräsentation:
- Wissensbasiert: COMPARE-Feature-Set (aus OPENSMILE), enthält prosodische, spektrale und cepstrale Merkmale (6373 Dimensionen).
- Neuronale Embeddings: Pre-trained Self-Supervised Learning (SSL) Modelle: HUBERT-large, WAVLM-large und W2V2-MSP (feinabgestimmt auf MSP-PODCAST).
Modellierung: Support Vector Regression (SVR) mit Radial Basis Function Kernel. Es wurden sowohl einzelne Feature-Sets als auch Kombinationen auf Feature-Ebene getestet.

3. Wichtige Beiträge

SPOT-ED Datensatz: Erstellung eines einzigartigen Datensatzes mit spontaner Monolog-Sprache aus einem echten Fernlernkontext, der nicht durch künstliche Emotionsauslösung (wie Schauspieler oder Wizard-of-Oz-Setups) verzerrt ist.
Validierung der Emotionserkennung: Nachweis, dass spontane Lernantworten signifikante und für Menschen wahrnehmbare Variationen in den Dimensionen Valenz, Arousal und Dominanz aufweisen.
Methodische Integration: Demonstration, dass eine Kombination aus handgefertigten akustischen Features (COMPARE) und modernen SSL-Embeddings die Vorhersagegenauigkeit signifikant verbessert.
Transferierbarkeit: Analyse zeigt, dass bestimmte akustische Merkmale (z. B. spektrale Steigung) auch in diesem spezifischen Lernkontext ähnlich wie in Talk-Show-Datenbanken (VAM) für die Emotionsvorhersage relevant sind.

4. Ergebnisse

Subjektive Bewertung: Die annotierten Daten zeigen eine breite Verteilung über alle Emotionsdimensionen, was die Eignung des Datensatzes für die Forschung bestätigt. Die Inter-Annotator-Übereinstimmung ist hoch ( $r \ge 0,6$ ).
Automatische Vorhersage (Performance):
- Speaker-independent: Die Kombination aus COMPARE und W2V2-MSP erzielte die besten Ergebnisse.
  - Korrelation (Spearman/Pearson): Valenz $\approx 0,54/0,56$ , Arousal $\approx 0,63/0,65$ , Dominanz $\approx 0,74/0,74$ .
  - RMSE (Root Mean Square Error): Sehr niedrig (z. B. 0,060 für Valenz, 0,076 für Arousal).
- Vergleich: Die Kombination von Features übertraf alle Einzel-Feature-Systeme und verringerte die Leistungslücke zwischen speaker-dependent und speaker-independent Modellen.
- Feature-Analyse: Die spektrale Steigung (spectral slope) erwies sich als wichtigstes Merkmal für die Valenz-Vorhersage, ähnlich wie in anderen Korpora.

5. Bedeutung und Ausblick

Das Paper belegt, dass Sprach-basierte Selbstkontrollaufgaben ein viables Mittel sind, um Emotionen von Studierenden im Fernunterricht zu erfassen, ohne den Lernfluss zu unterbrechen.

Praktische Implikation: Dies ermöglicht die nahtlose Integration paralinguistischer Technologien in den Lernprozess. Die gewonnenen Daten können genutzt werden, um:
- Instruktionsdesign emotional ansprechender zu gestalten.
- Automatisiertes, persönliches Feedback für Lehrende und Lernende zu generieren.
- Frühzeitig emotionale Barrieren (z. B. Frustration, Desinteresse) zu erkennen.
Zukünftige Herausforderungen: Die Interpretation dieser emotionalen Schwankungen im Lernkontext und die Entwicklung von Strategien, wie diese Informationen konkret in pädagogische Entscheidungen einfließen können, bleiben offene Forschungsfragen.

Zusammenfassend stellt die Arbeit einen wichtigen Schritt hin zu einem datengestützten, emotional intelligenten Fernunterricht dar, der auf der Analyse natürlicher Sprachinteraktionen basiert.