Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen
Stellen Sie sich vor, Sie versuchen, die Leistung eines Schülers zu bewerten. In früheren Zeiten, wenn Sie einen Schüler aufforderten, ein Matheproblem zu lösen, erhielten Sie immer exakt dieselbe Antwort. Sie konnten ihm eine einfache Punktzahl geben: „10 von 10". So testeten wir früher Computersoftware. Wir baten Benutzer, einen Knopf zu drücken, und wenn es funktionierte, erhielten sie einen Punkt. Wenn nicht, dann nicht. Das System war vorhersehbar, wie ein Getränkeautomat, der Ihnen immer eine Limonade gibt, wenn Sie „A1" drücken.
Aber heute sind Computer anders. Sie nutzen Künstliche Intelligenz (KI). Eine KI ist kein Getränkeautomat; sie ist eher wie ein plaudernder, kreativer Freund. Wenn Sie Ihren Freund zweimal dieselbe Frage stellen, könnte er Ihnen je nach seiner Stimmung, der Tageszeit oder dem, worüber er gerade gesprochen hat, zwei leicht unterschiedliche Antworten geben.
Das Problem, so dieser Artikel, besteht darin, dass wir weiterhin versuchen, diesen „plaudernden Freund" mit den alten „Getränkeautomaten"-Tests zu bewerten. Das funktioniert nicht. Die alten Tests gehen davon aus, dass der Computer immer dasselbe tut, doch KI ist chaotisch, unvorhersehbar und verändert sich im Laufe der Zeit.
Um dies zu beheben, schlägt der Autor, Harish Vijayakumar, eine neue Methode vor, um zu messen, wie gut sich die Nutzung einer KI anfühlt. Er nennt sie ADUX-Stat. Anstatt eine einzelne Zahl zu vergeben, verwendet dieses neue System drei „Werkzeuge", um die Persönlichkeit der KI zu verstehen.
Hier ist die Funktionsweise der drei Werkzeuge, erläutert mit einfachen Analogien:
1. Das „Überraschungsmessgerät" (Interaktions-Entropie-Index)
Das Problem: Manchmal ist eine KI hilfreich und konsistent. Manchmal ist sie wild und unvorhersehbar. Wenn Sie einen Sprachassistenten nach dem Wetter fragen und er jedes Mal eine andere Antwort gibt, werden Sie frustriert.
Die Lösung: Dieses Werkzeug misst, wie sehr die KI Sie „überrascht".
- Niedrige Überraschung (Gut): Die KI verhält sich wie eine zuverlässige Bibliothekarin. Sie bitten um ein Buch, und sie reicht Ihnen immer das richtige.
- Hohe Überraschung (Schlecht oder chaotisch): Die KI verhält sich wie ein Zauberer, der zufällige Hasen aus einem Hut zieht. Manchmal ist es großartig, manchmal ist es Unsinn.
Dieses Werkzeug sagt nicht nur „es hat funktioniert"; es misst, wie stark sich das Verhalten der KI aus Ihrer Perspektive verändert.
2. Der „Zeitreise-Kompass" (Temporale Drift-Koeffizient)
Das Problem: KI ist nicht statisch. Sie lernt. Eine KI könnte beim ersten Kennenlernen schrecklich sein, aber mit jedem Gespräch klüger werden. Oder sie könnte zunächst großartig sein und sich langsam verschlechtern, während sie verwirrt wird.
Die Lösung: Dieses Werkzeug betrachtet die Leistung der KI über die Zeit, als würde man einen Film statt eines einzelnen Fotos ansehen.
- Positive Drift: Die KI wird besser, wie ein Schüler, der hart lernt und seine Noten Woche für Woche verbessert.
- Negative Drift: Die KI wird schlechter, wie ein Automotor, der nach einigen Monaten seltsame Geräusche macht.
Dies hilft uns zu erkennen, ob die KI ein „langsamer Lerner" oder ein „langsamer Verfallender" ist, was ein einzelner Test niemals verraten kann.
3. Die „Ehrlichkeitsblase" (Bayesscher Usability-Vertrauenswert)
Das Problem: Alte Tests geben Ihnen eine einzelne Zahl, wie „85 % Zufriedenheit". Doch diese Zahl wirkt zu präzise. Es ist, als würde man sagen: „Ich bin genau 1,78 Meter groß." In Wirklichkeit enthalten Messungen Fehler, und bei KI gibt es viel Unsicherheit.
Die Lösung: Dieses Werkzeug gibt Ihnen einen Bereich anstelle einer einzelnen Zahl. Es ist, als würde man sagen: „Ich bin wahrscheinlich zwischen 1,75 und 1,80 Meter groß."
- Es verwendet eine spezielle mathematische Methode (Bayessche Statistik), um einzugestehen: „Wir sind nicht zu 100 % sicher, aber hier ist der wahrscheinlichste Bereich."
- Wenn Sie nur wenige Daten haben, ist der Bereich breit (ehrlich bezüglich des Nichtwissens). Wenn Sie viele Daten haben, wird der Bereich enger (mehr Vertrauen).
Dies verhindert, dass wir so tun, als wüssten wir mehr, als wir tatsächlich wissen.
Wie sie es getestet haben
Der Autor hat dies noch nicht an echten Menschen getestet. Stattdessen führte er ein „Gedankenexperiment" durch. Er stellte sich vor, wie diese drei Werkzeuge bei fünf verschiedenen Arten von KI-Produkten funktionieren würden:
- Chatbots: Er sagte voraus, dass sie eine hohe „Überraschung" aufweisen würden, da sie viele verschiedene Dinge sagen können.
- Empfehlungsmaschinen (wie Netflix): Er sagte voraus, dass sie mit der Zeit besser werden würden („Positive Drift"), während sie Ihren Geschmack lernen.
- Formularausfüller: Er sagte voraus, dass sie eine niedrige „Überraschung" aufweisen würden, da sie lediglich bekannte Datenfelder ausfüllen.
Das Fazit
Der Artikel argumentiert, dass wir aufhören müssen, KI wie eine einfache Maschine zu behandeln. Wir benötigen neue Werkzeuge, die verstehen, dass KI unvorhersehbar ist, sich über die Zeit verändert und unsicher ist.
Der Autor gibt zu, dass dies nur eine neue Karte ist; er ist noch nicht mit echten Reisenden auf die Reise gegangen. Er hofft, dass Forscher in Zukunft diese drei Werkzeuge nutzen werden, um KI-Produkte tatsächlich mit echten Menschen zu testen, damit wir endlich die Erfahrung des Gesprächs mit einer Maschine so messen können, wie sie wirklich ist: ein dynamisches, sich entwickelndes Gespräch und kein festes Knopfdrücken.
Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?
Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.