Each language version is independently generated for its own context, not a direct translation.
Stell dir vor, du hast einen riesigen, dreistündigen Film vor dir. Jetzt kommt ein Freund und fragt dich: „Was hat der Schurke in Minute 47 genau gesagt?"
Das Problem bei den aktuellen KI-Modellen (den sogenannten Vision-Language-Modellen) ist, dass sie den Film nicht komplett sehen können. Sie bekommen nur ein paar zufällige Bilder (Frames) aus dem Film gezeigt, wie ein Stroboskop, das sehr schnell blinkt. Oft ist das Bild, in dem der Schurke spricht, einfach nicht dabei.
Das große Dilemma: Raten oder Ehrlichkeit?
In der bisherigen Welt der KI-Bewertung passierte Folgendes:
- Der Ehrliche: Wenn die KI merkt, dass das Bild fehlt, sagt sie: „Ich kann das nicht beantworten, das Bild ist nicht da." – Strafpunkte! Die Bewertungsmaschine sagt: „Falsch! Du hast die Frage nicht beantwortet."
- Der Rater: Die KI schaut sich die wenigen Bilder an, denkt sich etwas aus (oder nutzt ihr Allgemeinwissen) und rät: „Der Schurke hat ‚Hallo' gesagt." – Punkte! Auch wenn sie es nicht wusste, hat sie Glück gehabt und die richtige Antwort geraten.
Das ist wie bei einem Schüler in einer Prüfung, der die Hälfte der Fragen nicht sieht. Der ehrliche Schüler sagt: „Ich weiß das nicht, ich habe die Frage nicht gesehen." Der andere Schüler rät einfach. Wenn er Glück hat, bekommt er Punkte. Das System belohnt also das Raten und bestraft die Ehrlichkeit. Das führt dazu, dass KIs lernen, immer etwas zu sagen, auch wenn sie nichts wissen – sie werden zu „Lügnern", die nur gut aussehen wollen.
Die Lösung: VirtueBench (Der „Tugend-Test")
Die Forscher haben einen neuen Test namens VirtueBench erfunden. Das Ziel ist nicht mehr, zu sehen, wie gut die KI raten kann, sondern wie vertrauenswürdig sie ist.
Stell dir VirtueBench wie einen neuen, fairen Lehrer vor:
- Der Test: Der Lehrer zeigt dem Schüler (der KI) verschiedene Versionen eines Films. Mal nur 64 Bilder, mal 1024 Bilder.
- Die Regel: Wenn die entscheidenden Bilder fehlen, ist die richtige Antwort: „Ich kann das nicht sehen, ich antworte nicht."
- Die Bewertung:
- Wenn die KI ehrlich sagt: „Ich habe das Bild nicht gesehen", bekommt sie Punkte.
- Wenn sie trotzdem etwas erfindet (halluziniert), bekommt sie keine Punkte, auch wenn ihre Erfindung zufällig richtig ist.
Was haben sie herausgefunden?
Sie haben 25 verschiedene KIs getestet (sowohl kostenlose Open-Source-Modelle als auch teure kommerzielle wie von Google oder OpenAI). Die Ergebnisse waren aufschlussreich:
- Die „Rater": Viele KIs (wie LLaVA oder InternVideo) geben fast nie zu, dass sie etwas nicht wissen. Sie raten einfach immer weiter, auch wenn die Information fehlt. Ihre „Ehrlichkeits-Rate" liegt bei fast 0 %.
- Die „Ehrlichen": Einige stärkere Modelle (wie Gemini oder bestimmte Qwen-Modelle) sagen öfter: „Ich weiß es nicht." Ihre Rate liegt bei über 50–70 %.
- Der „Trick" der Anweisung: Das Interessanteste ist: Wenn man den KIs im Test nicht explizit sagt: „Sei bitte ehrlich, wenn du nichts siehst", dann hören fast alle auf, ehrlich zu sein. Sie fallen wieder in den alten Modus: „Ich muss ja eine Antwort geben!"
- Analogie: Es ist wie bei einem Kind. Wenn du sagst: „Wenn du die Aufgabe nicht kennst, sag einfach, dass du sie nicht kennst", dann ist es ehrlich. Sagst du nichts, dann versucht das Kind, die Antwort zu erfinden, um nicht dumm zu wirken.
Fazit
Die Botschaft der Forscher ist klar: Unsere aktuellen KI-Tests sind unfair. Sie belohnen KIs dafür, dass sie sich wie „Besserwisser" verhalten, die immer eine Antwort haben. VirtueBench will das ändern. Es will KIs fördern, die wissen, wann sie nichts wissen. Denn eine KI, die ehrlich sagt „Ich weiß es nicht", ist viel vertrauenswürdiger als eine, die dir mit glatter Lüge eine falsche Sicherheit vorgaukelt.
Kurz gesagt: Wir brauchen KIs, die nicht nur schlau sind, sondern auch bescheiden genug, um zuzugeben, wenn ihnen die Informationen fehlen.