Each language version is independently generated for its own context, not a direct translation.
Das Problem: Der „Fotokopier-Trick"
Stell dir vor, du spielst ein Quizspiel. Die Frage lautet: „Wo lebt dieses Tier?" und du siehst ein Foto eines Eisbären.
In den alten Quiz-Datenbanken (den sogenannten Benchmarks) war die Antwort fast immer direkt im Text zu finden, der genau über diesen Eisbären handelte.
Das Problem dabei: Die KI-Modelle waren nicht wirklich schlau. Sie haben einen „Fotokopier-Trick" (im Englischen „Visual Shortcut") benutzt.
- Wie es funktioniert: Die KI hat nicht wirklich gelesen, wo der Eisbär lebt. Sie hat einfach geguckt: „Aha, das Foto zeigt einen Eisbären. Der Text, der dazu passt, ist der über den Eisbären. Also muss die Antwort dort stehen."
- Die Folge: Die KI hat das Quiz gewonnen, aber sie hat nichts gelernt. Sie hat nur das Bild mit dem Text verknüpft, wie ein Kind, das immer nur die gleiche Antwort auf eine Frage gibt, ohne zu verstehen, warum.
Wenn man der KI dann ein Foto von einem Polarfuchs zeigt und fragt: „Was frisst dieser?", aber die Antwort steht im Text über den Eisbären (weil sie beide in der Arktis leben), dann scheitert die alte KI. Sie sucht verzweifelt nach einem Text über den Fuchs, findet aber nur den über den Eisbären und gibt auf.
Die Lösung 1: Ein neues, ehrliches Quiz (RETINA)
Die Forscher haben ein neues Quiz entwickelt, das sie RETINA nennen.
Stell dir vor, sie haben das Quiz so umgebaut, dass der „Fotokopier-Trick" nicht mehr funktioniert.
- Das Szenario: Die Frage lautet: „Welcher Käfer frisst diese Pflanze?" und das Foto zeigt eine Kartoffel.
- Die Falle: Die Antwort (der Name des Käfers) steht aber nicht im Text über die Kartoffel. Sie steht im Text über den Käfer selbst.
- Der Test: Die alte KI schaut auf das Bild der Kartoffel, sucht im Text über die Kartoffel, findet keine Antwort und scheitert. Das beweist: Sie hat bisher nur getrickst, nicht gedacht.
Um dieses neue Quiz zu erstellen, haben sie eine KI (einen „LLM") benutzt, die wie ein cleverer Bibliothekar arbeitet: Sie sucht in Wikipedia-Artikeln nach Verbindungen zwischen Dingen (z. B. „Kartoffel" und „Käfer"), erstellt daraus ein Quiz und sorgt dafür, dass das Bild und der Text nicht zu offensichtlich zusammenpassen.
Die Lösung 2: Der neue Detektiv (MIMIR)
Da die alten KIs bei diesem neuen, ehrlichen Quiz versagt haben, haben die Forscher einen neuen Detektiv namens MIMIR gebaut.
Stell dir vor, du suchst in einer riesigen Bibliothek nach einem Buch über einen bestimmten Käfer.
- Der alte Weg (Single-Image): Der Bibliothekar schaut sich nur das Buchcover an. Wenn das Cover nicht dem Bild auf deiner Frage entspricht, ignoriert er das Buch.
- Der neue Weg (MIMIR): MIMIR ist schlauer. Er weiß: „Wenn jemand nach einem Käfer fragt, der Kartoffeln frisst, dann ist das Buch über die Kartoffel vielleicht nicht das richtige, aber das Buch über den Käfer ist es!"
MIMIR macht folgendes:
- Er nimmt einen Text (z. B. über den Käfer).
- Er fügt diesem Text nicht nur ein Bild hinzu, sondern viele Bilder von Dingen, die mit dem Käfer zu tun haben (z. B. ein Bild der Kartoffel, ein Bild der Pflanze, die er frisst, ein Bild seines Lebensraums).
- Wenn du jetzt ein Foto einer Kartoffel hochlädst, erkennt MIMIR: „Aha! Das passt zu den Bildern, die ich dem Text über den Käfer angehängt habe!"
Dadurch kann er den richtigen Text finden, auch wenn das Bild auf deiner Frage nicht direkt das Hauptthema des Textes ist. Er verbindet die Welt der Bilder mit der Welt der Texte viel besser.
Zusammenfassung in einer Metapher
- Das alte System: Ein Schüler, der für eine Prüfung nur die Bilder aus dem Lehrbuch auswendig gelernt hat. Wenn die Frage ein Bild zeigt, das im Buch steht, gibt er die richtige Antwort. Wenn das Bild aber etwas anderes zeigt, das im Text erwähnt wird, weiß er nicht weiter.
- RETINA (Das neue Quiz): Ein Lehrer, der dem Schüler ein Bild von einem Apfel zeigt und fragt: „Was ist der Baum, auf dem dieser wächst?" Der Schüler muss jetzt wirklich nachdenken und den Text lesen, nicht nur das Bild erkennen.
- MIMIR (Der neue Schüler): Ein Schüler, der sich nicht nur das Hauptbild eines Kapitels ansieht, sondern auch alle kleinen Bilder im Rand (Apfel, Baum, Wurzeln, Schmetterlinge). Wenn er ein Bild von einem Apfel sieht, erinnert er sich sofort an das Kapitel über den Baum, weil er die Verbindung zwischen allen Bildern im Kopf hat.
Das Ergebnis: Die Forscher haben gezeigt, dass die bisherigen KI-Tests zu einfach waren und die KIs nur getrickst haben. Mit ihrem neuen Test (RETINA) und ihrem neuen Modell (MIMIR) haben sie einen Weg gefunden, KIs zu bauen, die wirklich verstehen, wie Bilder und Texte zusammenhängen – genau wie ein menschlicher Denker.
Erhalten Sie solche Paper in Ihrem Posteingang
Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.