Each language version is independently generated for its own context, not a direct translation.
Das große Missverständnis: „Mehr ist nicht immer besser"
Stell dir vor, du möchtest einen sehr klugen Roboter (einen KI-Modell) bauen, der Bilder versteht und darüber reden kann. Die aktuelle Annahme in der Tech-Welt war lange: „Wenn wir dem Roboter nur noch mehr Bilder und Texte zeigen, wird er von selbst schlau und kann alles verstehen."
Diese Studie sagt jedoch: „Nein, das funktioniert so nicht."
Das Problem liegt nicht daran, dass dem Roboter zu wenig Informationen fehlen, sondern daran, wie diese Informationen gesammelt wurden. Es ist ein Problem der Berichterstattung (im Englischen „Reporting Bias").
Die Analogie: Der Fotograf und der Reporter
Stell dir vor, du hast einen Fotografen, der Bilder macht, und einen Reporter, der die Bilder beschreibt.
Wie Menschen Bilder beschreiben: Wenn du ein Foto von einem Hund und einer Katze siehst, sagst du wahrscheinlich: „Ein Hund und eine Katze."
- Du sagst nicht: „Der Hund steht links von der Katze." (Das ist dir zu offensichtlich).
- Du sagst nicht: „Es gibt genau 37 Menschen im Hintergrund." (Das zählst du nicht).
- Du sagst nicht: „Der Hund wird gleich den Ball fangen." (Das ist eine Vermutung über die Zukunft).
- Du sagst nicht: „Hier ist kein Papagei." (Warum sollte man das erwähnen, wenn keiner da ist?)
Das Problem für den Roboter: Die KI lernt aus diesen Beschreibungen. Da die Menschen diese Details (Links/Rechts, Zählen, Zeit, Verneinungen) in ihren Beschreibungen fast immer weglassen, weil sie „selbstverständlich" oder „unnötig" wirken, lernt die KI nie, wie man diese Dinge tut.
Die KI denkt also: „Ah, Menschen erwähnen das nie. Also ist das wahrscheinlich nicht wichtig oder gar nicht vorhanden."
Was haben die Forscher herausgefunden?
Die Forscher haben drei große KI-Modelle untersucht (OpenCLIP, LLaVA, Molmo) und festgestellt:
- Die Daten sind riesig, aber leer: Die Trainingsdaten enthalten Milliarden von Bildern. Aber wenn man genau hinsieht, fehlen darin fast alle Informationen über Raum (wo ist was?), Zeit (was passiert wann?), Zählen (wie viele?) und Verneinung (was ist nicht da?).
- Mehr Skalen hilft nicht: Man könnte denken: „Okay, wir fügen einfach noch mehr Daten hinzu oder machen den Roboter noch größer." Die Studie zeigt: Das bringt nichts. Wenn die Grunddaten immer noch diese Lücken haben, wird ein riesiger Roboter mit riesigen Daten immer noch nicht besser im Zählen oder im Verstehen von „Links/Rechts". Es ist wie ein Koch, der nur mit Salz kocht – egal wie viele Töpfe er hat, er wird nie eine Suppe ohne Salz machen können.
- Sprache spielt keine Rolle: Selbst wenn man Daten aus vielen verschiedenen Sprachen nimmt und ins Englische übersetzt, passiert das Gleiche. Menschen in allen Sprachen lassen diese Details aus.
Die Lösung: Der „Gute Chef" (Anweisungen)
Wie löst man das Problem? Nicht durch mehr Daten, sondern durch bessere Anweisungen.
Stell dir vor, du bist der Chef des Reporters.
- Schlechter Chef: „Beschreibe das Bild." -> Der Reporter sagt: „Ein Hund."
- Guter Chef: „Beschreibe das Bild, aber sag mir genau, wo der Hund steht, wie viele Tiere da sind und ob etwas fehlt." -> Der Reporter sagt: „Ein weißer Hund steht links von zwei Katzen. Es gibt keinen Papagei."
Die Forscher haben gezeigt: Wenn man die Menschen (oder andere KIs), die die Daten erstellen, explizit anweist, diese Details zu erwähnen, passiert Magie. Die Daten füllen sich mit den fehlenden Informationen.
Das Fazit für die Zukunft
Die Studie lehrt uns eine wichtige Lektion:
Wir können nicht einfach darauf hoffen, dass KI durch „Zufall" und „Menge" schlau wird. Wir müssen absichtlich und gezielt Daten sammeln. Wir müssen den Menschen (und den KIs), die die Daten schreiben, genau sagen, was sie tun sollen, damit sie die „stillschweigenden" Dinge (wie Zählen oder räumliche Beziehungen) auch wirklich aufschreiben.
Kurz gesagt: Ein riesiger Haufen Daten bringt nichts, wenn in allen Daten die gleichen wichtigen Details fehlen. Man muss die Daten erst „richtig" füllen, bevor die KI wirklich schlau werden kann.
Erhalten Sie solche Paper in Ihrem Posteingang
Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.