LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

Diese Studie bietet eine datengestützte, halbautomatische Übersicht über die Forschung zu den Grenzen großer Sprachmodelle (LLLMs) von 2022 bis Anfang 2025, die auf einer Analyse von 14.648 relevanten Arbeiten aus 250.000 ACL- und arXiv-Publikationen basiert und zeigt, dass sich der Anteil dieser Forschung stark erhöht hat, wobei Schlussfolgern die am intensivsten untersuchte Einschränkung bleibt.

Aida Kostikova, Zhipin Wang, Deidamea Bajri, Ole Pütz, Benjamin Paaßen, Steffen Eger

Veröffentlicht 2026-03-12
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, die Welt der Künstlichen Intelligenz (KI) ist eine riesige, rasante Baustelle. Seit 2022 bauen wir dort riesige, magische Bibliotheken – die sogenannten Large Language Models (LLMs). Diese Bibliotheken können fast alles: sie schreiben Gedichte, lösen Mathe-Aufgaben und simulieren Gespräche.

Aber wie bei jedem großen Bauprojekt gibt es auch hier Probleme. Die Mauern sind manchmal schief, das Dach undicht, und manchmal liefert die Bibliothek Bücher heraus, die gar nicht existieren.

Dieser wissenschaftliche Bericht ist wie ein großes, automatisiertes Inspektionsprotokoll, das von Forschern erstellt wurde, um genau zu verstehen, wo diese KI-Bibliotheken hängen bleiben. Hier ist die Geschichte davon, einfach erklärt:

1. Der riesige Haufen an Papieren

Die Forscher mussten sich durch einen gewaltigen Berg an wissenschaftlichen Artikeln wühlen (250.000 Stück!). Das ist wie der Versuch, alle Fehler in einer Millionen-Seiten-Enzyklopädie zu finden, indem man sie nur mit bloßem Auge durchblättert – unmöglich!
Also haben sie einen KI-Roboter (einen anderen KI-Modell) als Assistenten eingesetzt. Dieser Roboter hat den Berg durchsucht, nach Schlüsselwörtern gefiltert und die relevanten 14.648 Artikel herausgepickt, die sich speziell mit den Fehlern der KI befassen.

2. Was sind die größten Baustellen?

Der Bericht sortiert die Fehler in verschiedene Kategorien, wie ein Handwerker, der seine Werkzeuge sortiert:

  • Das „Sinn-Verstehen"-Problem (Reasoning): Das ist der häufigste Fehler. Die KI kann oft nicht logisch denken. Es ist, als würde jemand ein Rezept lesen, aber nicht verstehen, dass man Eier vor dem Backen schlagen muss. Sie verheddern sich in komplexen Gedankengängen.
  • Die „Halluzinationen": Die KI erfindet Fakten. Sie ist wie ein sehr überzeugender Lügner, der Dinge behauptet, die einfach nicht wahr sind, aber so sicher klingt, dass man sie glaubt.
  • Die „Vorurteile" (Bias): Die KI lernt aus menschlichen Texten und übernimmt daher auch unsere Vorurteile. Sie kann diskriminierend sein, genau wie ein Mensch, der nur eine sehr einseitige Zeitung liest.
  • Die „Sicherheitslücken": Es gibt Hacker, die die KI austricksen (z. B. durch „Jailbreaking"), damit sie Dinge sagt, die sie eigentlich nicht sagen darf. Das ist wie ein Schloss, das sich leicht mit einem Haarklemmchen öffnen lässt.

3. Der Wandel der Stimmung (2022 bis 2025)

Der Bericht zeigt eine spannende Entwicklung:

  • Anfang (2022): Alle waren nur begeistert. „Schau mal, was die KI kann!" Es gab viel Lob, aber wenig Kritik.
  • Heute (2025): Die Stimmung hat sich gewandelt. Die Forscher sind kritischer geworden. Der Anteil der Artikel, die sich mit den Fehlern der KI befassen, ist explodiert. Fast jeder dritte Artikel über KI handelt nun davon, wo die KI versagt.
  • Der Trend: Während früher alles über „Logik" und „Wissen" geredet wurde, rücken jetzt Themen wie Sicherheit und Kontrolle in den Vordergrund. Die Welt fragt nicht mehr nur „Kann sie das?", sondern „Ist es sicher, sie das tun zu lassen?".

4. Zwei verschiedene Blickwinkel

Die Forscher haben ihre Daten mit zwei verschiedenen Methoden analysiert (wie mit zwei verschiedenen Brillen):

  1. Die „Dichte-Brille" (HDBSCAN): Gruppiert Artikel, die sich sehr ähnlich sind.
  2. Die „KI-Brille" (LlooM): Lässt eine KI die Artikel lesen und kategorisieren.

Obwohl die Methoden unterschiedlich sind, kamen sie zu den gleichen Hauptergebnissen. Das gibt uns Sicherheit: Die großen Probleme (Logik, Halluzinationen, Sicherheit) sind wirklich da und werden ernsthaft untersucht.

5. Was bedeutet das für uns?

Die Botschaft ist klar: Die KI ist kein fertiges Wunderwerk, sondern ein wachsendes Kind, das noch viel lernen muss.

  • In der Wissenschaft: Die Forscher sind wachsam. Sie schauen genau hin, wo die KI hakt.
  • In der Praxis: Das ist gut für uns. Denn bevor wir KI in Krankenhäusern, Gerichten oder Schulen einsetzen, müssen wir wissen, wo sie Fehler macht. Der Bericht sagt uns: „Achtung, hier ist die KI noch unsicher!"

Zusammenfassend:
Dieser Bericht ist wie ein wichtiger Gesundheitscheck für die KI-Industrie. Er zeigt uns, dass wir nicht nur auf die Stärken der KI schauen dürfen, sondern dass wir ihre Schwächen genau verstehen müssen, damit sie eines Tages sicher und zuverlässig für uns arbeiten kann. Die Forschung hat sich von „Wow, das ist cool!" zu „Okay, aber wo genau klemmt es?" entwickelt.