Evaluation of LLMs in retrieving food and nutritional context for RAG systems

Die Studie zeigt, dass Large Language Models in RAG-Systemen zwar effektiv natürliche Sprachabfragen in strukturierte Metadatenfilter für den Zugriff auf Ernährungsdaten übersetzen können, jedoch bei komplexen Fragen mit nicht explizit darstellbaren Einschränkungen an ihre Grenzen stoßen.

Maks Požarnik Vavken, Matevž Ogrinc, Tome Eftimov, Barbara Koroušic Seljak

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungspapiere, als würden wir sie über einen Kaffee in Ljubljana besprechen.

Das große Problem: Der riesige, unordentliche Kühlschrank

Stell dir vor, du hast einen riesigen Kühlschrank (die Datenbank), der mit 32.000 verschiedenen Lebensmitteln gefüllt ist. Jeder Tupperdose, jeder Packung und jedem Stück Käse ist ein riesiges Etikett angeheftet, das genau sagt: „Enthält 26g Protein, 300 Kalorien, wenig Zucker" usw.

Das Problem ist: Niemand kann diesen Kühlschrank öffnen und die Etiketten lesen, ohne eine Schulung in „Datenbank-Sprache" zu haben. Ein Ernährungsberater oder ein Koch muss wissen, wie man komplizierte Suchbefehle tippt, um genau das zu finden, was er braucht. Das ist wie der Versuch, eine Nadel in einem Heuhaufen zu finden, indem man den Heuhaufen mit einem Mikroskop durchsucht – es dauert ewig und ist frustrierend.

Die Lösung: Der super-intelligente Übersetzer (LLM)

Die Forscher vom Institut „Jožef Stefan" in Slowenien haben eine Lösung gebaut: Ein RAG-System (Retrieval-Augmented Generation).

Stell dir das System wie einen persönlichen Assistenten vor, der zwischen dir und dem Kühlschrank steht.

  1. Du sprichst natürlich: Du sagst einfach: „Zeig mir alle Lebensmittel, die mehr als 12 Gramm Protein haben."
  2. Der Assistent (die KI) übersetzt: Die Künstliche Intelligenz (LLM) nimmt deinen Satz und verwandelt ihn in eine präzise Liste von Regeln für den Kühlschrank: „Filter: Protein > 12g".
  3. Der Kühlschrank öffnet sich: Das System sucht sofort nur in den relevanten Fächern und gibt dir die perfekte Liste zurück.

Was haben die Forscher getestet?

Sie wollten herausfinden: Wie gut ist dieser Assistent?

Sie haben vier verschiedene „Super-Intelligenzen" (die Modelle von Google, OpenAI, Anthropic und Mistral) getestet und ihnen 150 verschiedene Fragen gestellt. Die Fragen waren in drei Schwierigkeitsstufen unterteilt:

  1. Leicht (Der Spaziergang):

    • Frage: „Was hat viel Fett?"
    • Ergebnis: Perfekt! Alle KIs waren zu 99,9% richtig. Sie haben den Kühlschrank sofort geöffnet und genau das Richtige herausgeholt. Das funktioniert reibungslos.
  2. Mittel (Der Wanderweg):

    • Frage: „Was hat wenig Zucker, gehört zur Gruppe ‚Fisch' und hat mehr als 10g Protein?"
    • Ergebnis: Sehr gut! Auch hier waren die KIs fast fehlerfrei. Sie konnten mehrere Regeln gleichzeitig im Kopf behalten und anwenden.
  3. Schwer (Der Kletterberg):

    • Frage: „Was hat mehr Protein als Cholesterin?" oder „Was hat die Summe aus Protein und Fett größer als 80g?"
    • Ergebnis: Hier wird es knifflig. Die KIs stolperten. Warum? Weil der Kühlschrank (die Datenbank) nur nach festen Regeln filtern kann (z. B. „Protein > 12"). Er kann aber keine Vergleiche zwischen zwei Werten auf einem Etikett anstellen (z. B. „Ist A größer als B?").
    • Wenn die KI merkt, dass sie den Befehl nicht genau in eine Regel umwandeln kann, versucht sie einen „Notfallplan": Sie sucht einfach nach ähnlichen Wörtern. Das funktioniert, ist aber ungenau. In diesem schwierigen Bereich lagen die Erfolgsquoten nur noch bei etwa 40–45%.

Die wichtigsten Erkenntnisse (in Metaphern)

  • Der Assistent ist ein Genie für einfache Dinge: Wenn du klare, direkte Fragen stellst, ist die KI ein Wunderwerk. Sie spart Ernährungsexperten Stunden an manueller Arbeit. Man muss kein Programmierer sein, um die Datenbank zu nutzen.
  • Der Assistent hat eine „Grenze des Verstehens": Wenn die Frage zu komplex ist und logisches Vergleichen erfordert, das die Datenbank nicht direkt unterstützen kann, verliert die KI den Faden. Es ist, als würde man einen Übersetzer bitten, ein Gedicht zu übersetzen, das in einer Sprache geschrieben ist, die der Empfänger gar nicht kennt.
  • Die Sprache spielt keine Rolle: Überraschenderweise funktionierte das System hervorragend, obwohl alle Tests auf Slowenisch durchgeführt wurden. Die KIs haben die Sprache der Ernährung und die Datenbank-Regeln verstanden, ohne dass sie extra dafür trainiert wurden. Das zeigt, wie mächtig diese modernen KIs sind.

Fazit

Die Forscher sagen im Grunde: „Wir haben einen Schlüssel gebaut, der fast jeden Türschloss öffnet."

Für einfache und mittlere Fragen ist dieser Schlüssel (die KI) perfekt. Er macht komplexe Daten für jeden zugänglich. Aber wenn die Tür ein sehr kompliziertes, mechanisches Schloss hat (sehr komplexe Fragen), braucht es noch mehr Forschung, damit der Schlüssel nicht mehr klemmt.

Für Ernährungsberater und Köche bedeutet das: Sie können ab jetzt ganz einfach mit ihrer Datenbank sprechen, solange sie nicht zu knifflige mathematische Rätsel stellen.