MemX: A Local-First Long-Term Memory System for AI Assistants

Each language version is independently generated for its own context, not a direct translation.

🧠 Das Problem: Der vergessliche Assistent

Stell dir vor, du hast einen sehr klugen, aber extrem vergesslichen persönlichen Assistenten. Er ist genial darin, Fragen sofort zu beantworten, aber sobald du das Gespräch beendest, vergisst er alles.

Du sagst ihm: „Ich trinke nur Bio-Kaffee."
Nächster Tag: „Was soll ich zum Kaffee trinken?"
Er: „Ich weiß es nicht mehr."

Das ist das Problem, das MemX lösen will. Es ist ein System, das diesem Assistenten ein echtes Langzeitgedächtnis gibt – und zwar so, dass die Daten lokal auf deinem eigenen Computer bleiben (keine Cloud, keine fremden Server), damit deine Privatsphäre geschützt ist.

🛠️ Wie funktioniert MemX? (Die drei Magier)

Stell dir MemX nicht als einen einzigen riesigen Bücherregal vor, sondern als ein Team aus drei Spezialisten, die zusammenarbeiten, um die richtige Antwort zu finden.

1. Der „Bedeutungs-Scanner" (Vektor-Suche)

Dieser Spezialist versteht die Idee hinter deiner Frage.

Analogie: Wenn du fragst: „Wie repariere ich das undichte Rohr?", sucht er nicht nach dem Wort „Rohr". Er sucht nach Konzepten wie „Wasser", „Leck", „Reparatur". Er versteht die Bedeutung, auch wenn du andere Wörter benutzt.
Technik: Er nutzt moderne KI-Modelle, um deine Frage in eine Art „Gedanken-Code" zu verwandeln und vergleicht ihn mit dem Gedächtnis.

2. Der „Wort-Schnüffler" (Keyword-Suche)

Dieser Spezialist ist pedantisch und sucht nach exakten Wörtern.

Analogie: Wenn du nach einem spezifischen Projektnamen suchst, wie „Projekt Alpha 2024", ist der Bedeutungs-Scanner vielleicht verwirrt. Der Wort-Schnüffler sucht aber genau nach diesen Buchstabenkombinationen.
Der Trick: MemX nutzt eine super-schnelle Datenbank (FTS5), die wie ein extrem schneller Index funktioniert. Ohne diesen Index würde die Suche bei 100.000 Notizen 3 Sekunden dauern – mit dem Index dauert es nur noch 0,003 Sekunden. Das ist wie der Unterschied zwischen einem Schneckentempo und einem Lichtstrahl.

3. Der „Schiedsrichter" (Die Fusion)

Jetzt haben wir zwei Listen mit potenziellen Antworten. Der Schiedsrichter (ein Algorithmus namens RRF) mischt diese Listen intelligent zusammen.

Er gibt nicht nur dem „Bedeutungs-Scanner" oder dem „Wort-Schnüffler" recht, sondern kombiniert die Stärken beider. So findet er die beste Antwort, egal ob sie durch Bedeutung oder durch exakte Wörter gefunden wurde.

🛡️ Der Sicherheitsgürtel: „Wenn ich es nicht weiß, sage ich es"

Das Coolste an MemX ist seine Vorsicht. Viele KI-Systeme halluzinieren (erfinden Dinge), wenn sie unsicher sind. MemX hat eine Low-Confidence-Rejection-Regel (eine Regel für geringes Vertrauen).

Die Analogie: Stell dir vor, du fragst deinen Assistenten: „Wie heißt der Präsident von Mars?"
Ein normaler Assistent würde vielleicht etwas Erfinden, um nicht dumm zu wirken.
MemX schaut in sein Gedächtnis. Wenn die beste Antwort nur eine schwache Ahnung ist (unter einem bestimmten Schwellenwert), sagt er: „Ich habe dazu nichts gespeichert. Ich weiß es nicht."
Das verhindert, dass der Assistent Lügen verbreitet. Er zieht es vor, leere Hände zu zeigen, als eine falsche Antwort zu geben.

📊 Was haben die Forscher herausgefunden? (Die Ergebnisse)

Die Forscher haben MemX an zwei Arten von Tests unterzogen:

Der kleine Test (Alltagsszenario):
- Hier war MemX extrem gut. Bei 91 % der Fragen fand es sofort die richtige Antwort.
- Bei Fragen, auf die es keine Antwort gab, hat es sich fast immer zurückgehalten und nichts Falsches erfunden.
- Ergebnis: Es ist stabil und zuverlässig für den täglichen Gebrauch.
Der große Test (LongMemEval):
- Hier wurde MemX mit riesigen Mengen an Daten (über 200.000 Notizen) getestet.
- Wichtige Erkenntnis: Es kommt darauf an, wie man die Notizen speichert.
- Wenn man ganze Gespräche als einen Block speichert, ist die Suche schlecht.
- Wenn man die Gespräche in kleine, atomare Fakten zerlegt (z. B. „Ich mag Kaffee", „Ich mag Tee" statt „Ich mag Kaffee und Tee"), verdoppelt sich die Treffsicherheit!
- Lektion: Je feiner die Granularität (je kleiner die Bausteine), desto besser findet das System die Nadel im Heuhaufen.

🚀 Warum ist das wichtig?

Datenschutz: Alles bleibt auf deinem Laptop. Keine Daten gehen an Google oder OpenAI.
Geschwindigkeit: Dank der cleveren Datenbank-Technik ist die Suche blitzschnell, selbst bei riesigen Mengen an Daten.
Ehrlichkeit: Der Assistent lügt nicht, wenn er nichts weiß.

Zusammenfassend: MemX ist wie ein sehr ordentlicher, diskreter und extrem schneller Bibliothekar, der in deinem Keller wohnt. Er weiß genau, wo jedes Buch steht, versteht, wonach du suchst, und gibt dir nur dann ein Buch, wenn er zu 100 % sicher ist, dass es das richtige ist. Wenn er unsicher ist, sagt er einfach: „Ich habe das Buch nicht."

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) sind standardmäßig zustandslos über verschiedene Sitzungen hinweg. Ohne eine persistente Gedächtnisschicht können KI-Assistenten Benutzerpräferenzen, Projektkonventionen oder spezifische Kontextinformationen nicht zuverlässig über die Zeit hinweg speichern.

Lücke: Bestehende Retrieval-Augmented-Generation (RAG)-Systeme zielen meist auf große Dokumentenkorpora ab, nicht auf inkrementell wachsende, personalisierte Erinnerungen aus täglichen Interaktionen.
Herausforderung: Viele Lösungen setzen Cloud-Infrastrukturen voraus. Für lokale, datenschutzorientierte („Local-First") Assistenten fehlt jedoch ein System, das unter diesen Einschränkungen (Offline-Fähigkeit, Datenhoheit) eine stabile Erinnerungsfunktion bietet, die relevante Informationen findet, aber gleichzeitig das Risiko von „Halluzinationen" (falschen Erinnerungen bei nicht vorhandenen Daten) minimiert.

2. Methodik und Systemarchitektur

MemX ist ein in Rust implementiertes System, das auf libSQL (ein SQLite-Fork) und einer OpenAI-kompatiblen Embedding-API aufbaut. Es verfolgt vier Designprinzipien: Local-First-Einsatz, strukturelle Einfachheit, nachvollziehbare Suche und Stabilität vor maximalem Recall.

Die Such-Pipeline (Hybrid-Retrieval):

Embedding: Die Abfrage wird durch ein Embedding-Modell (Qwen3-0.6B, 1024-dim) in einen Vektor umgewandelt.
Parallele Erinnung (Recall):
- Vektor-Suche: Nutzt DiskANN (über libSQL-Erweiterungen) für semantische Ähnlichkeit.
- Schlüsselwortsuche: Nutzt FTS5 (Full-Text Search) für exakte Begriffsübereinstimmungen.
Fusion: Die Ergebnisse beider Pfade werden mittels Reciprocal Rank Fusion (RRF) zusammengeführt.
Re-Ranking: Eine vier-Faktoren-Bewertung gewichtet die Kandidaten neu:
- Semantische Ähnlichkeit (45 %)
- Aktualität (Recency, basierend auf last_retrieved_at, 25 %)
- Häufigkeit (Frequency, basierend auf retrieval_count, 5 %)
- Wichtigkeit (Importance, 10 %)
- Hinweis: Die Gewichtung wird durch Z-Score-Normalisierung und Sigmoid-Transformation skaliert.
Entfernung von Duplikaten: Zwei Ebenen (Inhalt und Tag-Signatur) verhindern, dass ähnliche Einträge die Top-Ergebnisse verdrängen.
Low-Confidence-Ablehnung (Rejection Rule): Ein kritischer Mechanismus zur Vermeidung von Halluzinationen. Wenn keine Schlüsselwörter gefunden wurden und die maximale Vektorähnlichkeit einen Schwellenwert $\tau$ (empfohlen: 0,50) unterschreitet, wird das Ergebnis als leer zurückgegeben.

Datenmodell:
Es gibt eine Trennung zwischen Access (explizites Ansehen von Daten) und Retrieval (Rückgabe als Suchergebnis). Nur Retrieval-Zähler fließen in die Ranking-Logik ein, um administrative Zugriffe nicht fälschlicherweise als Relevanz zu werten.

3. Wichtige Beiträge

Implementierung: Ein vollständiges, lokales Langzeitgedächtnis-System mit Hybrid-Retrieval und getrennter Verfolgung von Zugriff und Abruf.
Benchmark-Framework: Ein reproduzierbares Framework, das interne Suchfunktionen direkt aufruft (ohne HTTP-Overhead), Live-Embeddings verwendet und strukturierte JSON-Berichte generiert.
Empirische Validierung: Evaluation auf zwei Ebenen:
- Zwei benutzerdefinierte Szenarien (43 Abfragen) zur Überprüfung der Pipeline-Stabilität.
- Der LongMemEval-Benchmark (500 Abfragen, bis zu 220.349 Datensätze) zur Messung der Skalierbarkeit und Fähigkeiten.
Granularitätsstudie: Analyse des Einflusses der Speichergrenze (Session vs. Round vs. Fact-Level) auf die Suchqualität.

4. Ergebnisse

Leistung auf benutzerdefinierten Szenarien (43 Abfragen):

Trefferquote (Hit@1): 91,3 % im Standard-Szenario und 100 % im hoch-konfusen Szenario.
Miss-Handling: Das System lehnt nicht beantwortbare Abfragen konservativ ab (Miss-Empty-Rate von 50–75 %), was die Prävention von falschen Erinnerungen bestätigt.
Latenz: Dank FTS5 bleibt die End-to-End-Suche auch bei 100k+ Datensätzen unter 90 ms.

Leistung auf LongMemEval (500 Abfragen, bis 220k Datensätze):

Granularität: Die Speicherung auf Fakt-Ebene (atomare Aussagen) verdoppelt die Leistung im Vergleich zur Session-Ebene (Hit@5 steigt von 24,6 % auf 51,6 %; MRR von 0,183 auf 0,380).
Fähigkeiten:
- Wissensaktualisierung: Profitiert am meisten von der Fakt-Granularität (+44,8 pp).
- Zeitliche & Multi-Session-Reasoning: Bleiben herausfordernd (Hit@5 ≤ 43,6 %), da das System noch keine zeitliche Indizierung oder verknüpfende Mechanismen über Sitzungen hinweg besitzt.
Latenz-Optimierung: Der Ersatz von LIKE-Suchen durch FTS5 beschleunigt die Schlüsselwortsuche bei 100.000 Datensätzen um den Faktor 1.100 (von ~3,3s auf ~2,9ms).

Ablationsstudie:

Die Ablehnungsregel ist der einzige Faktor, der die Rate der falsch-positiven Ergebnisse bei nicht beantwortbaren Abfragen signifikant senkt.
Die Entfernung von Duplikaten verbessert die Ergebnisse bei strukturierten, getaggten Daten, kann aber bei reinen Fakten-Datensätzen ohne Tags den Recall verschlechtern.

5. Bedeutung und Fazit

MemX demonstriert, dass ein strukturell einfaches, lokal deploybares System stabile und nachvollziehbare Erinnerungen für KI-Assistenten bereitstellen kann.

Stabilität vs. Recall: Das System priorisiert die Vermeidung von Halluzinationen durch die Low-Confidence-Ablehnung, was für vertrauenswürdige lokale Assistenten entscheidend ist.
Skalierbarkeit: Die Kombination aus Vektor- und FTS5-Indexierung sowie die Aufteilung auf Fakt-Ebene ermöglicht effizientes Retrieval auch bei großen Datensätzen (>200k Einträge).
Grenzen: Die aktuellen Schwächen liegen im Multi-Topic-Reasoning und der zeitlichen Verknüpfung über Sitzungen hinweg.
Zukunft: Das System bietet eine solide Basis (v1), die durch zeitliche Indizierung, Graph-basierte Verknüpfungen und adaptive Deduplizierung erweiterbar ist, ohne die Architektur grundlegend ändern zu müssen.

Das Paper unterstreicht, dass für lokale KI-Assistenten nicht nur die reine Suchqualität, sondern auch die Kontrolle über falsche Erinnerungen und die Datenhoheit (Local-First) die primären Designziele sein sollten.