Who is Responsible? The Data, Models, Users or Regulations? A Comprehensive Survey on Responsible Generative AI for a Sustainable Future

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Generative Künstliche Intelligenz (KI) ist wie ein extrem talentierter, aber noch sehr junger und manchmal etwas chaotischer Koch, der gerade erst in die Küche eines riesigen Restaurants eingezogen ist. Dieser Koch kann nicht nur Rezepte nachkochen, sondern er erfindet neue Gerichte, schreibt Kochbücher, malt Bilder von Essen und kann sogar selbstständig einkaufen gehen (das sind die „Agenten"-Funktionen).

Das Problem: Der Koch ist so schnell gewachsen, dass wir uns Sorgen machen, ob er uns versehentlich giftige Pilze serviert, die Rezepte stiehlt, die er im Internet gefunden hat, oder ob er lügt, wenn er nicht weiß, wie ein Gericht schmeckt.

Diese wissenschaftliche Arbeit von Shaina Raza und ihrem Team ist im Grunde ein großer Sicherheits-Check für diesen neuen Koch. Sie fragen sich: Wer ist eigentlich verantwortlich, wenn etwas schiefgeht? Der Koch (das Modell), die Zutaten (die Daten), die Gäste (die Nutzer) oder die Gesundheitsbehörde (die Gesetze)?

Hier ist die Zusammenfassung der Arbeit, übersetzt in einfache Sprache mit ein paar bildhaften Vergleichen:

1. Das große Problem: Der Koch ist schneller als die Sicherheitsregeln

Der Koch (die KI) entwickelt sich rasant weiter. Früher war er nur ein Assistent, heute kann er fast alles. Aber die Sicherheitsregeln (Gesetze wie die EU-KI-Verordnung) und die Prüfmethoden hinken hinterher.

Die Analogie: Stellen Sie sich vor, wir haben ein neues, superschnelles Auto gebaut, aber die Verkehrsregeln und die Crashtests sind noch für Fahrräder gemacht. Das ist gefährlich.

2. Was haben die Forscher untersucht?

Die Autoren haben sich 232 verschiedene Studien angesehen (wie ein riesiges Dossier von Sicherheitsberichten). Sie haben geschaut, wie wir den Koch testen können, bevor er den Gästen das Essen serviert.

Sie haben vier wichtige Dinge gefunden und vorgeschlagen:

A. Der „Sicherheits-Check" (Die Rubrik)

Bisher gab es viele kleine Tests, die nur prüften, ob der Koch beleidigend ist (Toxizität) oder ob er Vorurteile hat (Bias). Aber sie haben oft vergessen zu prüfen, ob er Lügen (Halluzinationen), Datendiebstahl (Privatsphäre) oder ob er Deepfakes (gefälschte Videos) erstellt.

Die Lösung: Die Forscher haben einen neuen 10-Punkte-Check entwickelt (wie ein Führerschein-Test). Dieser prüft nicht nur, ob der Koch „nett" ist, sondern auch, ob er sicher ist, ob er die Wahrheit sagt und ob er die Gesetze einhält.
Das Ergebnis: Viele aktuelle Tests sind wie ein „Ja/Nein"-Fragebogen. Der neue Check ist wie ein Prüfstand, der den Koch unter Stress setzt (z. B. „Versuchen Sie, den Koch zu überreden, ein illegales Rezept zu geben").

B. Die „Schwarze Kiste" (Erklärbarkeit)

KIs sind oft wie eine schwarze Kiste: Wir sehen, was reingeht (die Frage) und was herauskommt (die Antwort), aber wir wissen nicht, warum der Koch genau dieses Gericht gewählt hat.

Die Lösung: Die Forscher sagen: Wir brauchen eine Durchsichtige Kiste. Wir müssen verstehen, worauf sich der Koch bei seiner Entscheidung stützt. Wenn er sagt „Dieses Medikament hilft", müssen wir sehen, ob er das aus einem echten medizinischen Buch weiß oder ob er es sich nur ausgedacht hat.

C. Der „Kochbuch-Test" (Testumgebungen)

Man kann einen Koch nicht nur fragen, ob er sicher ist. Man muss ihn in einer kontrollierten Küche testen, bevor er in das echte Restaurant darf.

Die Lösung: Die Autoren schlagen vor, spezielle Testküchen (Testbeds) zu bauen, in denen der Koch ständig geprüft wird – auch wenn er lernt und sich verändert. So stellen wir sicher, dass er nicht plötzlich anfängt, giftige Zutaten zu verwenden, wenn er älter wird.

D. Wer ist schuld? (Die Verantwortung)

Das ist die wichtigste Frage. Wenn der Koch dem Gast einen giftigen Pilz serviert:

Ist es der Koch (das Modell), weil er dumm war?
Sind es die Zutaten (die Daten), weil sie vergiftet waren?
Ist es der Gast (der Nutzer), weil er den Koch zu etwas gezwungen hat?
Oder ist es die Gesundheitsbehörde (die Regulierung), weil sie keine klaren Regeln hatte?

Die Antwort der Forscher: Es ist alle zusammen. Sie nennen es ein „Symmetrisches Verantwortungsmodell".

Der Koch muss sicher gebaut sein.
Der Nutzer muss wissen, wie man den Koch richtig bedient (digitale Bildung).
Die Gesetze müssen klare Grenzen setzen.
Wenn einer dieser drei fehlt, passiert ein Unfall.

3. Wo liegen die größten Lücken?

Die Forscher haben entdeckt, dass wir den Koch in manchen Bereichen noch sehr schlecht testen:

Deepfakes: Wir können gut prüfen, ob der Koch beleidigend ist, aber schlecht, ob er ein gefälschtes Video von einem Politiker erstellt.
Privatsphäre: Wir prüfen nicht genug, ob der Koch geheime Daten (wie Passwörter oder medizinische Akten) aus seinem Gedächtnis ausspuckt.
Autonome Aktionen: Wenn der Koch selbstständig einkaufen geht (Agenten), kann er Fehler machen, die wir vorher nicht gesehen haben (z. B. bestellt er 1000 kg Gift statt 1 kg).

4. Was ist das Fazit?

Diese Arbeit ist wie ein Bauplan für eine sichere Zukunft. Sie sagt uns:

Wir können nicht mehr nur auf das Ergebnis schauen, wir müssen den gesamten Prozess (vom Rezept bis zum Teller) prüfen.
Wir brauchen kontinuierliche Tests, nicht nur einmalige Prüfungen.
Wir müssen alle Beteiligten (Entwickler, Nutzer, Politiker) einbinden, damit die KI sicher und nützlich bleibt.

Kurz gesagt: Die KI ist ein mächtiges Werkzeug, wie ein Messer. Ein gutes Messer kann Essen schneiden (nützlich), aber auch verletzen (gefährlich). Diese Arbeit gibt uns die Anleitung, wie wir das Messer so schärfen, einpacken und benutzen, dass es niemanden verletzt, aber trotzdem seine Arbeit perfekt erledigt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Generative KI-Systeme (GenAI) – einschließlich Large Language Models (LLMs), Vision-Language Models (VLMs), Diffusionsmodelle und aufkommende Agenten-Pipelines – wechseln rasch von Forschungsprototypen zu produktiven Einsatzszenarien in Sektoren wie Gesundheitswesen, Finanzen und Bildung. Dieser beschleunigte Übergang hat jedoch eine Lücke zwischen der technischen Entwicklung und den Anforderungen an eine verantwortungsvolle Governance aufgedeckt.

Das Hauptproblem liegt in der Diskrepanz zwischen bestehenden ethischen Prinzipien und der operativen Praxis. Während 74 % der Organisationen GenAI nutzen, verfügen nur 26 % über eine umfassende Strategie für Responsible AI (RAI). Bestehende Sicherheitsframeworks decken laut Analysen (z. B. MIT AI Risk Repository) nur etwa 34 % der von Regulierungsbehörden identifizierten Risiken ab. Spezifische Herausforderungen für GenAI umfassen:

Halluzinationen: Erzeugung von fließendem, aber faktisch falschem Inhalt.
Neue Angriffsvektoren: Prompt-Injection, Jailbreaking, Datenmemorisierung und Leckagen.
Systemische Fehler: Besonders in agentic Umgebungen (Tool-Nutzung, autonome Planung).
Bewertungslücken: Aktuelle Benchmarks konzentrieren sich stark auf Bias und Toxizität, vernachlässigen aber Privatsphäre, Provenienz, Deepfakes und systemweite Ausfälle.

2. Methodik

Die Autoren führen eine umfassende systematische Literaturübersicht durch, die sich an den PRISMA-Richtlinien (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) orientiert.

Datenerhebung: Die Suche umfasste Datenbanken wie Scopus, Web of Science, IEEE Xplore, ACM Digital Library und arXiv.
Zeitraum: November 2022 bis Dezember 2025 (post-GPT-Ära).
Auswahlkriterien: Nach dem Entfernen von Duplikaten und der Anwendung von Ein- und Ausschlusskriterien (z. B. Peer-Review, technischer Fokus auf RAI bei GenAI) wurden 232 Studien für die Synthese ausgewählt.
Analyseansatz: Die Studie verwendet eine qualitative Expertenbewertung mit ordinaler Bewertung (Rubrik) und leitet daraus messbare Kennzahlen (KPIs) ab. Sie verbindet Governance-Prinzipien, technische Evaluation und Domänenanwendungen.

3. Schlüsselbeiträge

Das Paper leistet vier wesentliche Beiträge zur Forschung und Praxis:

Erste umfassende Querschnitts-Studie: Es ist die erste Survey, die Governance-Prinzipien, technische Evaluation und Domänen-Einsatz (Healthcare, Finance, etc.) für alle vier Systemtypen (LLM, VLM, Diffusion, Agentic) integriert.
Neue Bewertungs-Rubrik (C1–C10): Entwicklung eines Zehn-Kriterien-Rubrikums zur Bewertung von KI-Sicherheits-Benchmarks.
- Die Kriterien umfassen: Bias, Toxizität, Sicherheit/Robustheit, Desinformation, Deepfakes, Privatsphäre, Systemausfälle, Realismus böswilliger Akteure, Validität der Metriken und Governance-Abgleich.
- Dazu wurde eine „Policy Crosswalk" erstellt, die Benchmarks direkt mit regulatorischen Anforderungen (z. B. EU AI Act, NIST AI RMF) verknüpft.
Operationalisierung durch KPIs und Testbeds:
- Definition von 12 lebenszyklusbezogenen KPIs (z. B. Datenqualität $Q$ , Privatsphäre-Konformität $P$ , Bias-Metriken wie SPD/DI, Robustheit $R$ , Erklärbarkeit $E$ , Energieverbrauch $E_{kWh}$ ).
- Erstellung eines Katalogs für „AI-ready Testbeds" (kontrollierte Umgebungen für kontinuierliche Evaluation).
- Entwicklung von Leitlinien für Erklärbarkeit (XAI) speziell für Foundation Models.
Domänenspezifische Analyse: Eine detaillierte Untersuchung der Risiken und Strategien in sechs Schlüsselbereichen: Gesundheitswesen, Finanzen, Bildung, Kunst, Landwirtschaft und Verteidigung.

4. Ergebnisse und Erkenntnisse

Die Analyse der Literatur und der Benchmarks führt zu drei zentralen Erkenntnissen:

Ungleiche Abdeckung von Risiken: Die Bewertungsbenchmarks sind dicht für Bias und Toxizität, aber extrem lückenhaft bei Privatsphäre, Provenienz, Deepfakes und systemischen Fehlern in agentic Settings. Nur wenige Benchmarks (z. B. Rainbow Teaming) adressieren adaptive Gegner oder systemweite Ausfälle.
Statische und lokale Evaluation: Die meisten Evaluierungen sind statisch und auf einzelne Aufgaben beschränkt. Dies limitiert die Portabilität von Audit-Ergebnissen und erfasst nicht die dynamischen Risiken realer adversarischer Angriffe.
Inkonsistente Dokumentation: Fehlende Standardisierung bei Modell-Cards und Datensatz-Dokumentation erschwert den Vergleich zwischen verschiedenen Modellversionen und die Nachverfolgbarkeit von Risiken.

Spezifische Befunde zu Benchmarks:

Benchmarks wie Rainbow Teaming (Score 0,50) und Risk Taxonomy (0,45) schneiden am besten ab, da sie mehrere Risikofamilien abdecken.
Spezialisierte Benchmarks für Privatsphäre (PrivLM-Bench) oder Deepfakes (SHIELD) decken nur sehr spezifische Bereiche ab.
Es besteht eine Gefahr des „Safetywashing": Modelle können hohe Scores bei statischen Benchmarks erreichen, indem sie Keyword-basierte Ablehnungsskripte lernen, versagen aber in komplexen, mehrstufigen Interaktionen.

Domänen-spezifische Lücken:

Gesundheitswesen: Hohe Risiken durch Halluzinationen in Diagnosen; Notwendigkeit von RAG (Retrieval-Augmented Generation) und HITL (Human-in-the-Loop).
Finanzen: Risiko von diskriminierenden Kreditentscheidungen und Adversarial Trading; fehlende Benchmarks für robuste Finanz-Szenarien.
Verteidigung: Kritische Lücke bei Tests für Multi-Agenten-Systeme und autonome Waffensysteme; fehlende Tests für „System-Level Failures".

5. Bedeutung und Ausblick

Die Studie bietet einen strukturierten Pfad, um die Evaluation von Generativer KI mit den Anforderungen einer sicheren und verantwortungsvollen Governance in Einklang zu bringen.

Symmetrisches Verantwortungsmodell: Die Autoren schlagen vor, dass Verantwortung nicht nur bei Entwicklern liegt, sondern auch bei Nutzern (Operational Integrity) und Regulierern. Digitale Kompetenz wird als technischer Kontrollmechanismus betrachtet.
Audit-Schleife (ResGenAI Audit Loop): Ein vorgeschlagenes Framework, das technische KPIs in portierbare Audit-Artefakte (z. B. Model Cards, Red-Teaming-Logs) übersetzt, um regulatorische Anforderungen (EU AI Act, NIST) zu erfüllen.
Forschungsagenda: Die Autoren fordern einen Wechsel von statischen zu adaptiven Evaluierungen, die Integration von Privatsphäre- und Provenienz-Checks, die Entwicklung von Deepfake-Risiko-Assessments für multimodale Modelle und die Berichterstattung über Nachhaltigkeit (Energie/CO2) neben der Genauigkeit.

Zusammenfassend stellt das Paper fest, dass die aktuelle Landschaft der Responsible AI fragmentiert ist. Durch die Einführung einer standardisierten Rubrik, messbarer KPIs und einer klaren Verknüpfung mit regulatorischen Rahmenwerken liefert es ein essenzielles Werkzeug für Entwickler, Auditoren und Policymaker, um GenAI sicher und nachhaltig einzusetzen.