Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie testen die Sicherheit eines neuen Autos.

In den meisten Labors (den Sicherheits-Benchmarks) setzen Sie das Auto auf einen Prüfstand, lassen es nur geradeaus fahren und prüfen, ob es gegen eine Wand fährt. Das ist wie ein Multiple-Choice-Test: „Fährt das Auto links oder rechts?" Es ist sauber, einfach und kontrolliert.

Aber in der echten Welt (der Produktionsumgebung) wird das Auto nicht allein gelassen. Es bekommt einen Co-Piloten, einen Navigator und eine Flotte von anderen Autos, die ihm Anweisungen geben, bevor es losfährt. Das ist das, was die Forscher „Scaffolding" (Gerüstbau) nennen. Das KI-Modell ist das Auto, und das Gerüst ist die komplexe Umgebung, in der es tatsächlich arbeitet.

Hier ist die Geschichte, was die Forscher in dieser Studie herausgefunden haben, einfach erklärt:

1. Der große Unterschied: Der Prüfstand vs. die echte Straße

Die Forscher haben untersucht, ob diese „Co-Piloten" (das Gerüst) die KI sicherer oder unsicherer machen. Sie haben fast 63.000 Tests mit den neuesten KI-Modellen durchgeführt.

Das Überraschende war: Es kommt nicht darauf an, welchen Co-Piloten man nimmt, sondern wie man die Prüfung abnimmt.

Das Problem mit dem Multiple-Choice-Test: Wenn man der KI eine Frage stellt und sie nur eine von vier Antwortmöglichkeiten auswählen lassen muss (wie in der Schule), sieht sie sehr sicher aus.
Das Problem mit dem offenen Gespräch: Wenn man die KI aber bittet, die Antwort selbst zu formulieren (wie in einem echten Gespräch), rutscht die Sicherheitsbewertung plötzlich um 5 bis 20 Prozent nach unten.

Die Analogie: Stellen Sie sich vor, Sie testen einen Schauspieler.

Im Multiple-Choice-Test geben Sie ihm eine Liste mit drei Sätzen und sagen: „Sag den richtigen." Er wählt den harmlosen Satz. Er wirkt perfekt.
Im offenen Test sagen Sie: „Sag etwas über dieses Thema." Plötzlich findet er einen Weg, das Thema doch noch etwas unangenehm zu machen.
Die Studie zeigt: Der „Fehler" liegt oft nicht im Schauspieler (der KI), sondern daran, dass wir ihn im falschen Format testen.

2. Nicht alle Gerüste sind gleich (aber fast)

Die Forscher haben verschiedene Arten von „Co-Piloten" getestet:

Eine Methode, bei der die KI viele kleine Teile denkt und dann zusammenfügt („Map-Reduce"). Diese hat die Sicherheit tatsächlich verschlechtert.
Zwei andere Methoden haben die Sicherheit fast genauso gut gehalten wie das Modell allein.

Der Unterschied zwischen diesen Methoden war jedoch so klein, dass er in der Praxis kaum ins Gewicht fiel. Der wahre „Übeltäter" war also nicht das Gerüst selbst, sondern die Art der Fragestellung.

3. Kein Modell ist wie das andere

Ein weiterer wichtiger Punkt: Man kann nicht sagen „KI-Modell X ist immer sicher".
Es ist wie bei Sportlern: Ein Läufer ist vielleicht der Schnellste im Sprint, aber der Langstreckenläufer ist langsamer.

Bei einem bestimmten KI-Modell machte das Gerüst es sicherer.
Bei einem anderen Modell machte dasselbe Gerüst es unsicherer.

Das bedeutet: Man kann keine pauschalen Regeln aufstellen. Man muss jedes Modell in seiner spezifischen Umgebung testen.

4. Das Chaos der Rangliste

Am Ende haben die Forscher festgestellt, dass es unmöglich ist, eine einzige „Sicherheits-Note" für eine KI zu vergeben.
Wenn man die KI auf Test A prüft, ist sie auf Platz 1. Prüft man sie auf Test B, ist sie auf Platz 10. Die Reihenfolge ändert sich komplett.

Die Metapher:
Stellen Sie sich vor, Sie wollen die besten Fußballspieler der Welt finden.

Auf Test A (Schießen auf ein Tor) ist Spieler Müller der Beste.
Auf Test B (Kopfbälle) ist Spieler Schmidt der Beste.
Auf Test C (Torhüter) ist Spieler Weber der Beste.

Wenn Sie versuchen, eine einzige Liste zu machen, die alle Fähigkeiten zusammenfasst, funktioniert das nicht. Die Liste ist wertlos.

Das Fazit für den Alltag

Die Botschaft der Studie ist: Hören Sie auf, KI-Sicherheit nur mit einfachen Quizfragen zu testen.

Wenn Sie eine KI in der echten Welt einsetzen (z. B. als Chatbot für Kunden oder als Assistent für Ärzte), müssen Sie sie genau in diesem komplexen Umfeld testen. Eine einfache „Ja/Nein"-Frage sagt Ihnen nicht, ob das System in der echten Welt sicher ist. Man muss jedes System einzeln und in seiner echten Umgebung prüfen, denn es gibt keine universelle Sicherheitsgarantie.

Die Forscher haben alle ihre Daten und Werkzeuge unter dem Namen „ScaffoldSafety" veröffentlicht, damit andere diese komplexen Tests selbst durchführen können.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety" auf Deutsch:

Problemstellung

Derzeitige Sicherheits-Benchmarks für Large Language Models (LLMs) bewerten Modelle typischerweise isoliert, oft im Multiple-Choice-Format. In der realen Produktionsumgebung werden diese Modelle jedoch selten allein eingesetzt; sie sind in komplexe „Scaffolds" (Gerüste) eingebettet. Diese Scaffolds umfassen Mechanismen wie Reasoning-Traces (Schlussfolgerungsschritte), kritische Agenten (Critic Agents) und Delegations-Pipelines, die die Eingaben neu strukturieren.

Das zentrale Problem besteht darin, dass die Diskrepanz zwischen diesen isolierten Evaluierungsmethoden und den tatsächlichen Einsatzszenarien zu verzerrten Sicherheitsaussagen führen kann. Es ist unklar, inwiefern die Architektur dieser Scaffolds die gemessene Sicherheit beeinflusst und ob bestehende Benchmarks die reale Leistungsfähigkeit von Modellen in agentic Umgebungen korrekt abbilden.

Methodik

Die Autoren führen eine der größten kontrollierten Studien zu Scaffolding-Effekten auf der Sicherheit durch. Die Studie zeichnet sich durch folgende methodische Strenge aus:

Umfang: $N = 62.808$ Tests mit sechs fortschrittlichen Modellen (Frontier Models) und vier verschiedenen Bereitstellungs-Konfigurationen.
Design: Kombination aus vorregistrierten Protokollen (Pre-registration), Verblindung der Bewerter (Assessor Blinding), Äquivalenztests (Equivalence Testing) und einer Spezifikationskurven-Analyse (Specification Curve Analysis).
Vergleichsdesign: Der Fokus liegt auf dem Vergleich von Sicherheitsmetriken unter verschiedenen Scaffold-Architekturen (z. B. Map-Reduce) sowie dem Wechsel des Antwortformats (Multiple-Choice vs. Offene Antworten) bei identischen Testitems.

Hauptergebnisse

Einfluss des Scaffolding auf die Sicherheit:
- Die „Map-Reduce"-Scaffolding-Architektur führt zu einer messbaren Verschlechterung der Sicherheit (Number Needed to Harm, NNH = 14).
- Zwei von drei getesteten Scaffold-Architekturen bewahren die Sicherheit jedoch innerhalb praktisch relevanter Grenzen.
- Die Interaktion zwischen Modell und Scaffold ist hochgradig variabel: Die Effekte reichen über 35 Prozentpunkte in entgegengesetzte Richtungen. Ein Modell verschlechtert sich beispielsweise bei Sycophancy (Schmeichelei) um -16,8 pp, während ein anderes unter denselben Bedingungen um +18,8 pp verbessert wird. Dies widerlegt universelle Aussagen über die Sicherheit von Scaffolds.
Das Format-Problem (Format Bias):
- Der tiefgreifendste Befund ist, dass der Wechsel vom Multiple-Choice-Format zum offenen Antwortformat bei identischen Items die Sicherheitsscores um 5 bis 20 Prozentpunkte verschiebt.
- Dieser Effekt ist größer als der Einfluss irgendeiner Scaffold-Architektur.
- Innerhalb desselben Formats sind die Scaffold-Vergleiche unter Verwendung eines vorregistrierten Äquivalenzmargins von $\pm 2$ pp (TOST) konsistent mit praktischer Äquivalenz. Dies isoliert das Evaluierungsformat als die operative Variable, nicht die Scaffold-Architektur selbst.
Generalisierbarkeit und Zuverlässigkeit:
- Eine Generalisierbarkeitsanalyse ergibt einen G-Koeffizienten von 0,000.
- Die Sicherheits-Rankings der Modelle kehren sich über verschiedene Benchmarks hinweg vollständig um.
- Folge: Kein zusammengesetzter Sicherheitsindex (Composite Safety Index) erreicht eine von Null verschiedene Zuverlässigkeit. Es ist unmöglich, eine einzige Metrik zu erstellen, die die Sicherheit eines Modells universell beschreibt.

Wichtige Beiträge

ScaffoldSafety: Die Autoren stellen den gesamten Code, die Daten und die Prompts als Open-Source-Ressource „ScaffoldSafety" bereit.
Neue Evaluierungsstandards: Die Studie zeigt auf, dass die Wahl des Antwortformats (Multiple-Choice vs. Offen) einen größeren Einfluss auf die Messergebnisse hat als die technische Architektur der Deployment-Umgebung.
Widerlegung universeller Rankings: Durch den G-Koeffizienten von 0,000 wird nachgewiesen, dass globale Sicherheits-Rankings von Modellen irreführend sind.

Bedeutung und Implikationen

Die Arbeit hat weitreichende Konsequenzen für die KI-Sicherheitsforschung und -Regulierung:

Paradigmenwechsel in der Evaluierung: Da keine zuverlässigen aggregierten Sicherheitsindizes existieren, wird ein modell- und konfigurationsspezifisches Testen als notwendiger Mindeststandard etabliert. Es reicht nicht mehr aus, ein Modell einmal zu testen und die Ergebnisse zu verallgemeinern.
Kritik an aktuellen Benchmarks: Viele aktuelle Benchmarks, die auf isolierten Multiple-Choice-Fragen basieren, unterschätzen oder überschätzen die reale Sicherheit in agentic Umgebungen massiv, primär aufgrund des Formats und nicht wegen der eigentlichen Modellarchitektur.
Richtlinie für Entwickler: Sicherheitsbewertungen müssen spezifisch für den Einsatzkontext (Scaffold) und das Antwortformat erfolgen, um valide Aussagen über das Risiko in der Produktion treffen zu können.

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

1. Der große Unterschied: Der Prüfstand vs. die echte Straße

2. Nicht alle Gerüste sind gleich (aber fast)

3. Kein Modell ist wie das andere

4. Das Chaos der Rangliste

Das Fazit für den Alltag

Problemstellung

Methodik

Hauptergebnisse

Wichtige Beiträge

Bedeutung und Implikationen

Mehr davon

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem