The science and practice of proportionality in AI risk evaluations

Der Artikel untersucht, wie das im EU-Recht verankerte Prinzip der Verhältnismäßigkeit genutzt werden kann, um wissenschaftliche Methoden für die Risikobewertung von allgemeinen KI-Modellen zu entwickeln, die sowohl aussagekräftige Sicherheitsdaten liefern als auch die Innovationsfähigkeit der Anbieter durch übermäßige Belastungen nicht gefährden.

Carlos Mougan, Lauritz Morlock, Jair Aguirre, James R. M. Black, Jan Brauner, Simeon Campos, Sunishchal Dev, David Fernández Llorca, Alberto Franzin, Mario Fritz, Emilia Gómez, Friederike Grosse-Holz, Eloise Hamilton, Max Hasin, Jose Hernandez-Orallo, Dan Lahav, Luca Massarelli, Vasilios Mavroudis, Malcolm Murray, Patricia Paskov, Jaime Raldua, Wout Schellaert

Veröffentlicht Thu, 12 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

🛡️ Der Goldene Mittelweg: Wie man KI-Risiken prüft, ohne den Erfinder zu erdrücken

Stell dir vor, die Europäische Union (EU) ist wie ein strenger, aber fairer Hausmeister, der ein riesiges, neues Hochhaus (die KI-Technologie) bewacht. Das Haus ist fantastisch, bringt Licht und Wärme für alle, aber es gibt auch ein paar gefährliche Ecken, in denen etwas schiefgehen könnte.

Der Hausmeister hat eine neue Regel aufgestellt: Jeder, der ein besonders mächtiges System baut, muss prüfen, ob es gefährlich ist.

Das Problem? Wenn der Hausmeister sagt: „Prüf das! Prüf das! Prüf das!", könnte der Erfinder so viel Zeit und Geld in die Prüfung stecken, dass er gar keine Zeit mehr hat, das Haus weiter zu verbessern. Das wäre wie wenn man einen Schmetterling mit einem Vorschlaghammer untersucht, nur um sicherzugehen, dass er nicht fliegen kann.

Der Artikel von Mougan und Kollegen schlägt nun vor, wie man das Prinzip der Verhältnismäßigkeit anwendet. Das ist ein juristischer Begriff, den wir uns aber ganz einfach vorstellen können: Die Prüfung muss zur Gefahr passen.

Hier sind die drei Schritte, wie das funktioniert:

1. Ist die Prüfung sinnvoll? (Die „Geeignetheit")

Stell dir vor, du willst prüfen, ob ein Auto sicher ist.

  • Unpassend: Du prüfst, ob das Auto auf dem Mond fahren kann. Das ist zwar eine Prüfung, aber sie sagt uns nichts über die Sicherheit auf der Straße.
  • Passend: Du fährst das Auto bei Regen und Nebel. Das ist realistisch.

Die Autoren sagen: Eine KI-Prüfung muss realistisch, sensibel, spezifisch und streng sein.

  • Realistisch: Die Prüfung muss so aussehen wie die echte Welt (nicht nur im Labor).
  • Sensibel: Sie muss kleine Verbesserungen oder Verschlechterungen merken.
  • Spezifisch: Sie muss genau das prüfen, was gefährlich sein könnte (z. B. Hacken, nicht ob die KI gut Gedichte schreibt).
  • Streng: Die Methode muss wissenschaftlich sauber sein.

2. Ist die Prüfung notwendig? (Der „Vergleich")

Hier kommt der Vergleich ins Spiel. Stell dir vor, du hast drei verschiedene Werkzeuge, um einen Nagel in die Wand zu schlagen:

  1. Ein kleiner Hammer (wenig Aufwand, aber vielleicht nicht stark genug).
  2. Ein großer Sledgehammer (sehr stark, aber du zerstörst die Wand).
  3. Ein elektrischer Nagler (perfekt, aber teuer).

Die Frage ist: Muss ich wirklich den elektrischen Nagler benutzen?
Wenn der kleine Hammer ausreicht, um den Nagel sicher zu setzen, dann ist der elektrische Nagler nicht notwendig. Er wäre eine Verschwendung von Ressourcen.
In der KI-Welt bedeutet das: Man muss prüfen, ob es eine einfachere Methode gibt, die genauso gut funktioniert. Wenn ja, dann muss man die einfachere Methode wählen. Man soll nicht mit dem Sledgehammer auf eine Nuss schlagen.

3. Das Gleichgewicht (Die „Abwägung")

Jetzt müssen wir die Waage in die Hand nehmen.

  • Die Waage: Auf der einen Seite liegt das Risiko (Wie schlimm wäre es, wenn die KI etwas Falsches tut?). Auf der anderen Seite liegt die Last (Wie viel Geld, Zeit und Ärger kostet die Prüfung?).

Wenn das Risiko klein ist (z. B. eine KI, die nur Rezepte vorschlägt), darf die Prüfung nicht teuer und aufwendig sein.
Wenn das Risiko riesig ist (z. B. eine KI, die Cyberangriffe planen könnte), dann darf die Prüfung sehr aufwendig sein, auch wenn sie den Entwickler nervt.

Der clevere Trick: Man fängt klein an!
Stell dir vor, du hast einen neuen Sicherheitsalarm.

  1. Zuerst machst du einen einfachen Test: Klingt die Sirene, wenn du die Tür öffnest? (Günstig, schnell).
  2. Wenn das funktioniert, ist gut.
  3. Wenn es nicht funktioniert oder du unsicher bist, machst du einen härteren Test: Simuliere einen Einbrecher.
  4. Wenn das immer noch nicht reicht, baust du eine komplette Übungssimulation.

Man steigt also erst in die leichte Prüfung ein. Nur wenn die Gefahr groß erscheint, wird die Prüfung härter und teurer. Das nennt man einen iterativen Ansatz.


🧪 Ein konkretes Beispiel: Der Hacker-Test

Der Artikel gibt ein Beispiel: Wie prüft man, ob eine KI helfen kann, Computer zu hacken?

Es gibt drei Methoden:

  1. Methode A (Der einfache Test): Man gibt der KI den Code und sagt ihr genau, wo die Schwachstelle ist. Das ist wie ein Quiz, bei dem die Antwort schon auf dem Tisch liegt. Es ist billig und schnell. Wenn die KI das nicht schafft, ist sie sicher. Aber wenn sie es schafft, wissen wir nicht, ob sie es im echten Leben auch kann.
  2. Methode B (Der realistische Test): Man gibt der KI keine Hinweise. Sie muss selbst suchen. Das ist aufwendiger, aber aussagekräftiger.
  3. Methode C (Der Super-Test): Man baut eine ganze simulierte Welt nach, in der die KI versuchen muss, ein ganzes Netzwerk zu knacken. Das ist extrem teuer und braucht viel Rechenleistung.

Die Lösung nach dem Prinzip der Verhältnismäßigkeit:

  • Wenn die KI noch klein und harmlos ist, reicht Methode A.
  • Wenn die KI sehr mächtig ist und viele Leute nutzen, reicht A nicht mehr. Dann muss man zu Methode B oder sogar C übergehen.
  • Niemand zwingt den Entwickler, sofort Methode C zu machen, wenn Methode A schon zeigt, dass die KI sicher ist.

🚀 Was bedeutet das für die Zukunft?

Die Autoren sagen: Wir brauchen mehr Wissenschaft, um diese Waage genau zu kalibrieren. Wir müssen besser verstehen, wie viel „Information" eine Prüfung liefert und wie viel sie kostet.

Die Botschaft ist einfach:
Regeln sind gut, aber sie dürfen den Fortschritt nicht töten. Wir müssen die KI so prüfen, wie man ein Flugzeug prüft: Ein kleines Modellflugzeug braucht keine Prüfung wie ein riesiges Passagierflugzeug. Aber wenn das Flugzeug riesig ist und viele Menschen an Bord hat, dann darf die Prüfung auch sehr streng sein.

Es geht darum, das Richtige zur richtigen Zeit zu tun – weder zu wenig (dann ist es gefährlich) noch zu viel (dann ist es teuer und unnötig).