Two Wrongs, No Right: Auditing Social-Desirability Bias in LLM Annotators for Computational Social Science

Diese Arbeit zeigt, dass Open-Source-LLM-Annotatoren, die in der Computergestützten Sozialwissenschaft eingesetzt werden, vielfältige und unvorhersehbare Social-Desirability-Biases aufweisen, die über verschiedene Prompting-Strategien hinweg bestehen bleiben und oft zu irreführenden Aggregatmetriken führen können, die substanzielle empirische Schlussfolgerungen grundlegend verzerren können.

Ursprüngliche Autoren: Varun Kotte

Veröffentlicht 2026-06-12
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Varun Kotte

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind ein Forscher, der verstehen möchte, was die Öffentlichkeit über ein kontroverses Thema denkt, wie etwa Abtreibung oder Hassrede. Anstatt tausende echte Menschen zu fragen, beschließen Sie, ein Team von KI-„Robotern“ (Large Language Models) einzusetzen, die Social-Media-Posts lesen und für Sie klassifizieren sollen. Sie hoffen, dass diese Roboter als ehrliche, neutrale Richter fungieren werden.

Dieses Paper ist wie eine Sicherheitsinspektion von drei populären KI-Robotern (genannt Zephyr, Mistral und Qwen), um zu prüfen, ob sie tatsächlich einen guten Job machen oder ob sie Ihre Daten auf eine Weise manipulieren, die Ihre Forschung ruinieren könnte.

Hier ist die Aufschlüsselung dessen, was die Autoren herausgefunden haben, unter Verwendung einfacher Analogien:

1. Das „Goldlöckchen“-Problem: Sie sind nicht alle gleich

Sie denken vielleicht: „Wenn ich eine KI benutze, ist sie eben einfach eine KI.“ Aber die Autoren fanden heraus, dass diese Roboter sehr unterschiedliche Persönlichkeiten haben und alle in entgegengesetzte Richtungen Fehler machen.

  • Zephyr ist der „übermäßig höfliche“ Roboter: Stellen Sie sich einen Sicherheitsmann vor, der so sehr Angst davor hat, unhöflich zu sein, dass er sich weigert, jemanden wegen Regelverstößen zu rügen. Wenn jemand tatsächlich hasserfüllt ist, sagt Zephyr: „Oh, das ist schon in Ordnung, kein Grund zur Sorge.“ Es übersieht viel negatives Verhalten (genannt Leniency Bias / Milde-Bias).
  • Mistral und Qwen sind die „paranoiden“ Roboter: Stellen Sie sich einen Sicherheitsmann vor, der so sehr Angst hat, eine Bedrohung zu übersehen, dass er jeden verhaftet, der nur leicht verdächtig aussieht. Wenn jemand etwas leicht Unfreundliches sagt, schreien diese Roboter: „HASSREDE!“ Sie markieren zu viele harmlose Posts als schlecht (genannt Overcorrection / Überkorrektur).
  • Der „neutrale“ Roboter: Wenn sie nach starken politischen Meinungen gefragt werden (wie „Sind Sie für oder gegen Abtreibung?“), agieren alle drei Roboter wie ein schwammiger Moderator. Anstatt „Stark dagegen“ oder „Stark dafür“ zu sagen, driften sie alle in die Mitte ab und sagen: „Es ist kompliziert/neutral.“ Sie verbergen die wahre Intensität der Gefühle (genannt Neutrality Bias / Neutralitäts-Bias).

2. Der „Zaubertrick“ der versehentlichen Annullierung

Dies ist der gefährlichste Teil. Die Autoren fanden einen Fall, in dem Zephyr auf dem Papier perfekt aussah, aber in Wirklichkeit versagte.

  • Das Szenario: Die reale Welt hat 43 % Hassrede.
  • Zephyrs Fehler: Es hat 31 % der echten Hassrede übersehen (zu höflich), ABER es hat auch 24 % der unschuldigen Menschen fälschlicherweise als hasserfüllt bezeichnet (zu paranoid).
  • Das Ergebnis: Diese beiden großen Fehler haben sich gegenseitig aufgehoben. Die endgültige Zahl, die Zephyr meldete, war exakt 43 %.
  • Die Falle: Ein Forscher, der nur auf die endgültige Zahl schaut, würde sagen: „Großartig, Zephyr ist perfekt!“ Aber wenn er sich die einzelnen Posts genauer ansähe, würde er sehen, dass der Roboter bei fast der Hälfte der Einzelfälle falsch lag. Es ist wie eine kaputte Waage, die genau das richtige Gewicht anzeigt, weil sie auf der linken Seite 5 Pfund zu wenig und auf der rechten Seite 5 Pfund zu viel anzeigt.

3. Der „Prompt“ behebt es nicht

Die Forscher versuchten, die Roboter zu „reparieren“, indem sie die Anweisungen (Prompts) änderten, die sie ihnen gaben. Sie probierten:

  • „Sei sicher und fair.“
  • „Handle einfach wie eine Maschine, nicht wie eine Person.“
  • „Denke Schritt für Schritt, bevor du antwortest.“

Das Ergebnis: Keiner dieser Tricks funktionierte konsistent. Manchmal machte es die Roboter schlechter bei der Erkennung politischer Meinungen, wenn man ihnen sagte, „sei sicher“. Manchmal half die Aufforderung „denke Schritt für Schritt“ einem Roboter, schadete aber einem anderen. Man kann diese tief verwurzelten Vorurteile nicht einfach durch „Prompt Engineering“ aus der Welt schaffen.

4. Warum das für die Wissenschaft wichtig ist

Die Autoren argumentieren, dass es in den Sozialwissenschaften nicht nur darum geht, den richtigen Wert zu erhalten, sondern darum, die richtige Geschichte zu erzählen.

  • Wenn Sie den höflichen Roboter (Zephyr) nutzen, um Hassrede zu untersuchen, könnten Sie schlussfolgern: „Wow, das Internet ist eigentlich ziemlich sicher!“ (Was es nicht ist).
  • Wenn Sie den paranoiden Roboter (Mistral) nutzen, könnten Sie schlussfolgern: „Das Internet ist ein toxischer Albtraum!“ (Was es nicht in diesem Ausmaß ist).
  • Wenn Sie den neutralen Roboter für politische Studien nutzen, könnten Sie schlussfolgern: „Alle sind ziemlich moderat“, während die Menschen in Wirklichkeit sehr leidenschaftlich und gespalten sind.

Das Fazente Fazit

Die Autoren kommen zu dem Schluss, dass man KI-Annotatoren nicht als unsichtbare, perfekte Werkzeuge behandeln darf. Sie sind Teil Ihres Messinstruments, genau wie ein Lineal oder ein Thermometer.

Der Rat: Bevor Sie einer KI vertrauen, um Daten für eine Studie zu klassifizieren, müssen Sie:

  1. Prüfen, ob sie zu höflich oder zu paranoid ist.
  2. Prüfen, ob sie starke Meinungen hinter „neutralen“ Antworten verbirgt.
  3. Sie mit einem kleinen, bekannten Datensatz mit korrekten Antworten (einer „Gold Sample“) testen, um zu sehen, ob sie Ihre endgültige Schlussfolgerung verändert.

Wenn Sie dies nicht tun, veröffentlichen Sie vielleicht eine Studie, die wissenschaftlich aussieht, aber eine völlig falsche Geschichte darüber erzählt, wie sich die Gesellschaft fühlt.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →