ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

Die Arbeit stellt ESG-Bench vor, einen Benchmark-Datensatz mit menschenannotierten Frage-Antwort-Paaren aus ESG-Berichten, der durch Chain-of-Thought-Prompting und Feinabstimmung von Sprachmodellen die Halluzinationen bei der Analyse komplexer Nachhaltigkeitsdokumente signifikant reduziert und die Zuverlässigkeit in compliance-kritischen Kontexten verbessert.

Siqi Sun, Ben Peng Wu, Mali Jin, Peizhen Bai, Hanpei Zhang, Xingyi Song

Veröffentlicht 2026-03-16
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, große Unternehmen schreiben riesige, dicke Bücher über ihre Umweltfreundlichkeit, ihre Behandlung von Mitarbeitern und ihre ethischen Werte. Diese Bücher nennt man ESG-Berichte (Umwelt, Soziales und Unternehmensführung). Sie sind oft hunderte Seiten lang, voller Tabellen, Grafiken und komplexer Sprache.

Früher haben Menschen diese Bücher mühsam gelesen, um zu prüfen, ob die Firmen wirklich das tun, was sie sagen. Heute wollen wir künstliche Intelligenz (KI) einsetzen, um diese Aufgabe zu erledigen. Aber hier liegt das Problem: KI halluziniert.

Das Problem: Die KI, die sich Dinge ausdenkt

Stellen Sie sich die KI wie einen sehr gut ausgebildeten, aber etwas übermütigen Schüler vor. Wenn Sie ihn fragen: „Wie viel CO2 hat Firma X im letzten Jahr ausgestoßen?", liest er vielleicht nicht das ganze Buch. Stattdessen denkt er sich eine plausible Zahl aus, weil er glaubt, er müsse eine Antwort geben. Das nennt man Halluzination.

In der Welt der ESG-Berichte ist das gefährlich. Wenn eine KI erfindet, dass eine Firma „grün" ist, obwohl sie es gar nicht ist, können Investoren falsche Entscheidungen treffen oder Gesetze gebrochen werden.

Die Lösung: ESG-Bench (Der Prüfstand für KI)

Die Forscher aus Sheffield haben eine neue Methode entwickelt, um dieses Problem zu lösen. Sie nennen es ESG-Bench.

Man kann sich ESG-Bench wie einen großen, strengen Lehrer vorstellen, der eine spezielle Prüfung für KI-Modelle erstellt hat:

  1. Der Test: Die KI bekommt einen echten ESG-Bericht und eine Frage dazu.
  2. Die Aufgabe: Die KI muss die Antwort nur aus dem Text finden. Wenn die Antwort nicht im Text steht, muss sie ehrlich sagen: „Ich weiß es nicht."
  3. Die Bewertung: Menschen (Experten) haben die Antworten der KI geprüft. Sie haben markiert: „Richtig", „Ausgedacht" (Halluzination) oder „Unvollständig".

Das Besondere an diesem Test ist, dass er nicht nur prüft, ob die Antwort richtig ist, sondern auch, ob die KI ehrlich ist, wenn sie nichts weiß.

Der Trick: Der „Gedankengang" (Chain-of-Thought)

Wie haben die Forscher die KI dazu gebracht, aufzuhören, sich Dinge auszudenken? Sie haben ihr eine neue Denkweise beigebracht, die sie Chain-of-Thought (CoT) nennen.

Stellen Sie sich vor, die KI ist wie ein Detektiv, der einen Fall lösen muss.

  • Die alte KI (ohne CoT): Sie schaut sich den Fall an und schreit sofort: „Der Täter ist der Butler!" (Oft falsch, weil sie ratet).
  • Die neue KI (mit CoT): Die Forscher haben ihr beigebracht, erst einen Schritt-für-Schritt-Plan zu schreiben, bevor sie antwortet:
    1. Schritt 1: „Was wird eigentlich gefragt?" (Thema finden).
    2. Schritt 2: „Wo steht das im Buch?" (Im Text suchen).
    3. Schritt 3: „Steht die Antwort dort wirklich?" (Prüfen).
    4. Schritt 4: „Erst jetzt antworten."

Indem sie die KI gezwungen haben, diesen „Gedankengang" laut zu denken und zu schreiben, wurde sie viel genauer. Sie lernte, dass es besser ist, zu warten und zu suchen, als etwas zu erfinden.

Das Ergebnis: Bessere KI für die Welt

Die Forscher haben gezeigt, dass diese Methode funktioniert:

  • Die KI macht viel weniger Fehler.
  • Sie traut sich, „Ich weiß es nicht" zu sagen, wenn die Information fehlt (statt zu lügen).
  • Diese Technik funktioniert nicht nur für ESG-Berichte, sondern hilft der KI auch in anderen Bereichen, ehrlicher zu bleiben.

Zusammenfassend:
Die Forscher haben einen neuen „Prüfstand" (ESG-Bench) gebaut, um zu sehen, ob KI in langen, wichtigen Dokumenten lügt. Durch das Trainieren der KI mit einem strukturierten „Gedankengang" (wie ein Detektiv, der Beweise sammelt), haben sie erreicht, dass die KI verlässlicher wird. Das ist ein wichtiger Schritt, damit wir uns in Zukunft auf KI verlassen können, wenn es um Umwelt, soziale Gerechtigkeit und ethisches Verhalten von Firmen geht.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →