EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements
Die Studie stellt EDINET-Bench vor, einen Open-Source-Benchmark auf Basis japanischer Jahresabschlüsse, der zeigt, dass selbst fortschrittliche Large Language Models bei komplexen Finanzaufgaben wie der Betrugserkennung nur marginal besser abschneiden als einfache logistische Regressionen und somit einen Bedarf an realistischeren, unterstützenden Evaluierungsrahmen aufzeigen.