EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements
Deze paper introduceert EDINET-Bench, een open-source benchmark voor Japanse financiële rapporten die aantoont dat zelfs geavanceerde grote taalmodellen moeite hebben met complexe financiële taken zoals fraudeopsporing en dat er behoefte is aan realistischere evaluatiekaders met gespecialiseerde ondersteuning.