Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark
Questo studio presenta una valutazione su larga scala di un sistema di grading AI basato su LLM e OCR per compiti di calcolo a mano scritti da studenti universitari, dimostrando un forte allineamento con le valutazioni dei tutor e proponendo un nuovo benchmark standardizzato per la ricerca futura.