Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery
Il paper presenta DBench-Bio, un benchmark dinamico e automatizzato che supera i limiti delle valutazioni statiche per misurare la capacità dei modelli linguistici di scoprire nuove conoscenze biologiche attraverso un processo mensile di aggiornamento basato su abstract scientifici autorevoli.