DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models
Der Artikel stellt DevBench vor, einen datengestützten Benchmark, der große Sprachmodelle anhand von 1.800 realistischen Code-Vervollständigungsaufgaben aus Entwickler-Telemetriedaten bewertet, um deren praktische Nützlichkeit und ökologische Validität über traditionelle Metriken hinaus zu analysieren.