AI Act Evaluation Benchmark: An Open, Transparent, and Reproducible Evaluation Dataset for NLP and RAG Systems
Este artículo presenta un conjunto de datos abierto, transparente y reproducible diseñado para evaluar la conformidad de los sistemas NLP y RAG con la Ley de IA de la UE, mediante la generación automatizada de tareas de clasificación de riesgos, recuperación de artículos y generación de obligaciones que superan las limitaciones de las evaluaciones manuales.