One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un coche de carreras muy nuevo y potente (un Modelo de Inteligencia Artificial). Antes de salir a la pista real, necesitas saber si es rápido, si frena bien y si no se va a romper. Eso es lo que llamamos "evaluación".

Hasta ahora, evaluar estos modelos era como intentar arreglar el coche tú mismo: tenías que buscar las herramientas correctas, leer manuales complicados, conectar cables que no encajaban y esperar horas para ver si funcionaba. Si algo fallaba, tenías que empezar de cero.

One-Eval es como un mecánico robot inteligente y un jefe de equipo que hace todo ese trabajo por ti.

Aquí te explico cómo funciona, paso a paso, con analogías sencillas:

1. La Petición (El Cliente habla)

En lugar de tener que escribir código o configurar archivos complejos, tú simplemente le hablas al sistema en lenguaje normal.

Tú dices: "Quiero probar si mi modelo es bueno resolviendo problemas de matemáticas y si entiende chistes."
El sistema (One-Eval) piensa: "¡Entendido! Necesito buscar exámenes de matemáticas y pruebas de humor."

2. El Planificador (NL2Bench: El "Bibliotecario")

Esta parte del sistema es como un bibliotecario experto que conoce todas las pruebas del mundo.

Lo que hace: Toma tu petición y busca en su biblioteca (y en internet) los mejores exámenes para lo que necesitas.
La magia: Si le dices "matemáticas", no solo busca un examen cualquiera; busca el mejor examen de matemáticas, verifica que esté disponible y te dice: "He encontrado 3 pruebas perfectas. ¿Te parecen bien?".
El toque humano: Si no estás de acuerdo con su elección, puedes decirle: "No, quiero uno más difícil". El robot ajusta el plan al instante.

3. El Preparador (BenchResolve: El "Mecánico de Taller")

Una vez que tienes los exámenes, necesitas prepararlos. A veces, un examen viene en un formato que el coche no entiende (como un manual en japonés cuando necesitas uno en español).

Lo que hace: Este robot va a buscar los datos, los descarga, los traduce a un formato estándar y los pone en el lugar correcto.
La analogía: Es como si el robot desempaquetara las cajas de herramientas, limpiara las llaves y asegurara que todas encajen en el motor antes de empezar. Si falta una pieza, el robot la busca y la consigue automáticamente.

4. El Analista (Metrics & Reporting: El "Doctor Forense")

Antes, los resultados eran como un simple número en una hoja de papel: "Tu coche tiene un 85 de rendimiento". Eso no te dice mucho.

Lo que hace: One-Eval no solo te da un número. Te da un informe médico completo.
El resultado: En lugar de un solo número, te dice: "Tu modelo es genial en álgebra, pero falla en geometría. Además, cuando intenta hacer chistes, a veces se confunde con la puntuación. Aquí tienes ejemplos exactos de dónde falló y por qué".
Por qué importa: Esto te ayuda a tomar decisiones reales, como "Necesito entrenar más en geometría antes de lanzar el modelo".

5. El Control de Calidad Humano (Human-in-the-Loop)

Aunque el robot es muy inteligente, a veces necesita tu aprobación.

Cómo funciona: En momentos clave, el sistema se detiene y te pregunta: "¿Estás seguro de que quieres usar este examen?".
La ventaja: Puedes revisar, corregir o incluso hacer "deshacer" (volver atrás) si el robot se equivoca. Es como tener un copiloto que revisa el mapa contigo para asegurarse de que no os perdáis.

¿Por qué es esto un gran avance?

Imagina que antes, para evaluar tu coche, tenías que ser un ingeniero experto en mecánica y pasar días buscando las herramientas. Con One-Eval, cualquier persona puede pedir una evaluación, y el sistema se encarga de:

Entender qué quieres.
Buscar las pruebas correctas.
Preparar todo automáticamente.
Explicar los resultados de forma clara y útil.

Es como tener un asistente personal que convierte tus ideas en acciones reales, ahorrando horas de trabajo aburrido y evitando errores, para que los desarrolladores puedan centrarse en crear mejores modelos de inteligencia artificial.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: One-Eval

1. El Problema

La evaluación de modelos de lenguaje grandes (LLM) es fundamental para su desarrollo y despliegue industrial, pero los flujos de trabajo actuales presentan barreras significativas:

Alta carga manual: Los practicantes deben identificar manualmente benchmarks adecuados, reproducir repositorios de código heterogéneos, configurar mapeos de esquemas de datos y configurar parámetros de ejecución.
Falta de flexibilidad: Los frameworks existentes (como lm-eval-harness o OpenCompass) suelen requerir configuraciones explícitas y estáticas. No interpretan la intención del usuario ni adaptan dinámicamente la selección de benchmarks o métricas.
Resultados poco accionables: Las salidas suelen limitarse a puntuaciones escalares aisladas, lo que dificulta la toma de decisiones en escenarios reales (como la selección de modelos, la evaluación de riesgos o la preparación para el despliegue).
Falta de trazabilidad: Es difícil auditar o depurar por qué se seleccionó un benchmark específico o cómo se mapearon los datos, lo que reduce la reproducibilidad en entornos industriales.

2. Metodología: One-Eval

One-Eval es un sistema de evaluación basado en agentes (agentic) diseñado para convertir solicitudes de evaluación en lenguaje natural en flujos de trabajo ejecutables, trazables y personalizables. El sistema opera en un pipeline de tres etapas principales, integrando un mecanismo de bucle humano (Human-in-the-Loop) para revisión y validación.

Componentes Clave del Sistema:

Etapa 1: NL2Bench (Estructuración de Intención y Planificación)
- Función: Traduce la solicitud del usuario en lenguaje natural a una representación de intención estructurada.
- Proceso: Descompone la intención en dominios (ej. razonamiento matemático), benchmarks explícitos y restricciones.
- Recuperación: Busca candidatos en una galería local de 77 benchmarks curados y, si es necesario, realiza búsquedas en vivo en HuggingFace Hub. Utiliza dos modos de recuperación: basado en embeddings (similitud semántica) y TF-IDF (similitud léxica).
- Selección: Filtra y selecciona un subconjunto compacto de benchmarks que maximice la alineación con la intención del usuario mientras respeta restricciones de costo y ejecutabilidad.
Etapa 2: BenchResolve (Resolución de Benchmarks y Configuración)
- Función: Convierte el plan nominal en configuraciones ejecutables y reproducibles.
- Resolución Jerárquica: Prioriza un registro local de configuraciones validadas por expertos para benchmarks comunes. Si no se encuentra, recurre dinámicamente a HuggingFace para descargar metadatos y datos.
- Normalización de Esquema: Transforma la heterogeneidad de los conjuntos de datos (diferentes nombres de columnas, splits, formatos) en una interfaz unificada interna (BenchInfo). Esto incluye mapeo de claves (ej. question $\to$ input, answer $\to$ target) y validación de splits disponibles.
Etapa 3: Métricas y Reportes (Recomendación y Generación de Informes)
- Recomendación de Métricas: Utiliza un agente (MetricRecommendAgent) que combina razonamiento semántico sobre el contexto del dataset con reglas predefinidas.
  - Estrategia de doble vía: Prioriza configuraciones estáticas si existen, pero usa razonamiento dinámico para tareas no configuradas, seleccionando métricas específicas (ej. precisión, tasa de extracción, análisis de fallos).
- Generación de Informes: Produce informes orientados a la tarea en lugar de simples puntuaciones. Incluye:
  - Visión Macro: Perfiles de capacidad (gráficos de radar).
  - Visión Diagnóstica: Análisis de causas raíz de fallos (alucinaciones, errores de instrucción).
  - Visión Micro: Estudios de caso con ejemplos específicos de fallos.
Mecanismo de Bucle Humano (Human-in-the-Loop):
- Se integra en puntos críticos (selección de benchmarks, resolución de configuración). Permite a los usuarios revisar, editar, aprobar o revertir decisiones del agente antes de la ejecución final, asegurando que la automatización no sacrifique el control humano sobre decisiones de alto impacto.

3. Contribuciones Clave

Automatización de Extremo a Extremo: Es el primer sistema que trata la evaluación de modelos como un proceso de decisión impulsado por agentes, desde la interpretación de la intención hasta la generación de informes, sin requerir configuración manual de scripts.
Trazabilidad y Auditabilidad: Preserva "rastros de evidencia" (evidence trails) de cada paso (identificadores resueltos, mapeos de esquemas, decisiones de configuración), permitiendo la depuración y la reproducción exacta de evaluaciones.
Informes Orientados a la Toma de Decisiones: Supera la limitación de las métricas escalares únicas, proporcionando análisis diagnósticos detallados y sugerencias accionables para ingenieros y gestores de productos.
Adaptabilidad a la Heterogeneidad: Maneja automáticamente la diversidad de fuentes de datos y formatos de benchmarks mediante normalización de esquemas y resolución dinámica.

4. Resultados Experimentales

Los autores evaluaron One-Eval desde una perspectiva de usabilidad industrial y fiabilidad:

Tasa de Éxito de Extremo a Extremo: En un conjunto de 100 solicitudes de evaluación en lenguaje natural (abarcando razonamiento, matemáticas, código, seguridad, etc.), el sistema logró:
- 99% de tasa de plan ejecutable (interpretación exitosa de la intención y recuperación de al menos un benchmark).
- 85% de tasa de completado automático (inferencia correcta de splits, subconjuntos y mapeos de claves sin errores de ejecución).
- 84% de tasa de plan completo (incluyendo inferencia de tipo de tarea y recomendación de métricas).
Eficiencia: El pipeline de 8 pasos completó la generación de un plan ejecutable en un tiempo mediano de aproximadamente 11.4 minutos por solicitud, sin intervención humana.
Comparativa: A diferencia de frameworks existentes (lm-eval-harness, OpenCompass, HELM), One-Eval es el único que soporta nativamente la personalización de benchmarks, la automatización de extremo a extremo, la recomendación basada en intención y la recomendación de métricas.

5. Significado e Impacto

One-Eval representa un cambio de paradigma en la evaluación de LLMs:

Democratización de la Evaluación: Reduce la barrera de entrada para equipos que no son expertos en configuración de benchmarks, permitiendo que cualquier practicante inicie evaluaciones complejas mediante lenguaje natural.
Confianza Industrial: Al proporcionar trazabilidad completa y evidencia auditable, facilita la validación de modelos para el despliegue en producción, cumpliendo con requisitos de seguridad y calidad.
Escalabilidad: Su diseño modular permite incorporar nuevos benchmarks y métricas fácilmente, adaptándose a la rápida evolución del campo de la IA.
Reproducibilidad: Establece un nuevo estándar para la reproducibilidad en la investigación y la industria, asegurando que los resultados de evaluación puedan ser verificados y repetidos exactamente en el tiempo.

En resumen, One-Eval transforma la evaluación de modelos de una tarea manual y fragmentada en un proceso automatizado, inteligente y centrado en la toma de decisiones, esencial para el ciclo de vida de los modelos de IA en entornos reales.

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

1. La Petición (El Cliente habla)

2. El Planificador (NL2Bench: El "Bibliotecario")

3. El Preparador (BenchResolve: El "Mecánico de Taller")

4. El Analista (Metrics & Reporting: El "Doctor Forense")

5. El Control de Calidad Humano (Human-in-the-Loop)

¿Por qué es esto un gran avance?

Resumen Técnico: One-Eval

1. El Problema

2. Metodología: One-Eval

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance