CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un bibliotecario superinteligente (una Inteligencia Artificial) al que le puedes preguntar cualquier cosa sobre el mundo. Si le preguntas "¿Quién ganó la última película de Marvel?", te responde al instante. Pero, ¿qué pasa si le pides que analice estadísticas muy específicas de un partido de cricket que se jugó hace 10 años en la India?

El artículo que vamos a explicar, llamado CricBench, es como una prueba de realidad para ver qué tan bueno es este bibliotecario cuando se trata de cricket.

Aquí tienes la explicación sencilla, con algunas analogías divertidas:

1. El Problema: El "Ciego" en la Tienda de Deportes

Los modelos de Inteligencia Artificial (como los que usas en tu teléfono) son muy buenos hablando y escribiendo. Pueden convertir una pregunta en lenguaje normal a una orden de base de datos (como si le dijeras al ordenador: "Busca esto").

Pero, los investigadores se dieron cuenta de algo curioso: Son como un chef experto que sabe cocinar cualquier plato, pero si le das una receta de un país que nunca ha visitado, se confunde.

En el cricket, hay detalles muy complejos:

Diferentes formatos de juego (Test, ODI, T20, IPL).
Estadísticas que requieren matemáticas específicas (como calcular la "Economy Rate").
Jugadores que cambian de equipo o de país a lo largo de los años.

Los investigadores querían saber: ¿Puede la IA entender estos trucos del cricket sin que le tengamos que enseñar todo desde cero?

2. La Prueba: CricBench (El Examen de Cricket)

Para responder a esto, crearon CricBench. Imagina que es un examen de conducir, pero en lugar de conducir un coche, la IA tiene que "conducir" una base de datos de cricket.

El Material: Crearon una base de datos gigante con millones de datos de partidos reales (como si tuvieras el registro de cada pelota lanzada en la historia).
La Pregunta: Le dieron a la IA preguntas en 4 idiomas (Inglés, Hindi, Punjabi y Telugu). ¡Y ojo! Muchas preguntas mezclaban idiomas (como decir "¿Cuál es el Strike Rate de Virat Kohli?"), tal como lo hacen los fans reales en la India.
La Regla de Oro: Le dieron a la IA solo el mapa del tesoro (la estructura de la base de datos), pero no le dieron las respuestas ni trucos. Tenía que usar su propia inteligencia para encontrar el camino.

3. Los Resultados: ¡Un Desastre Sorprendente!

Aquí viene la parte graciosa (y triste para los fans de la IA).

La Ilusión de Competencia: Cuando la IA intentaba responder, escribía las órdenes (SQL) casi perfectas gramaticalmente. Era como si un estudiante escribiera una tesis con una ortografía perfecta, pero el contenido fuera inventado.
- Analogía: Es como pedirle a alguien que te diga la ruta más rápida a casa. El mapa que dibuja es perfecto, las calles están bien nombradas, pero te lleva al océano en lugar de a tu casa.
La Puntuación:
- En preguntas fáciles, la IA acertaba un poco.
- En preguntas difíciles (especialmente en el formato ODI), casi todos los modelos obtuvieron un 0%. ¡Nadie acertó!
- El mejor modelo (GPT-5 Mini) acertó solo el 12% de las veces en pruebas de cricket.
- En comparación, en pruebas generales de negocios, estos mismos modelos acertaban el 60-65%.

La conclusión: La IA es un genio en cosas generales, pero cuando entra en el terreno específico del cricket, se vuelve torpe. Pierde hasta un 55% de su inteligencia al cambiar de un tema general a uno de cricket.

4. ¿Por qué falla? (Los Errores Comunes)

Los investigadores analizaron por qué fallaban y encontraron tres "trampas":

Alucinaciones de Mapa: La IA inventaba columnas que no existían. Le decías "busca los goles", y la IA buscaba en una columna llamada "goles", pero en el cricket no hay goles, hay "runs". La IA usaba su conocimiento general en lugar de mirar el mapa que le dieron.
Matemáticas Mal Hechas: Para calcular estadísticas como la "Economy Rate", hay que hacer cálculos muy específicos (restar bolas ilegales, dividir, multiplicar). La IA olvidaba los pasos intermedios.
Confusión de Identidades: En el cricket, un jugador puede jugar para la India en 2010 y para un equipo de la IPL en 2020. La IA a menudo se confundía y mezclaba las estadísticas de los dos equipos como si fueran el mismo.

5. ¿Qué nos dice esto para el futuro?

Este estudio es como un termómetro que nos dice que la tecnología aún no está lista para ser un analista deportivo profesional por sí sola.

No basta con ser "grande": Tener una IA más grande o más potente no soluciona el problema si no entiende la lógica específica del cricket.
Se necesita un "entrenador": Para que la IA sea útil en el cricket, no basta con darle el mapa; hay que darle un manual de reglas específico (entrenamiento especializado) o conectarla con expertos humanos.

En Resumen

CricBench nos dice que, aunque las Inteligencias Artificiales son muy inteligentes, todavía no son fans expertos de cricket. Pueden escribir la pregunta perfecta, pero a menudo fallan al buscar la respuesta correcta en la base de datos.

Es como tener un traductor que habla 10 idiomas perfectamente, pero si le pides que traduzca un chiste interno de un equipo de fútbol local, se queda en blanco. ¡Aún falta mucho trabajo para que la IA sea el "analista de cricket" definitivo!

CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics

1. El Problema: El "Ciego" en la Tienda de Deportes

2. La Prueba: CricBench (El Examen de Cricket)

3. Los Resultados: ¡Un Desastre Sorprendente!

4. ¿Por qué falla? (Los Errores Comunes)

5. ¿Qué nos dice esto para el futuro?

En Resumen

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado y Conclusión

CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics

1. El Problema: El "Ciego" en la Tienda de Deportes

2. La Prueba: CricBench (El Examen de Cricket)

3. Los Resultados: ¡Un Desastre Sorprendente!

4. ¿Por qué falla? (Los Errores Comunes)

5. ¿Qué nos dice esto para el futuro?

En Resumen

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado y Conclusión

Más como este

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration