DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que las Inteligencias Artificiales (IA) han aprendido a ser como detectives de investigación muy rápidos. Pueden buscar en internet, leer miles de documentos y escribir informes largos y complejos en segundos.

Pero, ¿cómo sabemos si esos informes son realmente buenos, precisos y útiles para un experto? ¿O si la IA se está inventando cosas?

Aquí es donde entra DEER.

¿Qué es DEER? (El "Examen de Conductor" para IAs)

Imagina que quieres comprar un coche nuevo. No basta con que el coche tenga un motor bonito y luces brillantes (eso es lo que hacen las IAs: se ven bien). Necesitas saber si frena bien, si consume poco y si es seguro en una tormenta.

DEER es como un examen de conducir ultra-detallado diseñado por expertos humanos para poner a prueba a estas IAs cuando escriben informes profesionales. No es un simple "¿qué tal te fue?", es una auditoría completa.

Los 3 Grandes Problemas que DEER Resuelve

Antes de DEER, evaluar a estas IAs era como intentar juzgar una obra de arte con una regla de cocina:

Las reglas eran vagas: Decían "el informe debe ser bueno", pero ¿qué significa "bueno"? ¿Que tenga muchas palabras? ¿Que tenga fotos? DEER creó una lista de verificación maestra (llamada taxonomía) con 101 puntos específicos. Es como tener un manual de 101 reglas para saber exactamente qué debe tener un informe de ingeniería, medicina o historia.
El juez era un novato: Antes, usaban otras IAs para corregir a las IAs. Es como pedirle a un niño que corrija la tesis de un doctor. A veces, la IA "jueza" no ve errores sutiles o mentiras que un experto humano sí notaría. DEER soluciona esto dándole a la IA "jueza" un guion de experto (una hoja de trucos) que le explica exactamente qué buscar en cada tema, como si un profesor le diera las respuestas correctas antes del examen.
Las mentiras pasaban desapercibidas: Las IAs a veces citan fuentes que no dicen lo que dicen, o inventan datos sin citar nada. DEER tiene un detective de mentiras automático. Revisa cada afirmación del informe, no solo las que tienen una cita al lado. Si la IA dice "el sol sale por el este" pero no pone la fuente, el detective busca en el texto anterior para ver si la fuente estaba escondida en otra frase. Si no encuentra prueba, ¡la IA suspende!

¿Cómo funciona el examen? (La Analogía del Restaurante)

Imagina que la IA es un chef y el informe es un plato gourmet.

La Taxonomía (Las 101 reglas): Es el manual del chef estrella. Dice: "El plato debe tener sal, pimienta, y la carne debe estar a 60 grados". No basta con que sepa que "sabe rico".
El Juez con Guion: Es el inspector de salud que tiene el manual en la mano. En lugar de decir "está rico", dice: "Le falta sal (punto 14), la carne está a 55 grados (punto 22) y no mencionaste el origen del tomate (punto 45)".
El Detective de Fuentes: Es el proveedor que verifica que los ingredientes sean reales. Si el chef dice "usé trufas de Italia", el detective va a la cocina, mira la factura y dice: "¡Mentira! Estas son champiñones de tu jardín".

¿Qué descubrieron? (El Resultado del Examen)

Cuando pusieron a las IAs más famosas (como las de Google, OpenAI, Anthropic) a hacer este examen:

Lo bueno: ¡Escriben muy bien! Sus informes tienen buena estructura, gramática perfecta y se ven muy profesionales. Son como chefs que saben cortar cebolla perfectamente.
Lo malo: A menudo no cumplen lo que el cliente pidió o sus argumentos no tienen lógica profunda. A veces, usan muy pocas fuentes o se inventan datos. Es como un chef que hace un plato hermoso, pero le falta el ingrediente principal o usa ingredientes falsos.

En resumen

DEER es la herramienta que nos dice: "Oye, esta IA es genial escribiendo, pero aún necesita aprender a pensar como un experto y a no inventar cosas".

No se trata solo de ver quién gana, sino de diagnosticar exactamente dónde falla la IA para que los ingenieros puedan mejorarla. Es el primer paso para que estas máquinas sean verdaderos asistentes de investigación y no solo generadores de texto bonito.

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

¿Qué es DEER? (El "Examen de Conductor" para IAs)

Los 3 Grandes Problemas que DEER Resuelve

¿Cómo funciona el examen? (La Analogía del Restaurante)

¿Qué descubrieron? (El Resultado del Examen)

En resumen

1. El Problema

2. Metodología: El Marco DEER

A. Construcción de Datos y Tareas

B. Taxonomía de Evaluación

C. Arquitectura de Evaluación Híbrida

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

¿Qué es DEER? (El "Examen de Conductor" para IAs)

Los 3 Grandes Problemas que DEER Resuelve

¿Cómo funciona el examen? (La Analogía del Restaurante)

¿Qué descubrieron? (El Resultado del Examen)

En resumen

1. El Problema

2. Metodología: El Marco DEER

A. Construcción de Datos y Tareas

B. Taxonomía de Evaluación

C. Arquitectura de Evaluación Híbrida

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance