Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Each language version is independently generated for its own context, not a direct translation.

Imagina que el mundo de la investigación científica es como una gran cocina de un restaurante muy famoso. Cada año, miles de chefs (los científicos) envían sus recetas (las propuestas de proyectos) para pedir que el restaurante les compre los ingredientes y les pague por cocinar.

El problema es que hay demasiadas recetas y muy pocos jueces (los revisores humanos) para probarlas todas. Es como si tuvieras que probar 100 pasteles en una hora; al final, estarás tan cansado que podrías pasar por alto un pastel quemado o, peor aún, no notar que le falta sal.

Los autores de este papel se preguntaron: "¿Podemos usar a un robot inteligente (una Inteligencia Artificial) para ayudar a los jueces a probar estos pasteles?"

Aquí te explico lo que hicieron y qué descubrieron, usando analogías sencillas:

1. El Experimento: "Arruinar las Recetas a Propósito"

Como no podían usar las recetas reales de los chefs (porque son secretos industriales y privados), decidieron hacer algo ingenioso:

Tomaron 6 recetas reales que ya habían sido enviadas.
Luego, los investigadores sabotearon estas recetas de formas específicas, como si un chef novato hubiera cometido errores graves.
- Ejemplo de sabotaje: Cambiaron la fecha de entrega para que fuera imposible, quitaron la explicación de por qué necesitan tanto dinero, o borraron la lista de ingredientes clave.
Crearon 42 versiones "rotas" de estas recetas.

2. Los Tres Tipos de Jueces Robot

Pusieron a prueba a tres tipos de "robots revisores" para ver cuál detectaba mejor los errores:

El Revisor Rápido (Línea Base): El robot lee toda la receta de una sola vez, de un tirón, y dice: "¿Qué tal?".
El Revisor Detallista (Nivel de Sección): El robot no lee todo de golpe. Lee primero la lista de ingredientes, luego la sección de la técnica, luego el presupuesto, por separado. Es como leer un libro capítulo por capítulo en lugar de saltar páginas.
El Consejo de Expertos (Consejo de Personas): Imagina que en lugar de un solo robot, tienes a 5 robots con personalidades diferentes:
- Uno es un Contador (solo le importa el dinero).
- Otro es un Ético (solo le importa si es seguro).
- Otro es un Tecnólogo (busca cosas nuevas y arriesgadas).
- Al final, un "Presidente" del consejo junta todas sus opiniones para dar una nota final.

3. Los Resultados: ¿Quién ganó?

Aquí viene lo más interesante, porque los resultados no fueron lo que esperaban:

El ganador inesperado: El Revisor Detallista (el que lee por secciones) fue el mejor. Detectó más errores y dio notas más consistentes.
- La analogía: Es como cuando intentas encontrar un error en un documento de 50 páginas. Si lo lees todo rápido, te pierdes. Pero si revisas página por página, es mucho más fácil ver si falta una coma o un número.
El perdedor costoso: El Consejo de Expertos (los 5 robots) no funcionó mejor que el revisor rápido, pero gastó muchísimas más computadoras y tiempo.
- La analogía: Fue como contratar a 5 inspectores de cocina para revisar un solo pastel, cuando uno solo que leyera bien la receta habría sido suficiente. Además, a veces los 5 robots se confundían entre ellos.
Lo que los robots NO vieron:
- Los robots fueron muy buenos detectando si la receta no coincidía con el menú del restaurante (ej. "pedimos un pastel de pescado para un concurso de postres").
- Pero fallaron estrepitosamente cuando la receta estaba mal escrita o confusa. Si faltaban explicaciones o había palabras raras sin definir, los robots asumían que todo estaba bien y no dijeron nada.
- La analogía: Si un chef escribe "mezclar los polvos mágicos" sin decir qué son, el robot piensa: "Ah, interesante, seguro son polvos mágicos". Un humano diría: "¡Espera! ¿Qué polvos? Esto no tiene sentido".

4. La Conclusión: ¿Sirven los robots?

El papel concluye que:

No podemos confiar en los robots solos para decidir quién recibe el dinero. Son demasiado propensos a ignorar la confusión y a centrarse solo en reglas estrictas (como si el presupuesto cuadraba matemáticamente) en lugar de juzgar si la idea es genial o viable.
Pero sí pueden ser útiles como ayudantes. Imagina al robot como un asistente de cocina que revisa la lista de ingredientes para asegurarse de que no falte nada y que los números cuadren. Luego, el Jefe de Cocina humano (el revisor experto) toma esa lista revisada y decide si la idea es buena o no.

En resumen:
La Inteligencia Artificial es como un revisor muy rápido pero un poco ciego. Es excelente para encontrar errores de formato o de lógica obvia, pero le cuesta mucho entender si una idea es confusa, si falta contexto o si la historia tiene sentido. Por ahora, la mejor estrategia es usar al robot para hacer el trabajo sucio de revisión de detalles, pero dejar que el humano tome la decisión final.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Evaluating LLM-Based Grant Proposal Review via Structured Perturbations" en español:

1. Planteamiento del Problema

El ecosistema de investigación global enfrenta una "trampa malthusiana": el volumen de solicitudes de subvenciones ha crecido exponencialmente, superando la capacidad de revisión manual y provocando fatiga de revisores y retrasos en la toma de decisiones. Aunque las políticas de agencias como UKRI permiten el uso de IA generativa para la redacción de propuestas, su uso por parte de los revisores sigue siendo restringido, creando una asimetría.

El problema central es la falta de evaluación sistemática sobre la capacidad de los Modelos de Lenguaje Grande (LLM) para realizar revisiones de propuestas de subvenciones de alto riesgo. A diferencia de la revisión de artículos (retrospectiva), la revisión de subvenciones es prospectiva, administrativa y requiere evaluar la viabilidad, el valor del dinero y el impacto nacional. Además, la escasez de datos públicos (debido a la propiedad intelectual y la confidencialidad) ha dificultado el entrenamiento y la evaluación de estos sistemas.

2. Metodología

Los autores proponen un marco de evaluación basado en perturbaciones estructuradas para superar la escasez de datos. En lugar de etiquetar miles de propuestas, utilizan un conjunto limitado de seis propuestas reales de la EPSRC (Consejo de Investigación de Ingeniería y Ciencias Físicas del Reino Unido) y generan sistemáticamente variantes con "fallos conocidos".

Diseño Experimental

Datos: Se utilizaron 6 propuestas completas de la EPSRC. Se degradó su calidad aplicando perturbaciones en seis ejes de calidad:
1. Financiación: Inflación de presupuestos, eliminación de justificaciones de costos.
2. Cronograma: Extensión de plazos más allá de los límites, tareas poco realistas.
3. Competencia: Eliminación de personal clave, debilitamiento de evidencias de habilidades.
4. Alineación: Modificación de los objetivos de la convocatoria, introducción de mandatos interdisciplinarios incorrectos.
5. Claridad: Eliminación de expansiones de acrónimos, vaguedad en métodos, eliminación de marcadores de novedad.
6. Impacto: Cambio de partes interesadas, modificación del alcance de los resultados.
- Esto resultó en 42 perturbaciones únicas aplicadas a las propuestas.
Arquitecturas de Revisión Comparadas:
1. Revisión de un solo paso (Baseline): El modelo recibe toda la propuesta en un solo contexto (hasta 30k tokens) y genera una puntuación y comentarios.
2. Revisión por Niveles (Section-Level): La propuesta se divide en grupos lógicos (Visión/Aproximación, Capacidad del Equipo, Recursos, Ética) para reducir la carga cognitiva y mejorar la síntesis.
3. Consejo de Personas (Council of Personas): Un enfoque de conjunto (ensemble) que simula un panel de expertos con cinco "personas" distintas (Analista de Costos, Evaluador de Ética, Evangelista Tecnológico, Escéptico Metodológico, Campeón de Impacto). Utiliza un proceso de tres etapas: revisión independiente, meta-revisión ciega y síntesis final por un presidente.
Evaluación:
- Detección de Perturbaciones: Se midió la capacidad del sistema para identificar los fallos introducidos (sensibilidad).
- Alineación con Expertos: Se compararon los comentarios generados por LLM con revisiones reales de expertos de UKRI, desglosando los comentarios en "afirmaciones atómicas" para medir coincidencia, contradicción y valor añadido.
- Métricas: Tasa de detección, degradación de la puntuación, Correlación Intracalásica (ICC) para fiabilidad y análisis de valencia (positivo/negativo).

3. Contribuciones Clave

Marco de Evaluación Basado en Perturbaciones: Un método principista para evaluar sistemas de revisión en dominios sensibles y con datos escasos, transformando un pequeño conjunto de datos en un banco de pruebas robusto de 42 condiciones de fallo controladas.
Arquitectura "Consejo de Personas": Desarrollo de un sistema multi-perspectiva diseñado para emular la dinámica de los paneles de expertos humanos.
Análisis Comparativo Empírico: La primera evaluación sistemática que contrasta la capacidad de los LLM para identificar debilidades sustantivas, generar puntuaciones fiables y ofrecer retroalimentación comparable a la de revisores expertos en el contexto de subvenciones.

4. Resultados Principales

Rendimiento de las Arquitecturas:
- El enfoque por niveles (Section-Level) superó significativamente a los demás en tasa de detección ( $\mu = 0.29$ ) y fiabilidad de puntuación (ICC = 0.50).
- El método Consejo de Personas, a pesar de su alto costo computacional, no mejoró el rendimiento respecto a la línea base ( $\mu = 0.17$ ) y mostró una fiabilidad muy baja (ICC = 0.11), sugiriendo que la complejidad arquitectónica no se traduce en estabilidad de evaluación.
- La línea base (un solo paso) tuvo un rendimiento intermedio pero inconsistente.
Sensibilidad por Tipo de Perturbación:
- Alineación: Fue el eje más detectable ( $\mu = 0.41$ ), especialmente cuando se modificaban documentos de la convocatoria (posiblemente debido a patrones aprendidos en el pre-entrenamiento).
- Claridad: Fue el eje menos detectado ( $\mu = 0.06$ ). Los sistemas fallaron consistentemente en identificar la falta de definiciones de acrónimos o la vaguedad, ya que tienden a inferir contexto en lugar de señalar ambigüedades como errores.
- Impacto y Cronograma: Mostraron tasas de detección moderadas.
Alineación con Revisores Humanos:
- Los comentarios de los LLM son en gran medida válidos y no contradictorios, pero están sesgados hacia la verificación de cumplimiento (ej. problemas de gobernanza de datos, GDPR) en lugar de la evaluación holística de la viabilidad científica.
- Los revisores humanos tienden a hacer afirmaciones más positivas y a cubrir un rango más amplio de severidad, mientras que los LLM (especialmente el enfoque por niveles) generan más críticas negativas, a menudo sobre detalles que los humanos consideran triviales o implícitamente satisfechos.
- Los LLM tienen dificultades para replicar el juicio holístico sobre si una propuesta merece inversión pública, centrándose más en la profundidad técnica o el cumplimiento normativo.

5. Significado y Conclusiones

El estudio concluye que los LLM actuales no están listos para la revisión autónoma de propuestas de subvenciones debido a su alta variabilidad, su incapacidad para detectar problemas de claridad y su desalineación en las prioridades de revisión (compliance vs. impacto holístico).

Sin embargo, tienen un valor suplementario significativo bajo supervisión humana, especialmente para:

La verificación estructurada de cumplimiento (alineación con la convocatoria, justificación de recursos).
La detección de errores factuales o lógicos obvios.
La generación de retroalimentación detallada sobre aspectos específicos.

El trabajo subraya que la revisión de subvenciones requiere un razonamiento de alto riesgo y síntesis holística que los modelos actuales, que tienden a la inferencia contextual y al relleno de huecos, aún no dominan completamente. Se libera el código y los datos no protegidos para fomentar futuras investigaciones en este dominio crítico.

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

1. El Experimento: "Arruinar las Recetas a Propósito"

2. Los Tres Tipos de Jueces Robot

3. Los Resultados: ¿Quién ganó?

4. La Conclusión: ¿Sirven los robots?

1. Planteamiento del Problema

2. Metodología

Diseño Experimental

3. Contribuciones Clave

4. Resultados Principales

5. Significado y Conclusiones

Más como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance