Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Este artículo evalúa la capacidad de los modelos de lenguaje grandes para revisar propuestas de subvenciones mediante perturbaciones estructuradas, concluyendo que un enfoque de análisis por secciones supera a otros métodos pero que los sistemas actuales presentan variabilidad y priorizan la verificación de cumplimiento sobre la evaluación holística.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard

Publicado Tue, 10 Ma
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que el mundo de la investigación científica es como una gran cocina de un restaurante muy famoso. Cada año, miles de chefs (los científicos) envían sus recetas (las propuestas de proyectos) para pedir que el restaurante les compre los ingredientes y les pague por cocinar.

El problema es que hay demasiadas recetas y muy pocos jueces (los revisores humanos) para probarlas todas. Es como si tuvieras que probar 100 pasteles en una hora; al final, estarás tan cansado que podrías pasar por alto un pastel quemado o, peor aún, no notar que le falta sal.

Los autores de este papel se preguntaron: "¿Podemos usar a un robot inteligente (una Inteligencia Artificial) para ayudar a los jueces a probar estos pasteles?"

Aquí te explico lo que hicieron y qué descubrieron, usando analogías sencillas:

1. El Experimento: "Arruinar las Recetas a Propósito"

Como no podían usar las recetas reales de los chefs (porque son secretos industriales y privados), decidieron hacer algo ingenioso:

  • Tomaron 6 recetas reales que ya habían sido enviadas.
  • Luego, los investigadores sabotearon estas recetas de formas específicas, como si un chef novato hubiera cometido errores graves.
    • Ejemplo de sabotaje: Cambiaron la fecha de entrega para que fuera imposible, quitaron la explicación de por qué necesitan tanto dinero, o borraron la lista de ingredientes clave.
  • Crearon 42 versiones "rotas" de estas recetas.

2. Los Tres Tipos de Jueces Robot

Pusieron a prueba a tres tipos de "robots revisores" para ver cuál detectaba mejor los errores:

  • El Revisor Rápido (Línea Base): El robot lee toda la receta de una sola vez, de un tirón, y dice: "¿Qué tal?".
  • El Revisor Detallista (Nivel de Sección): El robot no lee todo de golpe. Lee primero la lista de ingredientes, luego la sección de la técnica, luego el presupuesto, por separado. Es como leer un libro capítulo por capítulo en lugar de saltar páginas.
  • El Consejo de Expertos (Consejo de Personas): Imagina que en lugar de un solo robot, tienes a 5 robots con personalidades diferentes:
    • Uno es un Contador (solo le importa el dinero).
    • Otro es un Ético (solo le importa si es seguro).
    • Otro es un Tecnólogo (busca cosas nuevas y arriesgadas).
    • Al final, un "Presidente" del consejo junta todas sus opiniones para dar una nota final.

3. Los Resultados: ¿Quién ganó?

Aquí viene lo más interesante, porque los resultados no fueron lo que esperaban:

  • El ganador inesperado: El Revisor Detallista (el que lee por secciones) fue el mejor. Detectó más errores y dio notas más consistentes.
    • La analogía: Es como cuando intentas encontrar un error en un documento de 50 páginas. Si lo lees todo rápido, te pierdes. Pero si revisas página por página, es mucho más fácil ver si falta una coma o un número.
  • El perdedor costoso: El Consejo de Expertos (los 5 robots) no funcionó mejor que el revisor rápido, pero gastó muchísimas más computadoras y tiempo.
    • La analogía: Fue como contratar a 5 inspectores de cocina para revisar un solo pastel, cuando uno solo que leyera bien la receta habría sido suficiente. Además, a veces los 5 robots se confundían entre ellos.
  • Lo que los robots NO vieron:
    • Los robots fueron muy buenos detectando si la receta no coincidía con el menú del restaurante (ej. "pedimos un pastel de pescado para un concurso de postres").
    • Pero fallaron estrepitosamente cuando la receta estaba mal escrita o confusa. Si faltaban explicaciones o había palabras raras sin definir, los robots asumían que todo estaba bien y no dijeron nada.
    • La analogía: Si un chef escribe "mezclar los polvos mágicos" sin decir qué son, el robot piensa: "Ah, interesante, seguro son polvos mágicos". Un humano diría: "¡Espera! ¿Qué polvos? Esto no tiene sentido".

4. La Conclusión: ¿Sirven los robots?

El papel concluye que:

  • No podemos confiar en los robots solos para decidir quién recibe el dinero. Son demasiado propensos a ignorar la confusión y a centrarse solo en reglas estrictas (como si el presupuesto cuadraba matemáticamente) en lugar de juzgar si la idea es genial o viable.
  • Pero sí pueden ser útiles como ayudantes. Imagina al robot como un asistente de cocina que revisa la lista de ingredientes para asegurarse de que no falte nada y que los números cuadren. Luego, el Jefe de Cocina humano (el revisor experto) toma esa lista revisada y decide si la idea es buena o no.

En resumen:
La Inteligencia Artificial es como un revisor muy rápido pero un poco ciego. Es excelente para encontrar errores de formato o de lógica obvia, pero le cuesta mucho entender si una idea es confusa, si falta contexto o si la historia tiene sentido. Por ahora, la mejor estrategia es usar al robot para hacer el trabajo sucio de revisión de detalles, pero dejar que el humano tome la decisión final.