Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Each language version is independently generated for its own context, not a direct translation.

Voici une explication de cette recherche, imagée et simplifiée, pour comprendre comment l'Intelligence Artificielle (IA) tente de juger des projets de recherche, et pourquoi ce n'est pas encore aussi simple qu'il n'y paraît.

Imaginez que vous êtes le gardien d'un trésor immense : le budget de la recherche scientifique. Chaque année, des milliers de chercheurs viennent vous demander de l'argent pour leurs idées. C'est un travail colossal, et les gardiens humains (les experts) sont épuisés, fatigués et débordés. C'est ce que les auteurs appellent un « piège malthusien » : on a de plus en plus de demandes, mais pas assez de gardiens pour les vérifier.

L'idée de cette étude est de demander à un robot très intelligent (une IA) de nous aider à trier ces demandes. Mais avant de lui confier le trésor, les chercheurs de Sheffield et Manchester ont voulu tester si ce robot était vraiment fiable.

1. Le test du « Sabotage » (La Perturbation)

Pour tester le robot, ils ne pouvaient pas simplement lui donner des projets normaux. Ils ont eu une idée géniale : ils ont pris 6 vrais projets de recherche (comme des plans d'architecte) et ils les ont volontairement sabotés.

Imaginez que vous avez un plan de maison parfait. Pour tester l'œil du robot, vous allez :

Changer le budget pour qu'il soit absurde (trop cher ou trop bas).
Supprimer les noms des experts qui doivent construire la maison.
Effacer les dates importantes pour que le chantier soit impossible à finir.
Rendre le texte incompréhensible en enlevant les définitions des mots techniques.

Ils ont créé 42 versions différentes de ces projets sabotés. C'est comme si on avait caché 42 défauts différents dans 6 maisons pour voir si le robot les repérait.

2. Les trois façons de regarder le projet

Les chercheurs ont testé trois méthodes pour que le robot lise ces projets :

Le Lecteur Rapide (Baseline) : Le robot lit tout le projet d'un seul coup, comme quelqu'un qui feuillette un livre entier en 5 minutes.
Le Détective par Étages (Section-Level) : Le robot ne lit pas tout d'un coup. Il examine d'abord le budget, puis l'équipe, puis le calendrier, pièce par pièce, comme un inspecteur qui visite chaque étage d'un immeuble séparément.
Le Conseil de Sages (Council of Personas) : C'est la méthode la plus complexe. Le robot se divise en 5 personnalités différentes (un expert en argent, un expert en éthique, un sceptique, un fan de technologie, etc.). Chacun donne son avis, puis ils votent pour une décision finale, comme un jury dans un tribunal.

3. Les résultats surprenants

Voici ce qu'ils ont découvert, avec des analogies simples :

Le détective par étages gagne : La méthode où le robot lit le projet pièce par pièce est de loin la meilleure. Elle repère beaucoup plus de défauts et donne des notes plus cohérentes. C'est comme si on disait : « Mieux vaut inspecter chaque pièce d'une maison une par une que de courir dans tout le bâtiment en 5 minutes ».
Le Conseil de Sages est trop lent et inutile : Faire voter 5 personnalités différentes ne donne pas de meilleurs résultats que le simple lecteur rapide, mais cela coûte énormément de temps et d'énergie. C'est comme envoyer 5 experts pour acheter un pain : ça ne coûte pas moins cher, et le résultat est le même.
Le robot est myope sur certains détails :
- Il est très bon pour repérer les erreurs grossières : si le budget ne correspond pas au projet ou si l'équipe ne correspond pas à la demande, il le voit tout de suite.
- Il est très mauvais pour repérer le manque de clarté. Si le texte est flou, si les acronymes ne sont pas définis ou si le style est confus, le robot ne s'en rend presque jamais compte. Il a tendance à « deviner » ce qui est écrit au lieu de dire : « Attends, je ne comprends pas ce mot ! ». C'est comme un lecteur qui devine la fin d'une histoire sans avoir lu les pages manquantes.

4. Le verdict final : Un assistant, pas un patron

L'étude conclut que l'IA actuelle ne peut pas remplacer les humains pour décider qui reçoit l'argent. Pourquoi ?

Les humains sont capables de voir le « grand tableau » : ils sentent si une idée est brillante, même si elle est mal écrite.
L'IA, elle, est très bonne pour vérifier la conformité (est-ce que le budget est dans les règles ? est-ce que les dates sont logiques ?), mais elle manque de jugement global.

En résumé :
Imaginez que l'IA est un assistant de bureau très rapide. Elle peut trier les dossiers, vérifier que les chiffres sont justes et repérer les erreurs de calcul. Mais elle ne devrait jamais être seule à décider qui obtient le financement. Elle doit rester un outil d'aide, sous la supervision d'un humain qui, lui, possède l'intuition et l'expérience pour juger de la véritable valeur d'une idée scientifique.

Cette recherche nous dit : « L'IA est un super outil pour faire le ménage, mais ne lui donnez pas les clés de la maison toute seule. »

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Evaluating LLM-Based Grant Proposal Review via Structured Perturbations » (Évaluation de l'examen de propositions de subventions par les LLM via des perturbations structurées), rédigé en français.

1. Problématique et Contexte

Le système de recherche mondial fait face à un « piège malthusien » : le volume des demandes de subventions explose (presque doublé au Royaume-Uni depuis 2017) tandis que les taux d'attribution chutent et que la capacité d'examen humain stagne. Cela entraîne une fatigue des examinateurs et des cycles de décision prolongés.

Bien que les politiques autorisent de plus en plus les candidats à utiliser l'IA générative (GenAI) pour rédiger leurs propositions, l'utilisation de ces outils par les examinateurs reste interdite, créant une asymétrie. Si les LLM (Large Language Models) peuvent aider à l'examen, leur fiabilité dans ce contexte à haut risque (évaluation prospective, enjeux financiers et de carrière) n'est pas encore prouvée. Contrairement à l'examen de papiers de conférence (rétrospectif), l'examen de subventions est prospectif, administratif et nécessite une évaluation holistique de la faisabilité, de la valeur pour l'argent et de l'impact national.

Le défi principal est le manque de données : les propositions de subventions sont des actifs confidentiels contenant de la propriété intellectuelle, ce qui rend impossible la création de grands ensembles de données annotés pour entraîner ou évaluer des modèles d'examen.

2. Méthodologie

Pour contourner le manque de données, les auteurs proposent une approche basée sur la perturbation pour évaluer la sensibilité des LLM.

Données : Utilisation de 6 propositions réelles soumises au Engineering and Physical Sciences Research Council (EPSRC) du Royaume-Uni.
Taxonomie de Perturbation : Les auteurs dégradent systématiquement la qualité de ces propositions en introduisant des défauts contrôlés selon six axes clés de l'évaluation EPSRC :
1. Financement (budgets incohérents, justifications manquantes).
2. Calendrier (délais irréalistes, incohérences avec les jalons).
3. Compétence (suppression d'experts clés, affaiblissement des preuves d'expertise).
4. Alignement (désalignement avec les objectifs de l'appel à projets).
5. Clarté (suppression d'acronymes, ambiguïté méthodologique).
6. Impact (parties prenantes non pertinentes, portée modifiée).
  Cela génère 42 conditions de défauts distinctes par proposition.
Architectures d'Examen Comparées :
1. Baseline (Zero-shot) : Un modèle unique (GPT-OSS-20B) reçoit toute la proposition en une seule fois.
2. Examen par Section : La proposition est divisée en groupes logiques (Vision, Équipe, Financement, Éthique) pour réduire la charge cognitive et améliorer la précision.
3. Conseil de Personnes (Council of Personas) : Une approche ensembliste simulant un panel d'experts avec cinq personnalités biaisées (Analyste des coûts, Évaluateur éthique, Evangeliste technologique, Sceptique méthodologique, Champion de l'impact) dont les avis sont synthétisés par un président.
Évaluation :
- Détection de Perturbation : Des modèles "juges" (Qwen3.5, Nemotron, GLM-4) vérifient si les LLM examinateurs ont identifié les défauts introduits avec un sentiment négatif approprié.
- Alignement avec l'Humain : Comparaison des revendications (claims) générées par les LLM avec les commentaires réels d'experts humains (analyse de validité, de contradiction et de sévérité).

3. Contributions Clés

Cadre d'évaluation par perturbation : Une méthode novatrice pour évaluer les systèmes LLM dans des domaines à données rares et à haute sensibilité, transformant un petit nombre de documents réels en un benchmark robuste de 42 scénarios de défauts.
Architecture "Council of Personas" : Développement d'une architecture ensembliste visant à imiter la diversité des perspectives d'un panel d'experts, bien que les résultats montrent des limites sur ce point spécifique.
Analyse comparative approfondie : Une évaluation empirique mettant en lumière les écarts entre les capacités de détection des LLM et les jugements nuancés des examinateurs humains du UKRI.

4. Résultats Principaux

Performance des Architectures :
- L'approche par section surpasse significativement les autres méthodes en termes de taux de détection (moyenne $\mu = 0,29$ ) et de fiabilité du score (ICC = 0,50).
- L'approche Conseil de Personnes, bien que coûteuse en calcul, n'offre aucune amélioration par rapport à la baseline (ICC = 0,11) et est statistiquement indistinguable de celle-ci.
- La baseline (traitement global) souffre d'une forte variance et d'une faible détection.
Sensibilité aux Types de Perturbation :
- Alignement : Très bien détecté ( $\mu = 0,41$ ), probablement car les modèles ont appris les structures des appels à projets lors de l'entraînement.
- Clarté : Presque totalement manquée ( $\mu = 0,06$ ). Les LLM ont tendance à combler les lacunes sémantiques et à résoudre les ambiguïtés plutôt qu'à signaler l'absence de définitions ou de clarté.
- Les autres axes (Financement, Calendrier, Impact) montrent des taux de détection intermédiaires mais variables.
Alignement Humain-Modèle :
- Les commentaires des LLM sont majoritairement valides et non contradictoires par rapport aux humains.
- Cependant, les LLM sont biaisés vers la vérification de la conformité (ex: gouvernance des données, GDPR) plutôt que vers l'évaluation holistique de la valeur scientifique.
- Les LLM génèrent plus de revendications négatives que les humains, mais celles-ci sont souvent moins alignées avec les priorités réelles des panels (qui se concentrent sur la faisabilité et l'impact stratégique).

5. Signification et Conclusion

L'étude conclut que les LLM actuels ne sont pas prêts pour un examen de subventions entièrement automatisé en raison de leur variabilité élevée et de leurs priorités d'évaluation désalignées (trop focalisés sur la conformité, incapables de détecter les problèmes de clarté subtils).

Cependant, ils offrent une valeur complémentaire significative en tant qu'outils d'assistance sous supervision humaine, particulièrement pour :

La vérification structurée de l'alignement avec les appels à projets.
La détection de problèmes de conformité réglementaire que les humains pourraient négliger.
La réduction de la charge administrative.

L'article souligne la nécessité de développer des architectures spécifiques (comme l'examen par section) plutôt que de simplement augmenter la taille du contexte ou la complexité des modèles pour ce type de tâche critique. Les auteurs ont rendu leur code et leurs données non protégées disponibles pour la communauté.

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

1. Le test du « Sabotage » (La Perturbation)

2. Les trois façons de regarder le projet

3. Les résultats surprenants

4. Le verdict final : Un assistant, pas un patron

1. Problématique et Contexte

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

5. Signification et Conclusion

Articles similaires

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance