User-driven development and evaluation of an agentic framework for analysis… — 通俗解释

原作者： Corradi, M., Djidrovski, I., Ladeira, L., Staumont, B., Verhoeven, A., Sanz Serrano, J., Rougny, A., Vaez, A., Hemedan, A., Mazein, A., Niarakis, A., de Carvalho e Silva, A., Auffray, C., Wilighagen

发布于 2026-03-12

📖 1 分钟阅读☕ 轻松阅读

查看于 bioRxiv ↗PDF ↗

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个名为 Llemy 的聪明小助手是如何诞生的，以及它如何帮助科学家们在巨大的“生物知识迷宫”中轻松导航。

我们可以把这篇论文的故事想象成：一群科学家试图教一个超级 AI 如何当一名“生物地图导游”。

以下是用通俗语言和生动比喻对这篇论文的解读：

1. 背景：面对一座巨大的“生物图书馆”

想象一下，科学家手里有一本本极其复杂的“生物地图”（比如肝脏代谢图、神经退行性疾病图）。这些地图不是普通的纸片，而是由成千上万个分子、化学反应和路径组成的超级迷宫。

问题：这些迷宫太大了，而且格式各异。新手科学家（甚至老手）进去很容易迷路，找不到想要的信息，就像在巨大的图书馆里找一本没写书名、没写作者的书。
机会：现在有了大语言模型（LLM），就像是一个读过全世界所有书的超级大脑。大家想：“能不能让这个超级大脑帮我们读这些地图，告诉我们答案？”

2. 主角登场：Llemy（一个由用户“养大”的导游）

作者们没有闭门造车，而是采用了一种**“用户驱动”**的方法。

黑客马拉松（Hackathon）：就像是一场**“创意烹饪大赛”**。一群专家（医生、生物学家、程序员）聚在一起，在两天内快速做出了 Llemy 的雏形。大家直接告诉开发者：“我们需要它能回答这类问题，不能犯那种错。”
Llemy 的工作原理：
1. 你问它一个问题（比如：“这个病是怎么影响肝脏的？”）。
2. Llemy 不会瞎编，它会立刻去查**官方数据库（MINERVA 平台）**里的“地图”。
3. 它把查到的事实和自己的“大脑”结合起来，给你一个总结，并且像导游指路一样，在回答里直接给你贴上“地图坐标”的链接，让你能点进去看原图验证。

3. 测试环节：25 位“试飞员”的反馈

为了看看 Llemy 好不好用，作者们找了 25 位专家来试用，就像试飞员测试新飞机。

测试内容：他们让 Llemy 做三件事：
1. 总结（Summarise）：把整张复杂的地图概括成一段话。
2. 查找（Find）：在地图里找特定的零件（比如“找出所有的酶”）。
3. 分析（Analyse）：推演如果某个零件坏了，会发生什么连锁反应。
用户打分：用户给回答的准确性、简洁性和可靠性打分（1-5 分）。

4. 测试结果：它很聪明，但还有点“小脾气”

优点：
- 总结能力很强：在“总结”任务上，大家给它打了高分。它能把复杂的迷宫讲得头头是道。
- 透明度高：它不像有些 AI 那样“一本正经地胡说八道”，它会告诉你答案是从哪张图的哪个角落找到的，你可以随时去核对。
- 省时：75% 的用户觉得用它省了时间。
缺点（也是改进方向）：
- 反应慢，分数就低：如果它思考太久，用户就会觉得体验不好（就像等外卖等太久会饿死一样）。
- 名字认不全：如果科学家用“学名”提问，它可能认识；但如果用“俗名”或“别名”，它有时会懵圈，找不到对应的零件。
- 回答不稳定：同样的问题问两次，它可能会给出两个稍微不一样的答案，或者链接有时候会失效。这就像是一个导游，今天指的路很准，明天可能就把你带偏了。

5. 未来计划：让它变得更完美

作者们根据大家的反馈，列出了一份**“升级清单”**：

跑得更快：优化系统，减少等待时间。
更懂行话：训练它识别各种生物名词的别名，不再“认生”。
更稳定：确保每次回答都靠谱，链接都能点得开。
开源化：未来计划使用更开放、更透明的 AI 模型，而不是依赖昂贵的商业模型，这样科学家们可以免费、安全地使用它。

总结

这篇论文的核心思想是：科技工具不能只由程序员在办公室里决定，必须让真正使用它的科学家（用户）参与设计和测试。

Llemy 就像是一个正在实习的生物导游。虽然它现在偶尔会迷路或反应慢，但通过不断的“用户反馈”和“实战演练”，它正在迅速成长为一名能帮科学家在复杂生物迷宫中轻松指路的得力助手。这不仅是一个软件的开发故事，更是一次关于**“如何让人工智能真正服务于科学研究”**的生动实验。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于《用户驱动的大型通路图分析代理框架的开发与评估》（User-driven development and evaluation of an agentic framework for analysis of large pathway diagrams）论文的详细技术总结。

1. 研究背景与问题 (Problem)

知识爆炸与导航困难： 生物医学知识库（如分子相互作用图、知识图谱）的规模和复杂性日益增加。这些资源通常以 SBGN（系统生物学图形表示法）和 SBML（系统生物学标记语言）标准格式存储，并托管在 MINERVA 平台上。然而，对于新手用户甚至领域专家而言，导航这些格式各异、接口不同且粒度不一的大型图谱极具挑战性。
现有工具的局限性： 虽然大型语言模型（LLM）在总结和分析结构化知识方面展现出潜力，但目前缺乏专门针对分子相互作用图（Molecular Interaction Maps） 的专用解决方案。现有的 LLM 应用多集中于通用文献检索或知识图谱生成，难以直接处理高度交互式、包含特定生物学上下文的图谱数据。
核心需求： 需要一种能够直接访问、解释和总结这些复杂图谱的 LLM 代理系统，且该系统的开发必须通过直接参与目标用户群体（领域专家）来确保其实用性。

2. 方法论 (Methodology)

本研究采用用户驱动（User-driven） 的开发流程，核心是开发并评估名为 Llemy 的 LLM 代理系统。

2.1 开发流程

黑客马拉松原型设计： 项目始于 2025 年 5 月在比利时列日大学举行的为期两天的黑客马拉松。参与者包括肝毒性学家、图谱策展人、计算生物学家和 LLM 专家。
- 用例： 以肝脏脂质和胆汁代谢图谱为例。
- 初始架构： 设计了双代理并行收集信息（一个从 MINERVA 平台获取图谱数据，一个从 Perplexity 获取深度研究信息），再由第三个合成代理（OpenAI GPT-4.1）进行总结。
系统架构 (Llemy)：
- 技术栈： 基于 Python 构建，前端使用 Streamlit，后端代理逻辑使用 LangChain，核心模型为 GPT-4.1-nano。
- 工作流程（如图 1 所示）：
  1. 用户输入： 用户选择特定图谱并输入提示词（Prompt）。
  2. 提示词增强： 系统自动为提示词添加指令，确保输出具有科学焦点、上下文感知并包含文献引用。
  3. 数据检索： 检索代理通过 MINERVA API 并行获取选定图谱的元素（节点）、反应（边）和注释。
  4. 合成与生成： 合成代理将增强后的提示词与图谱数据（文本化后的元素 ID、反应类型、文献 ID）结合，生成回答。
  5. 后处理： 系统自动将回答中引用的图谱元素 ID 转换为可点击的超链接，并记录错误处理状态以确保可追溯性。
- 部署： 部署在云端（VHP4Safety），支持本地 Docker 部署。API 密钥仅在会话期间存储以保障安全。

2.2 用户研究与评估设计

参与者： 通过 Disease Maps Community 招募了 25 名用户（包括图谱开发者、策展人和普通用户）。
评估指标：
- 提示词数据集 (Prompt Dataset)： 收集了 157 个用户提示及其回复。用户针对每个回复在准确性 (Accuracy)、简洁性 (Conciseness) 和可靠性 (Reliability) 三个维度上进行 1-5 分评分，并提供自由文本评论。
- 总结数据集 (Summary Dataset)： 19 名用户填写的最终问卷，评估整体易用性、生产力及系统输出的一致性。
统计分析： 使用 R 语言进行统计，采用累积链接混合模型 (Cumulative Link Mixed Model, CLMM) 分析响应时间对评分的影响，并使用 Dunn 检验进行类别间的差异比较。

3. 主要贡献 (Key Contributions)

Llemy 系统： 首个专门用于探索和分析大型分子相互作用图的 LLM 代理框架。它实现了从图谱数据到自然语言回答的无缝连接，并支持可追溯的文献引用。
用户驱动的迭代开发模式： 展示了从黑客马拉松原型到成熟系统的完整生命周期，强调了领域专家在提示词设计、系统评估和功能优先级排序中的核心作用。
评估框架： 建立了一套针对交互式图谱探索任务的评估体系，包括将用户提示分类为“总结 (Summarise)"、“查找 (Find)"和“分析 (Analyse)"三类，并量化了不同任务类型的系统表现。
开源与可复现性： 代码托管于 GitHub (Apache 2.0 许可)，并提供公共访问实例，促进了开放科学环境下的工具共享。

4. 研究结果 (Results)

4.1 性能评估

评分概况： 中位数评分分别为：准确性 4 分，简洁性 3 分，可靠性 4 分。
响应时间影响： 响应时间与用户评分呈显著负相关（ $\beta = -0.34, p < 0.001$ ），即响应越慢，用户感知的质量越低。
任务类别差异：
- “总结 (Summarise)"任务（如总结特定通路机制）获得了最高的平均评分。
- “查找 (Find)"任务（如检索特定元素或上下游目标）评分分布较广且整体较低，表明在包含图谱内容的提示词中进行精确检索具有较高难度。
- 统计上未发现类别间存在显著差异，但趋势明显。

4.2 定性反馈分析

高评分原因： 系统能全面总结、正确识别跨子图的通路连接，并在实体缺失时恰当地承认局限性。
低评分原因： 存在事实性错误、未能定位现有图谱内容、编造或错配反应引用。
关键挑战：
- 同义词处理： 系统难以识别 HGNC 标准名称与常用缩写之间的对应关系。
- 上下文感知： 有时未能结合特定器官或领域的上下文（如未提及肝脏特异性）。
- 引用可靠性： 可靠性评分高度依赖于超链接的有效性。链接失效或引用结构不一致会显著降低评分。
输出一致性： 几乎所有用户（24/25）报告了系统输出存在显著变异性（Variability），即相同提示词在不同时间产生不同结果，这是当前 LLM 的已知局限。

4.3 用户满意度

易用性： 超过 80% 的用户给予 4 或 5 分的高分，认为系统易于使用。
实用性： 75% 的用户认为使用 Llemy 节省了时间。但在“仅用户”（非开发者/策展人）群体中，对实用性的评价较为分化。

5. 意义与展望 (Significance & Future Work)

降低复杂图谱的使用门槛： Llemy 证明了 LLM 可以作为进入复杂生物医学图谱的有效入口，通过自然语言交互降低分析门槛。
开放权重模型的必要性： 鉴于当前商业 LLM 输出的一致性问题，研究建议未来转向开放权重（Open-weight）LLM。这不仅能提高结果的可复现性，还能适应开放科研环境的需求，尽管这需要专门的计算基础设施。
未来路线图：
- 短期： 优化系统架构以减少响应时间，提高引用链接的准确性。
- 中期： 针对“总结”、“查找”、“分析”等不同任务开发专用工作流。
- 长期： 将 Llemy 功能通过插件形式集成到 MINERVA 平台 GUI 中，并利用模型上下文协议 (MCP) 优化交互。
持续的用户参与： 强调需要持续的用户驱动开发和基准测试（Benchmarking），以应对快速变化的 LLM 技术 landscape，并扩大参与人群以覆盖更多样化的任务场景。

总结： 该论文不仅介绍了一个具体的生物信息学工具（Llemy），更重要的是提出并验证了一种**“用户驱动 + 代理框架 + 持续评估”**的开发范式，为未来构建面向复杂科学数据的 AI 辅助系统提供了重要的方法论参考。

User-driven development and evaluation of an agentic framework for analysis of large pathway diagrams