Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications

本文提出了 MINT 框架,通过利用高质量多模态数据训练上游模型来生成偏好数据,进而优化下游单模态大语言模型,使其在仅依赖文本或图像输入的情况下,仍能掌握多模态生物医学领域的专业知识并显著提升在罕见遗传病预测和组织分类等任务上的性能。

Zhanliang Wang, Da Wu, Quan Nguyen, Zhuoran Xu, Kai Wang

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MINT 的新方法,它的核心目的是教给大型人工智能模型(LLM)一些它们原本不懂的“专业医疗技能”,而且不需要给这些模型喂海量的专业数据。

为了让你更容易理解,我们可以把整个过程想象成**“一位天才通才学生(大模型)向一位经验丰富的老专家(多模态模型)拜师学艺”**的故事。

1. 背景难题:通才学生 vs. 专业考题

  • 大模型(LLM):就像一位博学的通才学生。他读过世界上所有的书,说话流利,逻辑强,什么都能聊。但是,如果让他去解决非常专业的医疗问题(比如根据病人的面部特征和病历猜罕见病,或者根据细胞图片判断组织类型),他往往会“瞎编”或者答非所问,因为他没受过专门的医学训练。
  • 传统方法(SFT)的局限:以前,如果想让这位学生变专业,我们通常会把所有相关的医学教科书和病例都塞给他,让他死记硬背(这叫“监督微调”)。但这有个大问题:
    1. 好数据太少:高质量的医疗数据(特别是包含图片和文字的)非常稀缺且昂贵。
    2. 容易“变傻”:如果死记硬背太多,学生可能会忘记自己原本通晓的语言能力,变得只会背题,不会灵活思考。

2. MINT 的解决方案:聪明的“拜师学艺”

MINT 不想让学生死记硬背,而是想让他学会“怎么思考”

  • 第一步:请一位“老专家”当考官(上游模型)
    论文里有一个已经训练好的、非常专业的“老专家”(比如 GestaltMML 或 PLIP 模型)。这位专家既懂文字又懂图片,能准确判断病情。

    • 比喻:这位老专家手里有一本“标准答案集”。
  • 第二步:制造“错题本”和“红黑榜”(偏好数据集)
    MINT 不直接让老专家教学生“正确答案是什么”,而是让老专家来打分和排雷

    • 老专家会列出:哪些病是最可能的(“红榜/首选”),哪些病是绝对不可能的(“黑榜/拒绝”)。
    • 比喻:这就好比老专家对学生说:“看到这张脸,肯定是 A 病,绝对不是 B 病和 C 病。”
  • 第三步:学生通过“对比”来学习(偏好优化)
    学生(大模型)看着老专家列出的“红黑榜”进行训练。他不需要知道所有细节,只需要学会:“当出现这种情况时,要优先选红榜的,坚决避开黑榜的。”

    • 这种方法叫偏好优化(Preference Optimization)。它比死记硬背更高效,因为它教会了模型**“什么是对的,什么是错的”**这种直觉。

3. 两个精彩的实战案例

案例一:根据文字猜罕见病(文字任务)

  • 场景:医生只给了一段文字描述(病人长什么样、有什么症状),让 AI 猜是什么罕见病。
  • MINT 的表现
    • 普通的 AI 模型(或者只背过书的模型)经常猜错,或者把名字相似的病搞混。
    • MINT 模型:它虽然只看文字,但它脑子里有老专家(看过病人照片的模型)留下的“直觉”。
    • 比喻:就像学生虽然没看过照片,但通过老专家的“红黑榜”训练,学会了:“虽然‘多毛’这个症状很像 B 病,但结合‘眉毛连在一起’这个特征,老专家说绝对排除 B 病,锁定 A 病。”
    • 结果:MINT 模型猜对的概率比那些专门训练过的医疗大模型还要高,甚至比那些参数大得多的超级模型(405B 参数)还要强!

案例二:看细胞图片分组织(图片任务)

  • 场景:给 AI 看一张细胞核的显微镜图片,问这是身体哪个部位的细胞(比如是肝脏还是结肠)。
  • MINT 的表现
    • 有些组织长得非常像(比如结肠和胆管),普通模型很容易看走眼。
    • MINT 模型:通过老专家(PLIP 模型)提供的“红黑榜”,它学会了区分那些细微的差别。
    • 比喻:普通模型看到像“胆管”的细胞就说是胆管;MINT 模型则像一位经验丰富的病理医生,能敏锐地指出:“虽然长得像,但根据老专家的‘黑榜’提示,这个特征其实属于‘结肠’,要排除胆管。”
    • 结果:准确率几乎翻倍,而且没有破坏模型原本看图说话的能力。

4. 为什么这个方法很厉害?(核心优势)

  1. 不丢本行:学生学会了医术,但并没有忘记怎么聊天、怎么写诗。他的通用能力没有退化。
  2. 数据省:不需要海量的专业数据,只需要老专家生成的“红黑榜”(偏好数据),就能达到很好的效果。
  3. 减少胡说八道:通过明确告诉模型“哪些是错的”,大大减少了 AI 瞎编乱造(幻觉)的情况。
  4. 灵活组合:如果遇到了老专家也没见过的罕见病,MINT 还可以结合“检索工具”(RAG),像查字典一样补充知识,两者互补。

总结

MINT 就像是一个高效的“知识转移器”。它不直接把海量的医疗知识灌给大模型,而是让一个专业的“多模态老专家”给大模型画出一张**“避坑指南”和“重点推荐清单”**。大模型通过对比学习,迅速掌握了医疗领域的“直觉”和“判断力”,从而在保持聪明灵活的同时,变成了专业的医疗助手。

这对于未来在医疗、法律等需要高度专业知识的领域应用 AI,是一个巨大的进步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →