Thompson Sampling via Fine-Tuning of LLMs

本文提出了基于大语言模型微调的汤普森采样方法(ToSFiT),通过直接参数化候选解的最优概率来规避无梯度离散空间中的采集函数最大化难题,在理论上证明了其后悔界并验证了其在 FAQ 优化、蛋白质搜索及量子电路设计等任务中兼具卓越的样本效率与计算效率。

Nicolas Menet, Aleksandar Terzić, Michael Hersche, Andreas Krause, Abbas Rahimi

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 TOSFIT 的新方法,它利用大型语言模型(LLM)来解决一个非常棘手的科学难题:如何在巨大的、杂乱无章的“可能性海洋”中,快速找到那个“最完美的宝藏”

为了让你轻松理解,我们可以把整个过程想象成在一个巨大的、没有地图的迷宫里寻找“最完美的宝藏”

1. 核心难题:迷宫太大,找不到路

想象一下,你正在寻找一种能抵抗高温的超级蛋白质(就像在寻找一种能防火的超级材料),或者设计一个完美的量子电路。

  • 迷宫有多大? 这里的“可能性”多到不可思议。比如,如果蛋白质由 100 个氨基酸组成,每个位置有 20 种选择,那么可能的组合数量比宇宙中所有原子的总数还要多
  • 传统方法的困境: 以前,科学家试图用“贝叶斯优化”来寻找宝藏。这就像派一个侦探去迷宫里,先画一张地图(概率模型),然后试图计算哪条路最好。但在这么大的迷宫里,没有“路标”(梯度),侦探根本没法算出哪条路最好,因为要检查所有路是不可能的。这就像试图在茫茫大海里用肉眼找到一根特定的针。

2. TOSFIT 的绝招:让“探险家”直接学会直觉

TOSFIT 的核心思想非常巧妙:既然算不出哪条路最好,那就让“探险家”(AI 模型)直接学会“直觉”,让它觉得哪条路最好,就走去哪条路。

  • 以前的做法(像笨侦探): 侦探手里拿着一张不完整的地图,每走一步都要停下来,花大量时间计算:“如果我去左边,概率是多少?如果我去右边,概率是多少?”然后还要在成千上万个路口里挑一个最好的。这太慢了,而且容易算错。
  • TOSFIT 的做法(像直觉大师):
    1. 起点(预训练): 我们派出的“探险家”是一个已经读过万卷书的超级 AI(预训练的大语言模型)。它虽然还没见过这个特定的迷宫,但它已经具备了很强的常识和语言理解能力(比如知道蛋白质怎么折叠,代码怎么写)。
    2. 行动(采样): 探险家不需要计算所有路。它直接根据直觉说:“我觉得走这条路(生成一个候选方案)感觉不错!”然后我们就去测试这条路。
    3. 反馈与微调(Fine-tuning): 测试完发现,这条路确实不错(或者不好)。这时,我们不是重新画地图,而是直接修改探险家的大脑(微调模型参数)。我们告诉它:“刚才那个直觉是对的,下次多往那个方向走;如果错了,下次少往那个方向走。”
    4. 循环: 这个过程不断重复。探险家越来越聪明,越来越接近那个“完美的宝藏”。

3. 为什么要叫“汤普森采样”?

论文里提到的“汤普森采样”(Thompson Sampling),可以想象成一种**“带着不确定性去冒险”**的策略。

  • 普通的探险家可能只敢走它认为 100% 安全的路(太保守,找不到新大陆)。
  • 或者只敢乱走(太冒险,浪费时间)。
  • TOSFIT 的探险家则不同:它知道哪里“可能”有宝藏,但也知道哪里“不确定”。它会故意去一些它觉得“可能很好,但还没完全确认”的地方。这种**“既贪婪又好奇”**的平衡,让它能最快找到最优解。

4. 这个方法的厉害之处

  • 不用算死题: 它避开了那个最难的“计算哪条路最好”的数学题,直接让 AI 生成答案。
  • 越用越聪明: 它利用了 AI 原本就有的知识(预训练),然后像教学生一样,通过不断的“考试 - 反馈 - 复习”(微调),让它专门适应当前的任务。
  • 省时间又省钱: 在三个实际任务中(优化 FAQ 回答、寻找耐热蛋白质、设计量子电路),TOSFIT 都比其他方法(如传统的进化算法、强化学习)找得更快、更好,而且计算成本更低。

5. 生活中的类比

想象你在教一个刚毕业的大学生(LLM)如何写一份完美的“故障排除指南”

  • 传统方法: 你让他先列出所有可能的故障,然后对每一种故障,你都要花一小时去计算哪种解释最好。这太慢了。
  • TOSFIT 方法:
    1. 你让他先凭自己的知识写一份指南(利用预训练知识)。
    2. 你读一下,发现某句话写得太啰嗦,或者某个步骤漏了。
    3. 你直接给他“补课”(微调),告诉他:“下次写这种指南时,要更简洁,步骤要更清晰。”
    4. 他再写一份,你发现进步很大。
    5. 重复几次,他就能写出完美的指南,而且你不需要教他从头学起,只需要修正他的“直觉”。

总结

这篇论文就像是在说:面对那些复杂到让人头秃的搜索问题,不要试图用笨办法去“算”出答案,而是利用大语言模型强大的“直觉”和“常识”,通过不断的“微调”和“反馈”,让模型自己学会如何找到那个完美的答案。

这种方法不仅让 AI 在科学发现(如新药研发、量子计算)中变得更快,也让它变得更像一个聪明的、会学习的助手,而不是一个只会死算的计算器。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →