TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

TATRA 是一种无需训练数据的实例自适应提示方法,它通过即时合成示例来构建针对每个样本的特定提示,在无需任务特定优化的情况下,在文本分类和数学推理基准测试中达到了与甚至超越现有强基线模型的性能。

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski, Przemysław Spurek, Paul Swoboda

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 TATRA 的新方法,它能让大型语言模型(LLM)变得更聪明、更稳定,而且完全不需要任何训练数据

为了让你轻松理解,我们可以把使用大模型做任务(比如判断一句话是褒义还是贬义,或者解一道数学题)想象成**“请一位专家来答题”**。

1. 以前的痛点:专家太“看心情”

想象一下,你请了一位博学的专家(大模型)来帮你做决定。

  • 问题:这位专家虽然很厉害,但他非常敏感。如果你问他:“这部电影好看吗?”他可能回答“好看”;如果你换个说法问:“这电影棒不棒?”他可能突然回答“一般”。哪怕意思完全一样,只是措辞(Prompt)稍微变了一点,他的答案就可能天差地别。
  • 旧方法的笨办法:为了解决这个问题,以前的方法(自动提示工程)通常会这样做:
    • 先找一堆练习题(训练数据)。
    • 让专家做很多遍,不断修改问题,直到找到一个完美的提问方式,能让专家在所有练习题上都答对。
    • 缺点:这需要大量时间、算力和特定的练习题。而且,一旦遇到新任务(比如从“评电影”变成“解数学题”),就得重新找题、重新训练,非常麻烦。

2. TATRA 的绝招:不靠死记硬背,靠“现场发挥”

TATRA 提出了一种**“无训练、无数据”**的全新思路。它不需要提前找练习题,也不需要专门训练专家。它是怎么做的呢?我们可以用三个生动的步骤来比喻:

第一步:现场编故事(合成示例)

当你问专家一个问题时,TATRA 不会直接问。它会先现场编造几个类似的“小例子”,作为参考给专家看。

  • 比喻:就像你要问专家“这道菜咸不咸?”,TATRA 会先给专家看三张参考图:“这道菜很咸(像海盐)”、“这道菜很淡(像白水)”、“这道菜适中(像淡汤)”。
  • 关键点:这些例子是临时生成的,不是从旧题库里抄的。这让专家能立刻进入状态,理解你的意图。

第二步:换个说法问三遍(重述与复述)

TATRA 知道专家容易“看心情”,所以它不会只问一次。它会把你原本的问题,用不同的方式重述 10 次

  • 比喻
    • 原问题:“这部电影好看吗?”
    • 重述 1:“这电影棒不棒?”
    • 重述 2:“你会推荐看这部片子吗?”
    • 重述 3:“这电影值不值得看?”
  • 目的:就像你问朋友同一个问题,如果朋友换了种问法还是回答“好看”,那这个答案就更可信。这能防止专家因为 wording(措辞)的小变化而“翻车”。

第三步:少数服从多数(投票机制)

TATRA 把刚才那 10 个不同问法得到的答案收集起来,进行投票

  • 比喻:如果 10 次提问里,有 8 次专家说“好看”,2 次说“一般”,TATRA 就判定最终答案是“好看”。
  • 效果:通过这种“三思而后行”的投票,即使专家偶尔“抽风”答错了,也能被大多数正确的回答纠正过来,结果非常稳健

3. 为什么 TATRA 很厉害?

  • 省钱省力:它不需要你提供几千条带标签的练习题(训练数据),也不需要花几天几夜去“训练”模型。它是即插即用的。
  • 适应性强:不管你是让它做情感分析、解数学题,还是做医疗问答,它都能现场生成合适的例子和问法,不需要为每个新任务重新设计流程。
  • 效果惊人:论文测试发现,在数学推理(如 GSM8K)和文本分类任务上,TATRA 的表现甚至超过了那些需要大量数据和复杂训练的高级方法。

总结

如果把大模型比作一个才华横溢但有点“神经质”的专家

  • 旧方法是:给他一本厚厚的习题集,让他背熟标准答案,然后只准用一种方式提问。
  • TATRA是:不给他习题集,而是现场给他看几个参考案例,然后换着花样问同一个问题,最后听大多数人的意见得出结论。

这种方法不仅更灵活,而且证明了:针对每一个具体问题,现场生成合适的“例子”和“问法”,比花大力气去优化一个通用的“标准问法”要有效得多。