Influencing LLM Multi-Agent Dialogue via Policy-Parameterized Prompts

该论文提出了一种无需训练的参数化提示框架,通过将提示视为基于智能体状态动态构建的“动作”,成功实现了对大语言模型多智能体对话行为(如反驳、证据使用及立场转变)的有效引导,为社交模拟方向的多智能体系统研究提供了新思路。

Hongbo Bo, Jingyu Hu, Weiru Liu

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让 AI 机器人像真人一样进行“有策略”的对话的研究。

想象一下,你正在组织一场激烈的辩论赛,参赛者不是真人,而是三个由大语言模型(LLM)驱动的 AI 机器人。它们分别扮演“农民”、“环保主义者”和“社区代表”。

1. 核心问题:以前的 AI 对话像“无头苍蝇”

在以前的研究中,让 AI 进行多角色对话,通常只是给它们一个随机的指令(比如“请开始辩论”)。这就像给三个机器人发了一张白纸,让它们自己发挥。

  • 结果:它们可能聊得很嗨,但往往重复啰嗦、没有逻辑,或者突然“失忆”忘了自己的立场。
  • 痛点:研究者很难控制它们的行为,就像你无法通过给演员一张白纸来导演一场电影。

2. 创新方案:把“提示词”变成“遥控器”

这篇论文的作者提出了一种新方法:把“提示词(Prompt)”本身看作是一种“动作”

他们设计了一个轻量级的“策略遥控器”。这个遥控器不是用来训练 AI 的(不需要像教小孩一样花几个月去训练),而是通过实时调整 AI 接收到的“指令包”来指挥它。

这个“指令包”由五个部分组成(就像做菜的配方):

  1. 任务与人设 (T):告诉 AI“你是谁”(比如:你是一个关心粮食安全的农民)。
  2. 记忆 (M):告诉 AI“刚才大家说了什么”(对话历史)。
  3. 知识库 (D):给 AI 提供“证据”(比如:政府关于土地政策的文件)。
  4. 规则模板 (R):给 AI 设定“说话格式”(比如:先反驳,再给证据,最后总结)。
  5. 权重 (W):这是最关键的**“音量旋钮”**。你可以调节 AI 在说话时,更听谁的?
    • 把“人设”的音量调大?它会更固执地坚持立场。
    • 把“证据”的音量调大?它会更多引用数据。
    • 把“记忆”的音量调大?它会更关注刚才别人说了什么,而不是自说自话。

3. 生动的比喻:AI 对话的“导演系统”

想象这场辩论赛是一个直播现场

  • 以前的做法:导演(研究者)只是喊一声“开始!”,然后三个 AI 演员就自己瞎演。演得好不好,全看运气。
  • 这篇论文的做法:导演手里拿着一个智能提词器 + 音量控制台
    • 规则模板 (R) 就像是剧本大纲
      • 无规则:演员自由发挥。
      • 轻规则:演员必须“先回答问题,再给理由”。
      • 强规则:演员必须“先列出三个反对意见,再引用数据,最后总结”。
    • 权重 (W) 就像是混音台
      • 如果 AI 刚才忘了引用数据,导演就把“证据 (D)"的音量旋钮拧大,强迫它下一句必须带数据。
      • 如果 AI 开始重复啰嗦,导演就把“记忆 (M)"的音量调低,或者把“人设 (T)"的音量调高,让它回归角色。
    • 自适应调整:这个系统甚至能自动调节。比如辩论刚开始,系统会自动让 AI 多引用“证据”来立人设;辩论快结束时,系统会自动让 AI 多关注“记忆”来回应对手,让对话更流畅。

4. 实验结果:真的有用吗?

作者让 AI 在两个场景下辩论(一个是“土地能不能随便用”,一个是“教育资源怎么分”),并测试了不同的“遥控器设置”。

  • 发现 1:规则能改变风格
    如果给 AI 加上“强规则”,它们就不怎么重复啰嗦了,逻辑更清晰;如果给它们“轻规则”,它们更愿意引用外部证据。
  • 发现 2:旋钮能控制行为
    如果把“人设”的音量调大,AI 就会更爱“抬杠”(反驳),立场更坚定;如果把“证据”的音量调大,它们说话就更像专家。
  • 发现 3:多样性很重要
    如果三个 AI 用的是同一个大脑(同一个模型),它们聊起来就像三个复读机;如果让它们用不同的大脑(不同模型),对话就生动多了。

5. 总结:这意味着什么?

这篇论文的核心贡献在于,它不需要重新训练 AI,就能像指挥交通一样,通过微调“提示词”的配方,精准控制 AI 多智能体系统的对话行为。

  • 对未来的意义:这为社会模拟打开了一扇新大门。
    • 以前,我们想模拟“如果政策变了,公众舆论会怎么变”,很难控制变量。
    • 现在,我们可以像调收音机一样,精确地调节 AI 群体的“性格”、“逻辑严密度”和“情绪倾向”,从而在计算机里模拟出更真实、更多样化的社会舆论演变过程。

一句话总结
这就好比给 AI 演员发了一套可调节的“剧本”和“扩音器”,让研究者不用重新教它们说话,就能轻松导演出一场逻辑严密、立场鲜明且充满互动的精彩辩论。