SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation

本文提出了 SignAgent,一种利用大型语言模型构建的代理框架,旨在通过协调多模态推理与语言学知识,解决手语数据标注中传统方法缺乏语言学深度及人工标注效率低下的瓶颈,从而实现大规模、语音学感知的手语数据集构建与标注。

Oliver Cory, Ozge Mercanoglu Sincan, Richard Bowden

发布于 2026-03-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SignAgent 的新系统,你可以把它想象成一位**“超级手语翻译助理”**。

为了让你更容易理解,我们可以把手语(Sign Language)的学习和整理过程,比作整理一个巨大的、混乱的图书馆

1. 现在的困境:为什么需要 SignAgent?

想象一下,手语就像一本用动作、手势和表情写成的书。

  • 传统方法(旧图书馆员): 以前的电脑程序只能识别“大概意思”。比如,它看到一个人挥手,只能标记为“动作 A",却分不清这是“你好”还是“再见”,更分不清动作的细节(比如手掌是张开还是握拳)。这就像只给书贴上“小说”的标签,却不管具体是哪本书。
  • 人工方法(累坏的专家): 如果要让电脑真正懂手语,需要人类专家逐帧去标注。但这太慢了!专家标注1 分钟的手语视频,可能需要1 小时以上。这就像让一个人手工把图书馆里几百万本书的每一个字都抄写一遍,根本不可能大规模完成。

结果: 我们缺乏足够多、足够详细的手语数据,导致电脑学不会真正的手语。

2. SignAgent 是什么?(新图书馆管理员团队)

SignAgent 不是一个单一的机器人,而是一个由 AI 组成的“智能团队”,专门负责给手语视频做精细的“图书编目”。它由三个核心角色组成:

🧠 角色一:总指挥 (The Orchestrator)

  • 比喻: 就像图书馆的资深馆长
  • 作用: 它不直接去搬书,而是负责思考指挥。它收到一段手语视频后,会思考:“我需要查什么资料?先查动作,再查发音规则,最后决定这本书该放哪。”它会调用下面的工具,并综合所有信息做出最终决定。

📚 角色二:知识宝库 (SignGraph)

  • 比喻: 图书馆的超级索引数据库
  • 作用: 里面存满了手语的“字典”和“语法规则”。比如,它知道“篮球”这个词,可以用单手做,也可以用双手做,但它们在字典里是同一个词的不同变体。总指挥遇到不懂的,就会问它。

🔧 角色三:工具箱 (The Toolset)

  • 比喻: 一群专业的图书分类员
  • 作用: 他们分工明确:
    • 动作分析员: 专门看手是怎么动的(手型、位置、移动轨迹)。
    • 视觉搜索员: 在视频里找相似的动作。
    • 语法校对员: 检查动作是否符合手语的发音规则。

3. SignAgent 是怎么工作的?(两个主要任务)

这个团队主要做两件大事:

任务一:给手语视频“贴标签” (Pseudo-gloss Annotation)

  • 场景: 给你一段手语视频和一句中文翻译(比如“我昨天去了公园”)。
  • 旧方法: 电脑可能乱贴标签,或者顺序搞错。
  • SignAgent 的做法:
    1. 总指挥先让语法校对员把中文翻译成手语的“草稿词”。
    2. 然后,它指挥动作分析员视觉搜索员去视频里找证据:“看,这里的手型像‘去’,那里的动作像‘公园’。”
    3. 最后,总指挥像拼图一样,把找到的证据和草稿词对应起来,排出正确的顺序。
    4. 结果: 它不仅能认出词,还能保证顺序正确,就像把散乱的拼图完美拼好。

任务二:整理“变体” (ID Glossing)

  • 场景: 很多人做同一个动作(比如“篮球”),有人用左手,有人用右手,有人动作快一点,有人慢一点。在电脑眼里,这些看起来都不一样,容易被当成不同的词。
  • SignAgent 的做法:
    1. 它先通过视觉把相似的动作聚在一起(比如把“左手版篮球”和“右手版篮球”先放一起)。
    2. 然后,它问知识宝库:“这两个动作在语言学上算同一个词吗?”
    3. 总指挥综合判断:虽然动作有点不一样,但核心规则(手型、位置)是一样的,所以它们其实是同一个词的“变体”。
    4. 结果: 它能把这些看起来不同的动作,正确地归类到同一个“词”下面,大大减少了混乱。

4. 为什么这很厉害?(成果)

  • 更聪明: 它不是死板地按规则办事,而是像人一样推理。比如,当视觉证据模糊时,它会查语法规则来辅助判断。
  • 更准确: 在测试中,它整理出的标签顺序比以前的方法准得多,特别是在那些很难的句子或动作上。
  • 更清晰: 它能把原本杂乱无章的手语变体,整理成清晰、有逻辑的类别。
  • 可解释: 最重要的是,它每一步都有“理由”。如果你问它为什么这么分类,它能告诉你:“因为手型匹配度 90%,且符合字典规则。”这让语言学家可以信任并检查它的工作。

总结

SignAgent 就像给手语研究配备了一支由 AI 专家组成的“特种部队”

  • 以前,整理手语数据是靠人海战术,慢且贵。
  • 现在,SignAgent 利用大模型的大脑(总指挥)+ 专业的工具(分类员)+ 丰富的知识库(字典),实现了大规模、高质量、且符合语言学逻辑的手语数据整理。

这不仅仅是让电脑“看懂”手语,更是让电脑开始理解手语背后的语言逻辑,为未来真正流畅的手语翻译和交互打下了坚实的基础。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →