TRACE: End-to-end temporal inference and annotation of animal behaviors from video

本文介绍了 TRACE,一种基于自监督预训练 Transformer 视频编码器和多尺度时序建模的端到端方法,能够直接从原始视频中高精度、可扩展地检测并标注跨物种的动物行为,有效克服了传统人工标注及依赖中间表征的自动化方法的局限性。

Shi, K., Zhang, G.-W., Wang, Z., Zhang, S. K., Tao, H., Zhang, L. I.

发布于 2026-04-15
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TRACE 的新工具,它就像是一个**“超级智能的动物行为翻译官”**。

想象一下,你有一堆长达数小时的监控录像,里面记录着老鼠、果蝇甚至黑猩猩的一举一动。以前,科学家想分析这些录像,只能像**“苦行僧”**一样,坐在电脑前,一帧一帧地看,手动标记:“哦,这只老鼠在挠痒痒,持续了 5 秒”,“那只黑猩猩在走路,持续了 10 秒”。这不仅累死人,而且容易看走眼,效率极低。

TRACE 的出现,就是为了解决这个“看视频看花眼”的难题。

1. 它是怎么工作的?(核心比喻)

以前的自动分析工具,通常像是一个**“骨架画家”**。它们先试图在视频里把动物的关节点(比如鼻子、爪子、尾巴)一个个找出来,画出骨架,然后再根据骨架怎么动去猜它在干什么。

  • 缺点:如果动物被挡住了,或者背景太乱,骨架画歪了,整个分析就崩了。而且,它忽略了动物“长什么样”以及“周围有什么”这些重要信息。

TRACE 则像是一个“有经验的侦探”

  • 不看骨架,看整体:它直接看原始视频,就像人眼一样,同时捕捉动物的动作、样子、表情以及周围的环境。
  • 拥有“时间望远镜”:动物行为有长有短。有的动作像眨眼一样快(比如果蝇求偶时的振翅),有的像散步一样慢(比如黑猩猩坐着发呆)。TRACE 拥有一种特殊的“多尺度时间透镜”,既能看清瞬间的爆发,也能理解漫长的过程,不会顾此失彼。
  • 自我学习:它先通过看大量的通用视频(像人类看动作电影一样)学会了“理解动作”,然后再专门学习动物行为。这就像让一个懂电影的人去学看动物世界,上手非常快。

2. 它有多厉害?(实战表现)

论文里,TRACE 在几个不同的“考场”上接受了测试,表现都非常惊艳:

  • 老鼠的日常生活:在实验室里,它能准确区分老鼠是在梳理毛发站立喝水还是吃东西。即使视频有点模糊,或者训练数据很少,它也能猜得很准。
  • 老鼠的“社交圈”:在著名的“老鼠打架”数据集里,它能精准识别出哪只老鼠在攻击,哪只在调查,哪只在求偶。它的准确率甚至超过了之前所有的冠军模型和谷歌的顶级模型。
  • 跨越物种的通用性
    • 果蝇:它能看懂果蝇复杂的求偶舞蹈(转圈、展翅、交配)。
    • 黑猩猩:在野外摄像头的杂乱画面中,它能识别出黑猩猩是在走路坐着还是悬挂在树上。

3. 它带来了什么改变?

  • 从“手工”到“自动”:以前需要人类花几个月去标注的视频,现在 TRACE 可以在几小时内处理完,而且速度极快(每秒能处理上万帧画面,比人眼快几千倍)。
  • 发现新秘密:因为分析得又快又准,科学家发现了一些以前没注意到的细节。比如,他们发现患阿尔茨海默病的小鼠,比起正常小鼠,更爱站立(rearing),但更少梳理毛发(grooming)。这种细微的行为差异,以前靠人工很难统计出来,现在 TRACE 轻松搞定。
  • 不用“量身定做”:以前分析老鼠和分析果蝇需要完全不同的软件。TRACE 像是一个**“万能钥匙”**,不需要针对每个物种重新设计,直接就能用。

总结

简单来说,TRACE 就是一个能直接“看懂”动物视频,并自动给它们的行为贴上时间标签的 AI 系统。

它不再依赖笨拙的“骨架描边”,而是像人类一样,通过观察整体画面和上下文来理解行为。这让科学家能从海量的视频数据中,轻松提取出珍贵的行为模式,就像给动物行为学研究装上了“涡轮增压”,让研究速度和质量都上了一个大台阶。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →