Animal behavioral analysis and neural encoding with transformer-based self-supervised pretraining

该论文提出了 BEAST 框架,通过结合掩码自编码与时序对比学习对 Transformer 进行自监督预训练,有效利用无标签视频数据,在多种物种及单/多动物场景下显著提升了神经行为分析、姿态估计及动作分割等任务的性能。

Yanchen Wang, Han Yu, Ari Blau, Yizi Zhang, The International Brain Laboratory, Liam Paninski, Cole Hurwitz, Matt Whiteway

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 BEAST 的新工具,它的名字很有趣,全称是“通过 Transformer 自监督预训练进行行为分析”(BEhavioral Analysis via Self-supervised pretraining of Transformers)。

为了让你轻松理解,我们可以把这项研究想象成教一个超级聪明的“动物行为观察员”如何看懂视频

1. 现在的困境:需要“填鸭式”教学

在神经科学和动物行为研究中,科学家想通过看动物的视频来理解它们的大脑在想什么。

  • 以前的做法:就像教一个学生认字,必须给他看成千上万张已经标好答案的图片。比如,要在视频里标记出老鼠的鼻子、爪子在哪里(姿态估计),或者它是在“梳理毛发”还是“打架”(行为分割)。
  • 问题:这非常耗时耗力。就像让老师一张一张地批改作业,而且如果换了个物种(比如从老鼠换成鱼),或者换了个实验环境,之前的“老师”可能就不管用了,得重新招人重新教。

2. BEAST 的解决方案:自学成才的“天才观察员”

BEAST 的核心思想是:别只盯着答案教,让模型自己从海量视频里“悟”出规律。

它使用了两种独特的“学习方法”(自监督学习):

  • 方法一:玩“找茬”游戏(掩码自动编码)

    • 比喻:想象你给观察员看一张老鼠的照片,但故意把照片的一大部分(比如 75%)涂黑遮住。
    • 任务:观察员必须根据露出的部分,猜出被遮住的地方长什么样。
    • 效果:这迫使观察员记住老鼠的毛发纹理、身体结构等细节。这就像让观察员练就了一双“火眼金睛”,能看清每一根胡须。
  • 方法二:玩“时间连线”游戏(时间对比学习)

    • 比喻:给观察员看一段视频。让他看第 1 秒的画面,然后问:“第 2 秒的画面和第 1 秒很像,还是和 10 分钟后的画面更像?”
    • 任务:观察员需要学会理解动作的连续性。如果第 1 秒老鼠在跑,第 2 秒它应该还在跑,而不是突然变成在睡觉。
    • 效果:这教会了观察员理解动作的动态变化,而不仅仅是静止的画面。

BEAST 把这两种方法结合起来,先让模型在实验室里海量的、没有标签的原始视频里“自学”了几个月。这时候,它已经变成了一个对动物行为非常敏感的“专家”。

3. 它有多厉害?(三大实战表现)

当这个“自学成才”的专家被派去执行具体任务时,表现惊人:

  • 任务一:预测大脑活动(神经编码)

    • 场景:科学家想通过看老鼠的动作,猜出它脑子里哪个神经元在放电。
    • BEAST 的表现:以前的方法只能看到老鼠的大概动作(比如“它在跑”),但 BEAST 能捕捉到极其细微的肌肉颤动和胡须抖动。结果发现,BEAST 能更准确地预测大脑信号,甚至不需要人工去标记老鼠的爪子在哪里。它就像能读懂“微表情”的读心术大师。
  • 任务二:精准定位身体部位(姿态估计)

    • 场景:要在视频里画出老鼠身上 10 多个关键点的坐标。
    • BEAST 的表现:以前需要人工标记几千帧视频来训练模型,现在只需要标记100 帧(就像只教了学生 100 道题),BEAST 就能达到甚至超过那些需要标记几千帧的旧模型的效果。这就像只教了学生 100 个字,他就能写出完美的文章。
  • 任务三:自动分类行为(动作分割)

    • 场景:自动识别视频里老鼠是在“求偶”、“打架”还是“发呆”。
    • BEAST 的表现:它不需要先画出老鼠的骨架再分析,直接看视频就能分类,而且准确率比那些依赖人工标记骨架的旧方法更高。

4. 为什么这很重要?

  • 省钱省力:以前做实验,科学家要把大量时间花在给视频打标签(画圈圈、标点点)上。BEAST 让科学家可以跳过打标签这一步,直接利用现有的海量录像。
  • 通用性强:不管是老鼠、鱼,还是单只动物或一群动物打架,BEAST 都能适应。它就像是一个万能的基础模型,只要稍微微调一下,就能适应不同的实验室环境。
  • 开启新发现:因为它能捕捉到人类肉眼难以注意到的细微动作,可能会帮助科学家发现以前从未注意到的“大脑 - 行为”之间的联系。

总结

简单来说,BEAST 就是一个通过“自学”海量动物视频,从而变得极其聪明的 AI 观察员。 它不再需要人类手把手教它每一个动作,而是自己学会了理解动物的行为逻辑。这让科学家能更快地从视频中提取有价值的信息,从而更快地解开大脑的奥秘。

这就好比以前我们要教 AI 认动物,得拿着字典一个个教;现在 BEAST 是直接把动物放进图书馆让它自己泡着读,读完之后,它比任何拿着字典的老师都更懂动物。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →