⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 BEAST 的新工具，它的名字很有趣，全称是“通过 Transformer 自监督预训练进行行为分析”（BEhavioral Analysis via Self-supervised pretraining of Transformers）。

为了让你轻松理解，我们可以把这项研究想象成教一个超级聪明的“动物行为观察员”如何看懂视频。

1. 现在的困境：需要“填鸭式”教学

在神经科学和动物行为研究中，科学家想通过看动物的视频来理解它们的大脑在想什么。

以前的做法：就像教一个学生认字，必须给他看成千上万张已经标好答案的图片。比如，要在视频里标记出老鼠的鼻子、爪子在哪里（姿态估计），或者它是在“梳理毛发”还是“打架”（行为分割）。
问题：这非常耗时耗力。就像让老师一张一张地批改作业，而且如果换了个物种（比如从老鼠换成鱼），或者换了个实验环境，之前的“老师”可能就不管用了，得重新招人重新教。

2. BEAST 的解决方案：自学成才的“天才观察员”

BEAST 的核心思想是：别只盯着答案教，让模型自己从海量视频里“悟”出规律。

它使用了两种独特的“学习方法”（自监督学习）：

方法一：玩“找茬”游戏（掩码自动编码）
- 比喻：想象你给观察员看一张老鼠的照片，但故意把照片的一大部分（比如 75%）涂黑遮住。
- 任务：观察员必须根据露出的部分，猜出被遮住的地方长什么样。
- 效果：这迫使观察员记住老鼠的毛发纹理、身体结构等细节。这就像让观察员练就了一双“火眼金睛”，能看清每一根胡须。
方法二：玩“时间连线”游戏（时间对比学习）
- 比喻：给观察员看一段视频。让他看第 1 秒的画面，然后问：“第 2 秒的画面和第 1 秒很像，还是和 10 分钟后的画面更像？”
- 任务：观察员需要学会理解动作的连续性。如果第 1 秒老鼠在跑，第 2 秒它应该还在跑，而不是突然变成在睡觉。
- 效果：这教会了观察员理解动作的动态变化，而不仅仅是静止的画面。

BEAST 把这两种方法结合起来，先让模型在实验室里海量的、没有标签的原始视频里“自学”了几个月。这时候，它已经变成了一个对动物行为非常敏感的“专家”。

3. 它有多厉害？（三大实战表现）

当这个“自学成才”的专家被派去执行具体任务时，表现惊人：

任务一：预测大脑活动（神经编码）
- 场景：科学家想通过看老鼠的动作，猜出它脑子里哪个神经元在放电。
- BEAST 的表现：以前的方法只能看到老鼠的大概动作（比如“它在跑”），但 BEAST 能捕捉到极其细微的肌肉颤动和胡须抖动。结果发现，BEAST 能更准确地预测大脑信号，甚至不需要人工去标记老鼠的爪子在哪里。它就像能读懂“微表情”的读心术大师。
任务二：精准定位身体部位（姿态估计）
- 场景：要在视频里画出老鼠身上 10 多个关键点的坐标。
- BEAST 的表现：以前需要人工标记几千帧视频来训练模型，现在只需要标记100 帧（就像只教了学生 100 道题），BEAST 就能达到甚至超过那些需要标记几千帧的旧模型的效果。这就像只教了学生 100 个字，他就能写出完美的文章。
任务三：自动分类行为（动作分割）
- 场景：自动识别视频里老鼠是在“求偶”、“打架”还是“发呆”。
- BEAST 的表现：它不需要先画出老鼠的骨架再分析，直接看视频就能分类，而且准确率比那些依赖人工标记骨架的旧方法更高。

4. 为什么这很重要？

省钱省力：以前做实验，科学家要把大量时间花在给视频打标签（画圈圈、标点点）上。BEAST 让科学家可以跳过打标签这一步，直接利用现有的海量录像。
通用性强：不管是老鼠、鱼，还是单只动物或一群动物打架，BEAST 都能适应。它就像是一个万能的基础模型，只要稍微微调一下，就能适应不同的实验室环境。
开启新发现：因为它能捕捉到人类肉眼难以注意到的细微动作，可能会帮助科学家发现以前从未注意到的“大脑 - 行为”之间的联系。

总结

简单来说，BEAST 就是一个通过“自学”海量动物视频，从而变得极其聪明的 AI 观察员。 它不再需要人类手把手教它每一个动作，而是自己学会了理解动物的行为逻辑。这让科学家能更快地从视频中提取有价值的信息，从而更快地解开大脑的奥秘。

这就好比以前我们要教 AI 认动物，得拿着字典一个个教；现在 BEAST 是直接把动物放进图书馆让它自己泡着读，读完之后，它比任何拿着字典的老师都更懂动物。

Each language version is independently generated for its own context, not a direct translation.

BEAST 技术总结：基于 Transformer 的自监督预训练用于动物行为分析与神经编码

1. 研究背景与问题 (Problem)

理解大脑与行为之间的关系是现代神经科学的核心挑战。虽然摄像机可以记录大量动物行为视频，但现有的视频分析方法存在显著局限：

依赖大量标注数据：传统的姿态估计（Pose Estimation）和行为分割（Action Segmentation）通常依赖专门训练的模型，需要大量人工标注的关键点或行为标签，耗时且昂贵。
特征提取不足：许多神经编码（Neural Encoding）研究仅使用少量关键点或简单的运动能量特征，可能丢失了视频中丰富的时空信息，导致无法完全解释神经活动的变异性。
未利用无标签数据：行为实验产生了海量的无标签视频数据，但现有方法未能有效利用这些数据来预训练通用模型。
领域适应性差：通用的计算机视觉基础模型（如 DINOv2）在特定动物行为领域（如毛皮遮挡、特定物种形态）的表现往往不如针对特定任务训练的模型。

2. 方法论 (Methodology)

论文提出了 BEAST (BEhavioral Analysis via Self-supervised pretraining of Transformers)，这是一个新颖且可扩展的框架，旨在通过自监督预训练为特定的神经 - 行为分析任务构建鲁棒的骨干模型。

核心架构

BEAST 基于 Vision Transformer (ViT) 架构，结合了两种自监督学习损失函数：

掩码自编码损失 (Masked Autoencoding, MAE)：
- 随机掩码掉输入图像的大部分 Patch（例如 75%）。
- 利用 ViT 编码器处理未掩码的 Patch，并通过解码器重建被掩码的原始图像。
- 作用：捕捉单帧内的丰富外观细节（Appearance），这对于姿态估计等需要像素级精度的任务至关重要。
时序对比学习损失 (Temporal Contrastive Loss)：
- 创新采样策略：不同于以往允许同一视频中任意帧作为正样本的做法，BEAST 定义锚帧（Anchor）的正样本为时间上紧邻的帧（ $t \pm 1$ ），而将同一视频中距离较远的帧或其他视频的帧作为负样本。
- 目的：这种策略专门针对动物行为实验中背景静态、动物运动重复的特点，强制模型学习动物行为相对于静态背景的动力学特征，而非仅仅学习背景。
- 作用：捕捉帧与帧之间的时序依赖关系，这对于神经编码和行为分割等需要理解动态的任务至关重要。

训练流程

预训练：在特定实验设置的无标签视频数据上，联合优化 MAE 损失和对比损失。
微调 (Fine-tuning)：预训练后的模型可作为骨干网络，通过少量标注数据微调，用于下游任务（神经编码、姿态估计、行为分割）。
效率：BEAST 采用基于帧（Frame-based）的处理方式，相比原生视频模型（如 VideoMAE），在训练和推理时显著降低了计算资源需求。

3. 关键贡献 (Key Contributions)

首个针对神经 - 行为分析的通用自监督框架：BEAST 能够利用单一实验设置的无标签视频，为多种下游任务（神经编码、姿态估计、行为分割）提供统一的骨干模型。
创新的帧采样策略：针对动物行为视频的特性（长时程、重复行为、静态背景），设计了特定的对比学习正负样本采样策略，显著优于通用的视频对比学习方法（如 VIC-MAE）。
消除对姿态估计的依赖：在行为分割任务中，BEAST 可以直接从原始视频提取特征进行分类，无需先进行耗时的关键点标注和姿态估计预处理，大幅降低了人工成本。
广泛的验证：在多个物种（小鼠、鱼类）、多种实验设置（固定头部、自由活动、单/多视角）以及三种核心任务上进行了全面评估。

4. 实验结果 (Results)

论文在三个关键任务上展示了 BEAST 的优越性：

A. 神经编码 (Neural Encoding)

任务：从行为视频中预测神经活动（如神经元放电率）。
结果：BEAST 提取的特征在预测神经活动方面优于所有基线方法，包括基于关键点（Keypoints）、主成分分析（PCA）、CEBRA 以及 DINOv2 等通用模型。
数据：在 IBL（国际脑实验室）和 Facemap 数据集上，BEAST 实现了更高的比特/脉冲（BPS）和方差解释率。即使在零样本（Zero-shot）设置下，经过领域特定预训练的 BEAST 也表现优异。

B. 姿态估计 (Pose Estimation)

任务：追踪动物身体关键点的坐标。
结果：在仅使用 100 帧标注数据进行微调的极端低资源场景下，BEAST 预训练的骨干网络在多个数据集（小鼠、鱼类、多动物交互）上均取得了比 ResNet-50 和 DINOv2 更低的像素误差。
优势：证明了在标注数据稀缺的情况下，利用无标签视频进行自监督预训练能显著提升模型性能。

C. 行为分割 (Action Segmentation)

任务：对视频帧进行行为分类（如梳理、攻击、静止等）。
结果：BEAST 在 IBL 和 CalMS21 数据集上取得了最先进的性能（F1 分数）。
效率：BEAST 完全跳过了传统的姿态估计预处理步骤，直接利用视频特征进行分类，其性能甚至超过了依赖大量标注关键点轨迹的 SimBA 和 TREBA 方法。在 CalMS21 数据集上，BEAST 的集成模型 F1 分数达到了 0.84，进入 AIcrowd 多智能体行为挑战赛的前 15%。

5. 意义与影响 (Significance)

降低研究门槛：BEAST 使得实验室能够利用自身产生的无标签视频数据，低成本地构建高性能的行为分析模型，减少了对昂贵标注数据的依赖。
提升科学发现能力：通过提取比传统关键点更丰富的行为特征，BEAST 有助于揭示更细微的神经 - 行为关联，推动对大脑功能的理解。
通用性与可扩展性：该框架不仅适用于小鼠，也适用于鱼类等其他物种，且支持单动物和多动物场景。
未来方向：BEAST 为构建动物行为的“基础模型”（Foundation Models）铺平了道路，未来可能实现跨物种、跨实验的通用行为理解模型，进一步加速神经科学和生物医学研究。

总结：BEAST 通过结合掩码自编码和创新的时序对比学习，成功解决了动物行为分析中标注数据稀缺和特征提取不充分的问题，提供了一个强大、灵活且高效的自监督学习框架，显著提升了神经编码、姿态估计和行为分割的性能。

Animal behavioral analysis and neural encoding with transformer-based self-supervised pretraining