Neurodata Without Boredom: Benchmarking Agentic AI for Data Reuse

想象你是一位厨师，想要用来自八个不同厨房的食谱和食材，烹制一锅巨大而美味的炖菜。每个厨房都有自己独特的整理方式：一个厨房使用贴有“辛辣”标签的罐子，另一个使用贴有“热辣”标签的盒子，而第三个则直接把所有东西扔进一个贴着“也许”便利贴的桶里。

为了制作这锅炖菜，你首先必须弄清楚每个容器里装的是什么，将标签翻译得含义一致，然后将它们混合在一起。在神经科学领域，这锅“炖菜”是关于小鼠大脑如何工作的数据，而这些“厨房”则是不同的研究实验室。

这篇题为《无无聊神经数据》（Neurodata Without Boredom）的论文提出了一个简单却困难的问题：一个智能计算机机器人（即“代理型人工智能”）能否替我们完成这种枯燥、混乱的翻译工作？

以下是研究人员发现的要点，使用简单的类比进行说明：

神经科学数据极其碎片化。一些实验室将数据保存在标准格式中（如同通用语言），而另一些则使用自定义格式（如同只有他们自己才懂的密码）。

旧方法： 人类科学家必须阅读实验室的论文，查看他们的代码，打开他们的文件，并手动弄清楚如何将所有内容转换为通用格式。这既缓慢又乏味，且容易出错。
新希望： 大型语言模型（LLMs）就像超级快速、高度专注的实习生。它们阅读代码和文本的速度比人类快，而且不会感到无聊。研究人员不禁要问：这些人工智能实习生能否完美地完成翻译工作？

研究人员针对八篇不同的神经科学论文（即八个厨房）设立了一项测试。

设置： 他们向两个不同的人工智能代理（分别命名为Claude Code和Codex）提供了每个厨房的原始数据、代码和科学论文。
任务： 人工智能必须扮演翻译的角色。它需要读取每个实验室杂乱无章、独一无二的文件，并将它们转换为单一的、干净的格式，以便用于训练计算机来预测小鼠的行为（例如：“小鼠会向左转还是向右转？”）。
规则： 人工智能必须遵循严格的检查清单，写下笔记，并在继续之前证明它已理解数据。

结果混合了令人印象深刻的能力和令人沮丧的不一致性。

1. 人工智能是出色的“步骤执行者”
如果你只要求人工智能完成一项小任务——比如“加载此文件”或“计算小鼠数量”——它通常能出色地完成。在这些孤立的步骤中，它往往与人类专家一样好，甚至更好。

2. 人工智能在“马拉松”中挣扎
问题出现在人工智能必须将所有这些步骤串联成一条漫长且无错误的链条时。

类比： 想象一场接力赛。人工智能非常擅长跑完自己的那一棒。但通常，它在即将把接力棒交给下一位选手时掉棒了，或者把棒递给了错误的人。
现实： 在许多情况下，人工智能编写的代码能够运行（不会崩溃），但其中的数据却略有错误。例如，它可能决定以秒为单位计算“试验”（单次实验），而论文中说的是分钟；或者它可能因为猜错了规则，而意外过滤掉了重要的脑细胞。

3. “细微错误”陷阱
最危险的错误是那些表面上看起来正确的错误。

示例： 在一种情况下，人工智能决定按“实验 ID"而非“会话 ID"对数据进行分组。这听起来合乎逻辑，但它将单次记录会话拆分成了多个虚假会话，从而破坏了数据。代码完美运行，但科学结论却错了。
启示： 这些错误就像翻译者在食谱中把“左”和“右”互换。蛋糕依然能烤好，但味道不对。

研究人员还要求人工智能对自己的工作进行评分。他们问道：“你犯任何错误了吗？”

结果： 人工智能是一个糟糕的评判者。它经常忽略自己的重大错误，或者将完全正确的决定标记为错误。这就像一个学生认为自己在一场实际不及格的考试中得了"A"。
结论： 你不能依赖人工智能来检查自己的作业。仍然需要人类在旁监督。

该论文得出结论：代理型人工智能是一个强大的工具，但并非万能魔杖。

它能做什么： 它可以大幅减少处理新数据集时的“无聊”感和所需时间。它可以承担阅读和初步翻译的繁重工作。
它目前还做不到什么： 它不能被信任完全独立工作。它缺乏“常识”和深刻的科学直觉，无法捕捉那些微妙但高风险的错误。
未来的工作流程： 最佳方案是人机回环（human-in-the-loop）系统。将人工智能视为一个非常快速、非常积极的实习生，完成 90% 的工作；而人类科学家则是主管，负责审查最终产品，以捕捉人工智能遗漏的那 10% 棘手错误。

简而言之：人工智能可以帮助我们不再因数据格式化而感到无聊，但我们仍需握紧方向盘，以确保不会坠入悬崖。

技术摘要：无无聊神经数据：代理式人工智能在数据复用方面的基准测试