Each language version is independently generated for its own context, not a direct translation.
这篇论文就像是一份**“生物黑客社区(BioHackathon)的 AI 使用体检报告”**。
想象一下,2025 年在日本举办了一场盛大的“生物黑客马拉松”聚会。这里的参与者不是普通游客,而是基因科学家、生物信息学家和软件开发者,他们就像是一群**“数字时代的炼金术士”**,试图用代码和算法来破解生命的奥秘。
为了了解这群“炼金术士”在实验室里是如何使用人工智能(AI)这个新工具的,研究团队设计了一份“多语言调查问卷”(就像一份多语种的点餐单),并收集了 105 份反馈。
以下是用通俗易懂的比喻对这篇论文核心内容的解读:
1. 这份报告是做什么的?(核心目的)
这就好比你想了解一群厨师是如何使用新式“智能炒菜机”的。
- 调查对象:来自不同国家(主要是日本、泰国、美国等)、不同机构(大学、公司、研究所)的科学家。
- 调查内容:他们多久用一次 AI?是用它来**“辅助切菜”(辅助完成部分工作),“生成菜谱初稿”(写代码或写论文初稿),还是直接“让机器把菜炒好”**(完全依赖 AI 完成任务)?
- 多语言特色:问卷有英语、日语和泰语三种版本,就像给不同国家的厨师发了不同语言的菜单,确保大家都能听懂。
2. 数据是怎么处理的?(隐私保护与清洗)
原始收集上来的问卷就像是一堆**“杂乱的原始食材”**,里面可能夹杂着一些不该公开的信息(比如具体的网址、人名)。
- 去隐私化(清洗):研究人员像是一位**“严格的安检员”**,把所有可能暴露身份的“标签”(如姓名、链接、具体机构)都撕掉或涂黑,确保没人能通过这份名单认出具体是谁。
- 标准化(整理):
- 有人写"chatGTP",有人写"chat gpt",研究人员把它们统一整理成标准的"ChatGPT"。
- 有人填"U.K.",有人填"UK",统一变成"United Kingdom"。
- 把那些长篇大论的“故事”(比如具体的失败经历)暂时收起来,只保留适合做统计的“短答案”,方便大家像看**“乐高积木说明书”**一样快速分析数据。
3. 大家发现了什么?(主要发现)
虽然论文没有直接列出所有数字,但通过图表(Figure 1)我们可以看出几个趋势:
- AI 普及度:就像智能手机一样,AI 工具已经渗透进了这群科学家的日常工作。
- 使用方式:大多数人把 AI 当作**“超级助手”**(帮忙写代码片段、润色文章),而不是完全依赖它来“代劳”。
- 担忧点:就像人们担心自动驾驶会出事故一样,科学家们也担心 AI 会**“胡说八道”(幻觉)、“泄露机密”(数据隐私)或者“抢走知识产权”**。
- 支持度:不同国家的机构对 AI 的支持程度不同,有的像“开明的家长”,有的则比较保守。
4. 这份数据有什么用?(价值)
这份数据集就像是一个**“公共工具箱”**,任何人都可以免费拿走去研究:
- 给政策制定者看:了解科学家真正需要什么支持,以便制定更好的 AI 使用政策。
- 给 AI 开发者看:知道科学家们在哪个环节最头疼(比如翻译、写代码),从而改进他们的产品。
- 给其他研究者看:比较不同国家、不同文化背景下,大家对新技术的接受程度有何不同。
5. 一点小提醒(局限性)
就像任何调查一样,这份报告也有它的“小瑕疵”:
- 自愿原则:因为问卷大部分是选填的,所以有些数据是空的。这就像去餐厅点菜,有人只点了主菜,没点配菜,我们不能因此说他们没吃饭,只是没填而已。
- 样本量:只有 105 份回答,虽然很有代表性,但不能代表全世界所有的科学家。
总结
简单来说,这篇论文就是**“把一群生物科学家使用 AI 的‘日常习惯’、‘烦恼’和‘期待’,整理成了一份干净、匿名、多语言的‘使用说明书’,并免费分享给大家”**。它帮助我们要看清在科学前沿,人类与人工智能是如何协作共舞的。
Each language version is independently generated for its own context, not a direct translation.
以下是基于论文《AI in Practice: A Multilingual Survey of 2025 BioHackathon Participants》(AI 实践:2025 年 BioHackathon 参与者的多语言调查)的详细技术总结:
1. 研究背景与问题 (Problem)
随着人工智能(AI)在科学领域的快速渗透,了解科研社区(特别是生物信息学和基因组学领域)如何实际使用 AI 工具至关重要。然而,目前缺乏针对特定技术社区(如 BioHackathon 参与者)的、多语言的、系统性的实证数据来回答以下问题:
- 研究人员在日常工作中使用 AI 的频率和模式是什么?
- 他们在哪些具体任务(如编码、写作、数据分析)中使用 AI?
- 他们在采用 AI 时面临哪些障碍、机构支持情况如何?
- 他们对 AI 带来的潜在危害(如偏见、数据隐私、幻觉)有何担忧?
- 现有的调查数据往往缺乏多语言视角,难以进行跨国或跨文化的比较分析。
2. 方法论 (Methodology)
2.1 调查设计与实施
- 对象与范围:针对 2025 年日本 BioHackathon 的参与者及其更广泛的社区网络。
- 语言支持:问卷提供英语、日语和泰语三种语言版本,以覆盖不同地区的参与者。
- 时间窗口:2025 年 9 月 16 日至 18 日,通过 Slack 频道和二维码分发。
- 问卷结构:
- 人口统计学:参与背景、机构类型、工作国家、年龄、性别等。
- AI 使用概况:使用频率、角色(如 AI 开发者 vs 普通用户)、不使用 AI 的原因。
- 应用场景:涵盖编码、研究、头脑风暴、写作/编辑、教学、翻译及个人用途。针对每项任务,受访者需选择 AI 的介入程度:"协助"(Assist)、"起草"(Draft)或"完成"(Complete)。
- 挑战与满意度:遇到的困难、整体满意度、改进需求。
- 机构支持与危害:机构支持力度、对算法偏见、数据隐私、知识产权、错误信息(幻觉)及环境影响的担忧程度(1-5 分量表)。
- 开放式问题:收集工作描述、AI 成功/失败案例及评论。
- 伦理与隐私:遵循 HIPAA 隐私规则中的“安全港”(Safe Harbor)去标识化指南。不收集姓名、机构 affiliation 或 IP 地址。除语言和使用频率外,所有问题均为选填,以减轻受访者压力。
2.2 数据处理与清洗 (Data Processing)
为了平衡数据可用性与隐私保护,研究团队实施了严格的数据处理流程:
- 去标识化:
- 移除所有 URL(标记为
[URL redacted])。
- 删除任何可能识别个人身份的文本。
- 移除用于后续联系的可选邮箱地址。
- 排除包含工作链接(如论文、代码库)的选项及回答。
- 数据清洗与标准化(针对英文清洗版):
- 文本处理:移除长篇叙事性自由文本(如成功/失败故事),仅保留结构化变量和短分类回答,以降低重识别风险并生成紧凑的分析表。
- 分类标准化:
- 国家/地区:统一拼写和缩写(如 "U.K." -> "United Kingdom"),无效条目设为缺失值,保留 "Global" 以反映特定工作背景。
- AI 工具:通过模式匹配标准化工具名称(如 "chatGTP" -> "ChatGPT"),合并模糊名称(如 "copilot" -> "Copilot (unspecified)"),过滤非 AI 工具。
- "其他"选项:保留预设分类,并将自定义文本存入相邻的辅助列(如
field_other_text)。
- 缺失值处理:将“不愿回答”转换为标准缺失值(NA/Blank)。
- 数据验证:检查重复项、空表,验证跨语言选项的一致性,并确认跳过逻辑(Skip Logic)导致的缺失数据是设计预期的(例如,仅向不使用 AI 的人询问原因)。
3. 关键贡献 (Key Contributions)
- 多语言数据集发布:
- 发布了包含 105 份 最终回复的完整数据集。
- 提供三种版本:
- 原始匿名数据(多语言):保留原始语言(英/日/泰)的短自由文本,URL 已脱敏。
- 原始匿名数据(英文翻译版):所有回复翻译为英文。
- 清洗后的英文数据集:去除了长文本,标准化了分类变量,适合定量分析。
- 配套文档:
- 提供详细的代码本(Codebook),包含 33 个变量的定义、数据类型和示例。
- 提供翻译对照表,用于对齐不同语言间的响应类别。
- 提供原始问卷的 PDF 导出版。
- 数据治理规范:
- 展示了如何在保护隐私(去除 PII)的同时,通过标准化处理(如工具名称归一化、国家名称统一)提高数据的可重用性。
- 明确记录了数据清洗步骤和缺失数据的来源(如跳过逻辑、选填项),为二次分析者提供重要元数据。
4. 主要结果与发现 (Results & Findings)
注:由于本文主要侧重于数据发布和方法论描述,具体的统计结果(如具体百分比)在摘要中未详细列出,但指出了数据集包含的关键指标维度:
- 样本构成:105 名受访者来自多个国家(图 1B 显示了主要参与国),涵盖多种机构类型。
- 使用模式:数据记录了受访者对 AI 的总体使用水平(图 1A),以及在特定任务(编码、研究、写作等)中使用 AI 的具体模式(协助、起草或完成)(图 1C)。
- 关注点:量化了受访者对 AI 整合的担忧程度(1-5 分),包括算法偏见、数据隐私、知识产权、错误信息和环境影响(图 1D)。
- 数据质量:确认了无重复提交,并解释了由于问卷设计(选填项和跳过逻辑)导致的高缺失率是预期内的,而非数据质量问题。
5. 研究意义 (Significance)
- 社区级视角:提供了基因组学、生物信息学和软件开发领域 AI 实践现状的“快照”,填补了特定技术社区缺乏系统性调查数据的空白。
- 支持政策与工具开发:
- 政策制定:帮助机构了解 AI 采用的障碍和担忧,从而制定更有效的支持政策。
- 工具开发:为科学 AI 工具开发者提供关于痛点、改进需求和机构障碍的反馈。
- 跨文化比较研究:多语言设计使得研究者能够比较不同国家、机构类型和语言背景下的 AI 采用差异(例如,翻译类 AI 的使用满意度在不同语言组间的差异)。
- 方法论参考:为在技术社区进行多语言调查、处理自由文本数据以及平衡隐私与数据效用提供了可复用的范例。
- 开放科学:所有数据、代码本和问卷均通过 GigaDB 和 BioHackrXiv 公开,遵循 CC-BY 4.0 协议,鼓励社区进行二次分析和元研究。
总结:该论文不仅发布了一个高质量的多语言 AI 使用调查数据集,还详细阐述了从数据收集、隐私保护到标准化清洗的完整技术流程,为未来研究科学界 AI 采纳、政策制定及工具设计提供了坚实的基础数据和方法论参考。