Quantifying and extending the coverage of spatial categorization data sets

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给人类描述“空间关系”的词汇表做一次大升级，而且这次升级是请了一位超级聪明的"AI 助手”来帮忙的。

为了让你更容易理解，我们可以把这项研究想象成制作一本“世界地图集”，但这本地图集画的不是国家，而是物体之间的位置关系（比如：杯子在桌子上、鸟在笼子里、鱼在鱼缸外）。

以下是这篇论文的核心内容，用大白话和比喻来讲：

1. 现在的“地图集”有什么缺憾？

以前，语言学家们有一本很著名的“地图集”，叫 TRPS（由 71 张图片组成）。

比喻：这就好比一本只有 71 页的《常见位置关系图鉴》。它主要教我们怎么区分“在...里面”和“在...上面”。
问题：但这本图鉴太老了，而且覆盖面不够广。世界上有几千种语言，每种语言对“位置”的划分都不一样。有的语言里有“在...左边”，有的有“在...中间”，有的甚至专门有个词形容“挂在墙上”。这本老图鉴里缺了很多页，没法代表全人类所有的空间表达方式。

2. 以前的尝试 vs. 现在的“新招”

以前的研究者也发现缺页了，他们试着加了一些新图片（比如专门加了一些中文里特有的“在...里面”的情况）。

新招：这篇论文的作者们不想只是“头痛医头”，他们想系统地把这本图鉴补全，让它能覆盖所有可能的空间场景。
核心难题：如果要补全，得先知道缺什么。如果让几十种语言的人类专家来试画几千张图，那工作量太大了，就像要让人类画完整个宇宙的地图，根本画不完。

3. AI 助手（大语言模型）登场了

作者们想出了一个聪明的办法：请 AI 来当“试画员”。

比喻：他们把 AI（大语言模型，比如 Gemini）想象成一个读过无数本书、见过无数图片的“超级语言天才”。
做法：
1. 他们给 AI 看了 220 张不同的空间关系图片（包括旧的和新的）。
2. 让 AI 扮演 23 种不同语言（如中文、英语、法语等）的母语者，给这些图片贴上标签（比如：“这是‘在...中间’"，“那是‘在...外面’"）。
验证：作者们先拿 AI 贴的标签和真实人类贴的标签做对比。结果发现，AI 贴得相当准！虽然 AI 不能完全替代真人做实验，但它能非常可靠地预测人类会怎么描述这些场景。

4. 用 AI 来“查漏补缺”

既然 AI 能猜得准，那怎么用它来指导我们该补哪几页呢？作者们发明了一个**“覆盖率计算器”**。

比喻：想象你在玩一个**“拼图游戏”**。
- 原来的 71 张图是拼好的底座。
- 现在有一大堆候选的新图片（比如“猫在花丛中”、“新西兰在澳大利亚东边”）。
- AI 帮我们要判断：哪张新图片加进去，能让这本图鉴变得更“全面”？
- 如果加一张“杯子在桌上”，它和原来的图太像了，拼图没多大变化（覆盖率低）。
- 如果加一张“鱼在鱼缸外”或者“新西兰在澳大利亚东边”，这些是原来图鉴里完全没有的概念，加进去后，图鉴的**“知识版图”**瞬间就变大了（覆盖率高）。

5. 成果：一本更完美的“新地图集”

作者们利用这个方法，真的加上了 42 张新图片（他们叫它 LCXRK 集）。

结果：这 42 张新图，比之前其他研究者加的那些图，更能代表人类空间关系的多样性。它填补了像“在...中间”、“在...左边/右边”、“在...外面”等很多空白。
验证：他们真的找了一些真人（说中文和英语的）来给这 42 张新图贴标签，发现真人确实给出了 AI 预测的那些独特标签，证明 AI 的“查漏补缺”方向是对的。

6. 未来展望：从“小地图”到“世界地图”

这篇论文最大的意义在于**“ scalability”（可扩展性）**。

比喻：以前我们只能画几十张图，现在有了 AI 这个助手，我们可以轻松地把这本图鉴扩展到几百张图、几十种语言，甚至覆盖世界上 80 多种主要语言。
下一步：作者们建议，以后可以用 AI 先筛选出最有价值的场景和语言，然后再让人类专家去进行最终的确认和实验。这样既省时间，又能保证数据的丰富性。

总结

简单来说，这篇论文就是利用 AI 的“博学”和“预测能力”，帮我们找到人类语言中那些被遗忘的“空间角落”，并指导我们如何用最少的图片，画出最全面的世界空间关系地图。它不是要取代人类，而是给人类科学家装上了一双“透视眼”，让我们能更高效地探索语言的奥秘。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《量化和扩展空间分类数据集的覆盖范围》（Quantifying and extending the coverage of spatial categorization data sets）的详细技术总结。

1. 研究背景与问题 (Problem)

核心挑战：语言在空间范畴化（spatial categorization）上存在显著差异。虽然亲属关系和颜色领域的跨语言研究已有成熟的标准化表示（如谱系网格、感知颜色空间），但空间关系缺乏统一的标准化表示，导致难以构建像“世界颜色调查”那样大规模、可比较的空间数据集。
现有局限：目前最广泛使用的刺激集是拓扑关系图片系列（TRPS），包含 71 张图片。TRPS 的设计初衷是探索"on"（在...上）和"in"（在...里）关系的边界，因此它并未覆盖所有可能的空间关系空间。
扩展难题：虽然已有研究（如 Zhang, 2013; Landau et al., 2017）尝试扩展 TRPS，但缺乏一种系统的方法来量化新数据集对“可能场景空间”的覆盖度（coverage）。此外，构建包含数十种语言和数百个场景的大规模数据集面临巨大的人力成本挑战。

2. 方法论 (Methodology)

本文提出了一种结合大语言模型（LLMs）与覆盖度量化的新框架，旨在高效扩展空间数据集。

A. 覆盖度量化 (Quantifying Coverage)

作者定义了一个数学公式来衡量一个刺激集 $S$ 对全集 $U$ 的覆盖程度：
$\text{Coverage}(S) = \frac{1}{|U|} \sum_{u \in U} \max_{s \in S} \text{sim}(s, u)$
其中：

$U$ 是所有候选场景（或语言）的集合。
$\text{sim}(s, u)$ 是场景（或语言）之间的相似度度量。
逻辑：覆盖度越高，意味着全集 $U$ 中的每个元素都能在新集 $S$ 中找到一个足够相似的“邻居”。

B. 利用 LLM 生成标签 (Labeling with LLMs)

角色定位：将 LLM 视为人类参与者，直接要求其根据图片标注空间关系，而非仅依赖机器翻译。
模型选择：使用 Gemini 3 Flash（截至 2026 年 1 月，在多语言基准测试中表现最佳），设置温度为 0 以确保输出确定性。
实验设置：
- 输入：220 张图片（来自 TRPS、Zhang 集、LJSP 集及本文新增的 LCXRK 集）。
- 语言：23 种不同语言。
- 提示词（Prompt）：要求 LLM 以母语者身份，针对每张图片给出一个最佳的空间术语（单字词），并参考英语或中文的基准标签。
验证：研究发现，仅基于文本描述（去除图片）的 LLM 表现与基于图片的表现几乎一致，表明 LLM 主要依赖其内部的空间语义知识而非视觉分析。

C. 扩展策略 (Extension Strategies)

为了构建新的刺激集（LCXRK），作者采用了两种策略：

填补术语空白：识别 TRPS 中未体现的英语和中文空间术语（如 "outside", "among", "left", "east" 等），并生成相应的场景。
变换现有场景：对 TRPS 场景进行否定（如将“在碗里”变为“在碗外”）或反转（交换焦点物体和背景物体，如“桌子在杯子下”）。

3. 关键贡献 (Key Contributions)

提出了基于 LLM 的数据集扩展框架：证明了 LLM 生成的标签与人类标签高度一致，可用于筛选高价值的场景和语言，从而指导后续昂贵的人类实验。
构建了 LCXRK 数据集：新增 42 个场景，专门用于展示 TRPS 未覆盖的空间关系（如方位词、否定关系、反转关系）。
形式化了“覆盖度”概念：提供了一种可计算的指标，用于评估不同刺激集对空间关系语义空间的代表性。
验证了 LLM 在跨语言研究中的有效性：通过对比 Carstensen et al. (2019) 和 Xu & Kemp (2010) 的人类数据，证实了 LLM 在多种语言（包括英语、中文、法语等）上的空间标签准确率较高。

4. 主要结果 (Results)

LLM 与人类的一致性：
- 在 7 种语言中，LLM 的二元匹配分数（Binary score）大多超过 0.9。
- 在graded score（人类给出相同标签的比例）上，LLM 的表现接近人类内部的一致性水平。
- 即使没有图片输入，仅凭文本描述，LLM 的评分也未显著下降。
覆盖度提升：
- 对比实验显示，LCXRK 集（TRPS + 42 新场景）的覆盖度得分（0.964）显著高于之前的扩展集（Zhang 集和 LJSP 集，得分约为 0.918）。
- 多维尺度分析（MDS）可视化表明，LCXRK 集填补了 TRPS 在语义空间中的空白，特别是“外部（outside）”、“中间（among）”和方位关系等区域。
语言选择指导：
- 利用 LLM 生成的标签计算语言间的距离（基于信息论的变差信息量），成功预测了哪些语言能最大程度扩展现有数据集的覆盖度。
- 预测结果（葡萄牙语、罗马尼亚语）与基于少量人类数据（Xu & Kemp, 2010）计算出的结果高度相关（相关系数 0.49），证明了 LLM 在筛选实验语言方面的潜力。

5. 意义与展望 (Significance)

规模化潜力：该方法为构建包含数十种语言和数百个场景的大规模空间语义数据集提供了可行路径，解决了传统人工实验难以规模化的瓶颈。
方法论创新：将 LLM 从单纯的“翻译工具”转变为“实验参与者”和“数据筛选器”，能够发现人类理论尚未完全覆盖的维度。
未来方向：
- 结合**基于特征（feature-based）的方法（如 Carstensen et al., 2015 提出的特征列表采样）与本文的基于术语（language-based）**方法，以实现更系统、更均匀的空间关系覆盖。
- 利用 LLM 从多语言语料库中提取空间关系标记，辅助实验研究。
- 尽管目前主要适用于高资源语言，但随着 LLM 对低资源语言能力的提升，该方法有望覆盖全球更多语言。

总结：本文通过引入大语言模型和量化覆盖度指标，成功扩展了现有的空间分类数据集（TRPS），不仅验证了 LLM 在模拟人类空间认知方面的可靠性，更为未来构建大规模、高覆盖度的跨语言空间语义数据库奠定了坚实基础。