TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TACIT 的新“考试”，专门用来测试人工智能（AI）到底是不是真的“看懂”了图片，还是只是在“背答案”或“猜谜语”。

为了让你更容易理解，我们可以把现在的 AI 想象成一个正在参加入学考试的学生。

1. 以前的考试有什么问题？（旧基准的缺陷）

以前的 AI 视觉考试（Benchmark）主要有两个大毛病：

毛病一：太依赖“语文”能力。
以前的题目通常是：“看图，然后回答这个问题：‘图里的小猫在左边还是右边？’"
这就好比，学生可能根本没看懂图，只是通过识别题目里的文字关键词（比如“左边”），结合以前背过的题库，就猜出了答案。这测的是阅读理解，而不是看图能力。
毛病二：考试方式太单一，或者评分太主观。
要么只让做选择题（选 A、B、C、D），要么让人工去打分。
- 做选择题：学生可能只是运气好蒙对了，或者发现“选 C 的人最多”，但这不代表他真会解题。
- 人工打分：就像老师改作文，每个人标准不一样，今天心情好给高分，明天心情差给低分，这不公平，也没法重复验证。

2. TACIT 考试是怎么设计的？（核心创新）

TACIT 就像一位极其严格的“盲眼”考官，它设计了三个核心规则来确保公平和真实：

规则一：全图说话，禁止“语文作弊” (Language Minimality)

比喻：想象一下，考试卷上没有任何文字题目。所有的指令都画在图上。
- 比如，图上画了一个迷宫，起点是个绿点，终点是个红点，中间有些门（传送门）。你不需要读“请画出从起点到终点的路径”，你只需要看懂这些符号，然后画出那条路。
- 这就强迫 AI 必须真的去“思考”空间关系，而不能靠读题来作弊。

规则二：双重考核——“动手做”和“挑错” (Dual-Track Evaluation)

这是 TACIT 最聪明的地方，它把考试分成了两部分，就像测试一个厨师：

Track 1（动手做/生成）：给你食材（题目图），让你亲手做出一道菜（生成解决方案图片）。
- 目的：看它有没有创造力和构建能力。
Track 2（挑错/判别）：给你一道题和 5 个选项（1 个对的，4 个错的），让你选出正确答案。
- 目的：看它有没有识别能力。
为什么这很重要？
如果一个学生“挑错”全对，但“动手做”全错，说明他眼高手低——他能认出什么是好答案，但自己根本做不出来。TACIT 能精准地测出这种差距。

规则三：机器阅卷，绝对客观 (Deterministic Verification)

比喻：以前是老师拿红笔改卷，现在是用精密的尺子和计算器来改卷。
- 如果你画了一条迷宫路线，系统不会问“我觉得这像不像路”，而是直接运行代码：“检查起点是不是绿的？终点是不是红的？路有没有穿过墙壁？路断开了吗？”
- 只要有一个小错误，系统直接判“挂科”。没有模糊地带，没有人情分。

3. 考试考什么内容？（6 大领域，10 种题型）

TACIT 准备了 6000 道题目，涵盖了人类视觉推理的 6 个主要方面，就像给 AI 的“大脑”做了个全身体检：

空间导航 (Spatial)：比如多层迷宫。你要在几层楼之间穿梭，还要利用传送门。
- AI 挑战：不能走墙，不能断路。
抽象图案 (Pattern)：比如瑞文推理矩阵（那种缺了一块让你补全的智力题）。
- AI 挑战：发现图形变化的规律（旋转、变色、数量增减）。
因果模拟 (Causal)：比如细胞自动机（像《生命游戏》）。
- AI 挑战：给你初始状态和规则，预测下一秒的样子；或者反过来，给你开始和结束，猜中间的规则。
逻辑约束 (Logical)：比如视觉逻辑网格（类似数独，但用图形代替数字）。
- AI 挑战：根据箭头和禁止符号，把图形填进格子里，不能冲突。
图论 (Graph Theory)：比如给地图涂色（相邻的不能同色）或判断两张图是不是同构（长得像不像，只是摆放位置不同）。
- AI 挑战：处理复杂的连接关系。
拓扑与几何 (Topology & Geometry)：比如解绳结（这是个死结还是能解开的？）或三视图还原（给你正面、侧面、顶面，让你画出 3D 立体图）。
- AI 挑战：理解空间结构和三维空间。

4. 这个考试的“陷阱”设计 (Near-Miss Distractors)

在选择题环节，TACIT 设计的 4 个错误选项（干扰项）非常狡猾。

比喻：就像在 5 个苹果里混了 4 个烂苹果。但这 4 个烂苹果只烂了一点点（比如少了一个角，或者颜色偏了一点点）。
目的：AI 不能靠“一眼扫过去觉得不像”就排除错误答案。它必须仔细检查每一个结构细节，才能发现那个微小的错误。这防止了 AI 走捷径。

5. 总结：TACIT 意味着什么？

简单来说，TACIT 是一个去除了“语文干扰”、拥有“双重考核机制”、且由“机器自动阅卷”的硬核视觉推理考试。

对研究者：它提供了一个透明的工具，能真正看清 AI 是“真懂”还是“假懂”。
对大众：它标志着 AI 正在从“只会背题的学霸”向“真正能动手解决问题的工程师”进化。

这篇论文不仅发布了 6000 道题目，还公开了所有出题和阅卷的代码，让全世界的科学家都能用同样的标准来测试和升级他们的 AI 模型。这就像给 AI 界发了一套标准化的“视力表”和“操作手册”。

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

1. 以前的考试有什么问题？（旧基准的缺陷）

2. TACIT 考试是怎么设计的？（核心创新）

规则一：全图说话，禁止“语文作弊” (Language Minimality)

规则二：双重考核——“动手做”和“挑错” (Dual-Track Evaluation)

规则三：机器阅卷，绝对客观 (Deterministic Verification)

3. 考试考什么内容？（6 大领域，10 种题型）

4. 这个考试的“陷阱”设计 (Near-Miss Distractors)

5. 总结：TACIT 意味着什么？

TACIT 基准：面向生成式与判别式模型的程序化视觉推理基准

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心设计原则

2.2 任务设计

2.3 数据生成与验证流程

3. 数据集规模与分布 (Dataset Statistics)

4. 主要贡献 (Key Contributions)

5. 结果与现状 (Results & Current Status)

6. 意义与影响 (Significance)

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

1. 以前的考试有什么问题？（旧基准的缺陷）

2. TACIT 考试是怎么设计的？（核心创新）

规则一：全图说话，禁止“语文作弊” (Language Minimality)

规则二：双重考核——“动手做”和“挑错” (Dual-Track Evaluation)

规则三：机器阅卷，绝对客观 (Deterministic Verification)

3. 考试考什么内容？（6 大领域，10 种题型）

4. 这个考试的“陷阱”设计 (Near-Miss Distractors)

5. 总结：TACIT 意味着什么？

TACIT 基准：面向生成式与判别式模型的程序化视觉推理基准

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心设计原则

2.2 任务设计

2.3 数据生成与验证流程

3. 数据集规模与分布 (Dataset Statistics)

4. 主要贡献 (Key Contributions)

5. 结果与现状 (Results & Current Status)

6. 意义与影响 (Significance)

类似论文

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

Algebraic Structure Discovery for Real World Combinatorial Optimisation Problems: A General Framework from Abstract Algebra to Quotient Space Learning