TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

本文介绍了 TACIT 基准,这是一个包含 10 个任务、覆盖 6 个推理领域的程序化视觉推理基准,通过生成式(确定性验证)和判别式(含结构化近邻干扰项的五选一)双轨评估机制,旨在克服现有基准依赖自然语言提示、推理模态狭窄及评分主观性等局限。

Daniel Nobrega Medeiros

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TACIT 的新“考试”,专门用来测试人工智能(AI)到底是不是真的“看懂”了图片,还是只是在“背答案”或“猜谜语”。

为了让你更容易理解,我们可以把现在的 AI 想象成一个正在参加入学考试的学生

1. 以前的考试有什么问题?(旧基准的缺陷)

以前的 AI 视觉考试(Benchmark)主要有两个大毛病:

  • 毛病一:太依赖“语文”能力。
    以前的题目通常是:“看图,然后回答这个问题:‘图里的小猫在左边还是右边?’"
    这就好比,学生可能根本没看懂图,只是通过识别题目里的文字关键词(比如“左边”),结合以前背过的题库,就猜出了答案。这测的是阅读理解,而不是看图能力
  • 毛病二:考试方式太单一,或者评分太主观。
    要么只让做选择题(选 A、B、C、D),要么让人工去打分。
    • 做选择题:学生可能只是运气好蒙对了,或者发现“选 C 的人最多”,但这不代表他真会解题。
    • 人工打分:就像老师改作文,每个人标准不一样,今天心情好给高分,明天心情差给低分,这不公平,也没法重复验证。

2. TACIT 考试是怎么设计的?(核心创新)

TACIT 就像一位极其严格的“盲眼”考官,它设计了三个核心规则来确保公平和真实:

规则一:全图说话,禁止“语文作弊” (Language Minimality)

  • 比喻:想象一下,考试卷上没有任何文字题目。所有的指令都画在图上。
    • 比如,图上画了一个迷宫,起点是个绿点,终点是个红点,中间有些门(传送门)。你不需要读“请画出从起点到终点的路径”,你只需要看懂这些符号,然后出那条路。
    • 这就强迫 AI 必须真的去“思考”空间关系,而不能靠读题来作弊。

规则二:双重考核——“动手做”和“挑错” (Dual-Track Evaluation)

这是 TACIT 最聪明的地方,它把考试分成了两部分,就像测试一个厨师:

  • Track 1(动手做/生成):给你食材(题目图),让你亲手做出一道菜(生成解决方案图片)。
    • 目的:看它有没有创造力构建能力
  • Track 2(挑错/判别):给你一道题和 5 个选项(1 个对的,4 个错的),让你选出正确答案
    • 目的:看它有没有识别能力
  • 为什么这很重要?
    如果一个学生“挑错”全对,但“动手做”全错,说明他眼高手低——他能认出什么是好答案,但自己根本做不出来。TACIT 能精准地测出这种差距。

规则三:机器阅卷,绝对客观 (Deterministic Verification)

  • 比喻:以前是老师拿红笔改卷,现在是用精密的尺子和计算器来改卷。
    • 如果你画了一条迷宫路线,系统不会问“我觉得这像不像路”,而是直接运行代码:“检查起点是不是绿的?终点是不是红的?路有没有穿过墙壁?路断开了吗?”
    • 只要有一个小错误,系统直接判“挂科”。没有模糊地带,没有人情分。

3. 考试考什么内容?(6 大领域,10 种题型)

TACIT 准备了 6000 道题目,涵盖了人类视觉推理的 6 个主要方面,就像给 AI 的“大脑”做了个全身体检:

  1. 空间导航 (Spatial):比如多层迷宫。你要在几层楼之间穿梭,还要利用传送门。
    • AI 挑战:不能走墙,不能断路。
  2. 抽象图案 (Pattern):比如瑞文推理矩阵(那种缺了一块让你补全的智力题)。
    • AI 挑战:发现图形变化的规律(旋转、变色、数量增减)。
  3. 因果模拟 (Causal):比如细胞自动机(像《生命游戏》)。
    • AI 挑战:给你初始状态和规则,预测下一秒的样子;或者反过来,给你开始和结束,猜中间的规则。
  4. 逻辑约束 (Logical):比如视觉逻辑网格(类似数独,但用图形代替数字)。
    • AI 挑战:根据箭头和禁止符号,把图形填进格子里,不能冲突。
  5. 图论 (Graph Theory):比如给地图涂色(相邻的不能同色)或判断两张图是不是同构(长得像不像,只是摆放位置不同)。
    • AI 挑战:处理复杂的连接关系。
  6. 拓扑与几何 (Topology & Geometry):比如解绳结(这是个死结还是能解开的?)或三视图还原(给你正面、侧面、顶面,让你画出 3D 立体图)。
    • AI 挑战:理解空间结构和三维空间。

4. 这个考试的“陷阱”设计 (Near-Miss Distractors)

在选择题环节,TACIT 设计的 4 个错误选项(干扰项)非常狡猾。

  • 比喻:就像在 5 个苹果里混了 4 个烂苹果。但这 4 个烂苹果只烂了一点点(比如少了一个角,或者颜色偏了一点点)。
  • 目的:AI 不能靠“一眼扫过去觉得不像”就排除错误答案。它必须仔细检查每一个结构细节,才能发现那个微小的错误。这防止了 AI 走捷径。

5. 总结:TACIT 意味着什么?

简单来说,TACIT 是一个去除了“语文干扰”、拥有“双重考核机制”、且由“机器自动阅卷”的硬核视觉推理考试

  • 对研究者:它提供了一个透明的工具,能真正看清 AI 是“真懂”还是“假懂”。
  • 对大众:它标志着 AI 正在从“只会背题的学霸”向“真正能动手解决问题的工程师”进化。

这篇论文不仅发布了 6000 道题目,还公开了所有出题和阅卷的代码,让全世界的科学家都能用同样的标准来测试和升级他们的 AI 模型。这就像给 AI 界发了一套标准化的“视力表”和“操作手册”

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →