TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"TACIT(타시트)"**이라는 새로운 시험지를 소개합니다. 이 시험지는 인공지능 (AI) 이 정말로 '눈으로 보고 생각할 수 있는지'를 테스트하기 위해 만들어졌습니다.

기존의 AI 시험들은 대부분 "이 그림을 보고 설명해 줘"처럼 **말 (언어)**을 많이 사용했습니다. 하지만 TACIT 는 **"말은 필요 없어, 그림만 보고 답을 내봐"**라는 철학을 가지고 있습니다.

이 논문의 핵심 내용을 일상적인 비유로 설명해 드릴게요.

1. 왜 새로운 시험이 필요할까요? (기존의 문제점)

지금까지의 AI 시험은 마치 **"영어 시험을 보다가 그림 문제를 풀게 하는 것"**과 비슷했습니다.

문제: AI 가 그림을 잘 해석한 건지, 아니면 문제 지문을 잘 읽어서 언어 능력으로 답을 맞힌 건지 구분이 안 됩니다.
심판의 문제: 정답을 채점할 때 사람이 보거나, 또 다른 AI 가 "아마 맞을 거야"라고 추측하게 하면, 결과가 매번 달라질 수 있습니다 (주관성).

TACIT 의 해결책:

말은 금지: 문제 지문은 그림과 기호로만 되어 있습니다. (예: "빨간색 동그라미에서 시작해서 초록색 동그라미로 가라"는 말 대신, 그림에 화살표와 색으로 표시)
컴퓨터가 채점: 정답은 '맞다/틀리다'가 명확한 구조 (예: 미로 길, 도형 패턴) 이기 때문에, 사람이 보지 않고 컴퓨터 프로그램이 100% 정확하게 채점합니다.

2. TACIT 시험의 두 가지 방식 (듀얼 트랙)

이 시험지는 똑같은 문제를 가지고 두 가지 방식으로 AI 를 테스트합니다.

생성 트랙 (직접 그리기):
- 비유: "이 미로의 출구를 찾아서 길을 그려봐."
- AI 가 직접 정답 그림을 만들어 내야 합니다.
판별 트랙 (고르기):
- 비유: "이 미로에 5 개의 길이 있는데, 그중 진짜 정답은 어느 것일까?" (정답 1 개, 오답 4 개)
- AI 가 보기 중 하나를 고르면 됩니다.

왜 두 가지나 할까요?
만약 AI 가 '고르기'는 잘하지만 '직접 그리기'는 못 한다면? 그 AI 는 정답을 알고 있는 척할 뿐, 실제로 문제를 해결할 능력은 없는 것입니다. 이 차이를 통해 AI 의 진짜 두뇌를 파악할 수 있습니다.

3. 시험 문제들은 어떤 것들이 있나요? (6 가지 영역, 10 가지 문제)

이 시험지는 6 가지 종류의 '두뇌 운동'을 포함하고 있습니다.

공간 감각 (미로): 여러 층으로 된 미로를 한 층에서 다른 층으로 넘어가며 길을 찾는 문제.
추상 패턴 (레이븐 지능검사): 도형의 규칙을 찾아 빈칸을 채우는 문제.
원인 - 결과 (세포 자동자): "지금 이 상태라면, 다음 단계는 어떻게 변할까?" 혹은 "이렇게 변하려면 어떤 규칙이 있었을까?"를 추론하는 문제.
논리 (논리 퍼즐): "A 는 B 옆에 있고, C 는 D 와는 멀리 떨어져 있어야 한다"는 조건을 그림으로 풀어내는 문제.
그래프 이론 (색칠하기): 인접한 도형끼리는 색이 달라야 하는 규칙으로 지도를 색칠하는 문제.
기하학 (입체 도형): 3 차원 물체를 2 차원 그림으로 보거나, 2 차원 그림을 보고 3 차원 물체를 재구성하는 문제.

4. 오답 (거짓말쟁이) 의 역할

이 시험의 가장 멋진 점은 **오답 (Distractor)**을 만드는 방식입니다.

기존 시험: 오답은 너무 뻔하게 틀려서 AI 가 쉽게 걸러냈습니다.
TACIT 의 오답: 정답과 거의 똑같지만, 딱 하나만 규칙을 위반한 오답을 만듭니다.
- 예: 미로에서 벽을 뚫고 지나가는 길, 혹은 도형의 색만 살짝 다른 경우.
- AI 가 이런 오답을 구별하려면, 단순히 "이게 비슷해 보이네"라고 대충 보는 게 아니라, 세부적인 규칙을 꼼꼼히 따져봐야 합니다.

5. 이 시험지가 주는 의미

공정한 평가: 모든 시험지는 컴퓨터가 자동으로 만들어지고 채점하므로, 누가 보든 똑같은 결과가 나옵니다.
진짜 두뇌 테스트: AI 가 언어 능력에 의존하지 않고, 순수하게 시각적 논리 능력을 발휘하는지 확인할 수 있습니다.
열린 장난감: 이 시험지와 만드는 방법은 모두 무료로 공개되어 있어, 전 세계 연구자들이 AI 를 테스트하고 더 발전시킬 수 있습니다.

요약

TACIT 는 **"말 없이 그림만으로, 직접 만들어내거나 정답을 골라내는 AI 의 진짜 시각적 지능을 측정하는 공정한 시험지"**입니다. 마치 아이가 말없이 블록으로 탑을 쌓을 수 있는지, 혹은 쌓인 탑 중 어느 것이 올바른지 구분할 수 있는지 보는 것과 같습니다. 이를 통해 우리는 AI 가 정말로 '생각'하는지, 아니면 단순히 '암기'하고 있는지를 더 정확하게 알 수 있게 됩니다.

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

1. 왜 새로운 시험이 필요할까요? (기존의 문제점)

2. TACIT 시험의 두 가지 방식 (듀얼 트랙)

3. 시험 문제들은 어떤 것들이 있나요? (6 가지 영역, 10 가지 문제)

4. 오답 (거짓말쟁이) 의 역할

5. 이 시험지가 주는 의미

요약

TACIT 벤치마크 기술 요약

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 결과 및 현황 (Results & Status)

5. 의의 및 중요성 (Significance)

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

1. 왜 새로운 시험이 필요할까요? (기존의 문제점)

2. TACIT 시험의 두 가지 방식 (듀얼 트랙)

3. 시험 문제들은 어떤 것들이 있나요? (6 가지 영역, 10 가지 문제)

4. 오답 (거짓말쟁이) 의 역할

5. 이 시험지가 주는 의미

요약

TACIT 벤치마크 기술 요약

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 결과 및 현황 (Results & Status)

5. 의의 및 중요성 (Significance)

유사한 논문

Bitboard version of Tetris AI

Multiverse: Language-Conditioned Multi-Game Level Blending via Shared Representation

Concerning Uncertainty -- A Systematic Survey of Uncertainty-Aware XAI

Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Compliance-Aware Predictive Process Monitoring: A Neuro-Symbolic Approach