Feynman: Knowledge-Infused Diagramming Agent for Scalable Visual Designs

이 논문은 Feynman 이라는 에이전트를 통해 도메인 지식과 코드를 결합하여 대량의 정렬된 다이어그램 - 캡션 데이터셋과 시각적 추론 평가 벤치마크인 Diagramma 를 생성하는 확장 가능한 시각 디자인 파이프라인을 제안합니다.

Zixin Wen, Yifu Cai, Kyle Lee, Sam Estep, Josh Sunshine, Aarti Singh, Yuejie Chi, Wode Ni

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제: 왜 그림을 그리기가 어려울까요?

지금까지의 AI(챗봇이나 이미지 생성기) 는 두 가지 큰 문제를 겪고 있었습니다.

  • 이미지 생성 AI (예: 미드저니): 그림은 정말 예쁘게 그립니다. 하지만 "수학 공식"이나 "화학 반응식"처럼 정확한 논리가 필요한 그림을 그리면, 글자가 엉망이 되거나 중요한 부분이 빠지는 '환각 (Hallucination)' 현상이 발생합니다. 마치 화가 실력은 좋지만, 수학은 전혀 모르는 사람이 수학 교과서를 그린 것과 같습니다.
  • 텍스트 기반 AI (예: GPT-4): 지식은 풍부하지만, 직접 그림을 그리거나 코드를 짜는 데는 서툴러서 결과가 엉망이 되거나, 그림이 너무 지저분해 읽을 수 없습니다. 마치 수학 천재지만 손이 매우 덜덜 떨리는 사람이 그림을 그리려는 것과 같습니다.

이 논문은 **"지식 (개념)"과 "그림 (시각화)"을 분리해서 생각하면 어떨까?**라고 질문하며 해결책을 제시합니다.


🛠️ 2. 해결책: FEYNMAN 에이전트의 4 단계 작업 과정

FEYNMAN 은 그림을 그릴 때, 한 번에 모든 것을 하려고 하지 않습니다. 대신 4 단계로 나누어 전문가 팀처럼 협업합니다.

1 단계: 아이디어 브레인스토밍 (Knowledge Planning)

  • 비유: 건축 설계도 작성자가 역할을 합니다.
  • 작업: "오늘은 '분자 구조'에 대한 그림을 그려보자"라고 주제를 정하면, FEYNMAN 은 먼저 "수소 원자 2 개, 산소 원자 1 개가 필요하다"는 **지식 (아이디어)**만 먼저 나열합니다. 아직 그림은 그립니다.
  • 핵심: AI 가 가진 방대한 지식을 먼저 꺼내어, 무엇을 그릴지 '개념'만 정리합니다.

2 단계: 계획 세우기 (Code Planning)

  • 비유: 시공 감독관이 역할을 합니다.
  • 작업: "원자 3 개를 어떻게 배치할지, 결합은 어떻게 표현할지"를 **코드 (명령어)**로 번역할 계획을 세웁니다. "이 원자는 저 원자와 연결되어야 하고, 크기는 이렇게 해야 한다"는 식의 청사진을 그립니다.

3 단계: 반복적인 수정 (Iterative Visual-Refine)

  • 비유: 예술 비평가 패널이 역할을 합니다.
  • 작업: FEYNMAN 이 만든 초안 (코드) 을 실제 그림으로 변환합니다. 그리고 AI 비평가들 (다른 AI 모델들) 이 이 그림을 봅니다.
    • "글자가 안 읽혀요."
    • "분자 구조가 틀렸어요."
    • "너무 복잡해요."
  • 이 피드백을 받아 FEYNMAN 은 코드를 수정하고 다시 그립니다. 이 과정을 그림이 완벽해질 때까지 반복합니다.

4 단계: 렌더링 (PENROSE 시스템)

  • 비유: 마법 같은 자동화 공장입니다.
  • 작업: FEYNMAN 이 작성한 최종 코드를 PENROSE라는 특수한 시스템에 넣습니다. PENROSE 는 "이 코드는 이런 모양으로 그려져야 한다"는 규칙을 따르지만, 색상, 배치, 크기는 매번 조금씩 다르게 랜덤하게 만들어줍니다.
  • 결과: 같은 내용 (분자 구조) 을 그려도, 매번 다른 스타일의 아름다운 그림이 수십 개씩 튀어 나옵니다.

📊 3. 성과: 무엇이 달라졌나요?

이 시스템을 통해 연구팀은 놀라운 성과를 거두었습니다.

  1. 대량 생산: 155 만 토큰 (약 400 달러 비용) 으로 10 만 개가 넘는 고품질의 '도표 - 설명' 쌍을 만들었습니다.
  2. DIAGRAMMA (다이어그램마) 벤치마크: 이 새로 만든 그림들을 이용해, AI 들이 도표를 얼마나 잘 이해하는지 테스트하는 새로운 시험지를 만들었습니다.
  3. 테스트 결과: 최신 AI 모델 17 개를 이 시험지에 넣었더니, 모든 모델이 고전했습니다. 특히 복잡한 그래프나 논리적 추론이 필요한 문제에서는 AI 들이 여전히 실수를 많이 했습니다. 이는 아직 AI 가 시각적 추론에서 인간에 비해 부족하다는 것을 보여줍니다.

💡 4. 핵심 요약: 왜 이 연구가 중요한가요?

이 연구는 **"AI 가 그림을 그릴 때, 지식과 시각화를 분리하라"**는 새로운 방식을 제시합니다.

  • 기존 방식: AI 가 "그림을 그려줘"라고 하면, 지식과 그림을 동시에 하려고 해서 실패함.
  • FEYNMAN 방식:
    1. 지식을 먼저 정리하고 (아이디어),
    2. 계획을 세우고 (청사진),
    3. 비평가의 도움을 받아 다듬고 (수정),
    4. 자동화 시스템으로 다양한 스타일의 그림을 뽑아냄 (생산).

마치 명품 가구 공장에서 설계사가 도면을 그리고, 목수가 자재를 준비하고, 품질 관리팀이 검수를 거쳐, 마지막에 다양한 색상의 가구를 대량으로 생산하는 것과 같습니다.

이러한 방식을 통해 우리는 과학 교과서 수준의 정확한 도표를 저렴하고 빠르게 만들 수 있게 되었으며, 앞으로 더 똑똑한 AI 를 훈련시키기 위한 양질의 데이터를 무한히 생산할 수 있는 길을 열었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →