Rooted Absorbed Prefix Trajectory Balance with Submodular Replay for GFlowNet Training

이 논문은 GFlowNet 의 모드 붕괴 문제를 해결하기 위해 초기 접두사에 대한 밀도 있는 학습 신호를 제공하는 'Rooted absorbed prefix Trajectory Balance (RapTB)'와 다양성을 증진하는 'Submodular Replay (SubM)' 전략을 제안하여 분자 생성 등 다양한 작업에서 최적화 성능과 다양성을 동시에 향상시키는 방법을 제시합니다.

Xi Wang, Wenbo Lu, Shengjie Wang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 GFlowNet이라는 AI 기술을 더 똑똑하고 다양하게 만들 수 있는 새로운 방법을 제안합니다. 이를 이해하기 위해 **'창의적인 요리사'**와 **'레시피 훈련'**이라는 비유를 들어 설명해 드리겠습니다.

1. 문제 상황: 똑같은 요리만 반복하는 요리사

우리가 AI(요리사)에게 "맛있는 요리 (보상) 를 만들어줘"라고 시켰다고 상상해 보세요. 기존 방식 (GFlowNet) 은 훌륭한 요리사였지만, 두 가지 큰 실수를 저질렀습니다.

  1. 초반 레시피의 실수 (Prefix Collapse): 요리사가 요리를 시작할 때, "소금 한 꼬집"이나 "양파 다지기" 같은 처음 단계에서 실수를 하면, 나중에 맛있는 요리를 만들어도 그 실수를 고쳐주지 못했습니다. 결과적으로 모든 요리가 처음 단계는 똑같고 (예: 모두 양파를 먼저 다짐), 나중에만 조금씩 달라지는 지루한 요리들만 나오게 되었습니다.
  2. 너무 짧거나 긴 요리 (Length Bias): 요리사가 "맛있는 요리"를 만들려고 애쓰다가, 요리를 너무 빨리 끝내거나 (너무 짧은 국물), 반대로 끝없이 재료를 추가하다가 (너무 긴 스프) 적당한 길이를 잃어버렸습니다.

이 문제의 원인은 두 가지였습니다.

  • 과거의 실수 (Credit Assignment): 요리가 완성된 후 "맛있다"라고 칭찬만 해줘서, "어디서부터 잘못했지?"를 정확히 알 수 없었습니다.
  • 편향된 연습 (Replay Bias): 요리사가 잘 만든 요리 (보상 높은 것) 만 반복해서 보고 훈련해서, 새로운 시도를 하지 않고 같은 요리만 계속 만들어내는 '지루한 루프'에 빠졌습니다.

2. 해결책: 두 가지 새로운 훈련법 (RapTB & SubM)

저자들은 이 문제를 해결하기 위해 두 가지 혁신적인 방법을 제안했습니다.

방법 1: RapTB (뿌리에서 시작해 끝까지 흡수하는 훈련)

"요리 과정의 모든 단계에 점수를 매겨라!"

기존에는 요리가 완성된 후 한 번에 점수를 주었지만, 이 방법은 요리하는 과정 중 매 단계마다 점수를 줍니다.

  • 비유: 요리사가 "양파를 다지는 순간"에도 점수를 받습니다. 만약 나중에 요리를 잘 만들었다면, 그 양파 다지기 단계에도 "잘했다"는 점수를 돌려줍니다.
  • 흡수 (Absorbed) 의 의미: 나중에 요리를 잘 만들었다면, 그 좋은 결과가 과거의 모든 단계로 거슬러 올라가서 (흡수되어) 각 단계의 점수를 높여줍니다.
  • 효과: 요리사가 처음 단계 (뿌리) 에서부터 실수를 바로잡고, 요리의 길이를 자연스럽게 조절할 수 있게 됩니다.

방법 2: SubM (다양한 레시피를 모으는 스마트한 파일함)

"유명한 요리만 모으지 말고, 다양한 요리를 섞어라!"

기존의 연습 방식은 "가장 맛있는 요리"만 파일함에 넣어두고 반복해서 보게 했습니다. 하지만 이 방법은 파일함 (Replay Buffer) 을 관리할 때 새로운 규칙을 적용합니다.

  • 서브모듈러 (Submodular) 선택: 파일함을 채울 때, 단순히 점수가 높은 요리만 고르는 게 아니라, ① 맛있는 요리, ② 다른 재료로 만든 요리 (다양성), ③ 길이가 다양한 요리를 모두 골고루 섞어서 모으는 알고리즘을 사용합니다.
  • 비유: 마치 요리 대회 심사위원이 "가장 맛있는 요리 10 개만 뽑는 게 아니라, 국물 요리, 볶음 요리, 찌개 요리 등 다양한 종류를 골고루 뽑아 심사하는 것"과 같습니다.
  • 효과: AI 가 특정 요리 (모드) 에만 매몰되지 않고, **새롭고 다양한 요리 (해결책)**를 계속 찾아낼 수 있게 됩니다.

3. 실제 성과: 분자 설계와 수학 문제

이 방법을 실제로 테스트해 보니 놀라운 결과가 나왔습니다.

  • 약물 개발 (분자 생성): AI 가 새로운 약물을 설계할 때, 유효한 (안전한) 분자를 만들면서도 다양한 구조의 분자를 계속 찾아냈습니다. 기존 방식은 똑같은 분자만 반복해서 만들었으나, 이 방법은 다양성과 품질을 동시에 잡았습니다.
  • 수학 문제 (24 만들기): 숫자와 연산자로 24 를 만드는 문제를 풀 때, AI 가 정답을 찾는 비율은 유지하면서, 더 다양한 풀이 방법을 찾아내었습니다. 특히, 너무 짧거나 긴 문장을 만드는 실수가 크게 줄었습니다.

요약

이 논문은 **"AI 가 똑같은 답만 반복하지 않고, 창의적이고 다양한 해답을 찾게 하는 방법"**을 제시합니다.

  1. RapTB: "결과만 칭찬하지 말고, 과정의 모든 단계에 점수를 주고, 좋은 결과가 과거로 돌아오게 하여 실수를 고쳐라."
  2. SubM: "가장 좋은 답만 모으지 말고, 다양한 답을 섞어서 AI 가 새로운 시도를 하도록 훈련시켜라."

이 두 가지 방법을 합치면, AI 는 더 안정적이고, 더 창의적이며, 더 다양한 결과를 만들어낼 수 있게 됩니다. 마치 한 가지 레시피만 반복하던 요리사가, 다양한 재료와 기술을 익혀 훌륭한 셰프가 되는 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →