BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

이 논문은 왼쪽과 오른쪽 문맥을 모두 고려하여 비지도 학습으로 심층 양방향 트랜스포머를 사전 학습하는 새로운 언어 표현 모델인 BERT 를 제안하며, 이를 통해 다양한 자연어 처리 작업에서 기존 최고 성능을 크게 상회하는 결과를 달성했음을 보여줍니다.

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

게시일 2018-10-11
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

BERT: 언어를 이해하는 새로운 두뇌의 탄생

이 논문은 구글 연구팀이 발표한 BERT라는 인공지능 모델에 대한 이야기입니다. 쉽게 말해, "인공지능이 인간처럼 문맥을 이해하고 다양한 언어 과제를 해결할 수 있게 만든 획기적인 기술"입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어보겠습니다.


1. 기존 모델의 한계: "왼쪽만 보는 독서"

과거의 인공지능 언어 모델 (예: GPT) 은 책을 읽을 때 왼쪽에서 오른쪽으로만 읽었습니다.

  • 비유: 책을 읽는데, 앞쪽 페이지만 보고 뒤쪽 페이지는 아직 안 보여서 내용을 추측해야 하는 상황입니다.
  • 문제점: "나는 오늘 를 탔다"라는 문장에서 '배'가 '과일'인지 '선박'인지 알기 위해선 뒤에 나오는 문맥이 필요한데, 과거 모델은 뒤를 못 보기 때문에 헷갈리기 쉽습니다.

2. BERT 의 혁신: "양쪽을 동시에 보는 두 눈"

BERT 는 **양방향 (Bidirectional)**으로 학습합니다.

  • 비유: BERT 는 책을 읽을 때 앞쪽 페이지와 뒤쪽 페이지를 동시에 훑어봅니다. 앞뒤 문맥을 모두 보고 "아, 여기서 '배'는 과일이구나!"라고 정확히 이해합니다.
  • 핵심 기술: 이를 위해 **마스킹 (Masking)**이라는 장난을 치는 훈련법을 썼습니다.
    • 문장: "나는 오늘 [MASK] 를 탔다."
    • BERT 는 빈칸 [MASK] 를 채우기 위해 앞의 "나는 오늘"과 뒤의 "를 탔다"를 모두 보고 정답을 맞힙니다.
    • 마치 Cloze(클로즈) 테스트처럼, 빈칸을 채우는 훈련을 통해 문장의 전체적인 의미를 파악하는 능력을 기릅니다.

3. 두 가지 특별한 훈련 과제

BERT 는 단순히 글을 읽는 것뿐만 아니라 두 가지 특별한 훈련을 거칩니다.

  1. 빈칸 채우기 (Masked LM):
    • 위에서 설명한 대로 문장의 일부 단어를 가리고, 앞뒤 문맥을 보고 그 단어를 맞추는 훈련입니다. 이를 통해 단어의 정확한 의미를 학습합니다.
  2. 다음 문장 예측 (Next Sentence Prediction):
    • 비유: 두 장의 카드를 주고, "이 두 문장이 이어지는 이야기인가?"를 맞히는 게임입니다.
    • 예: "비가 왔어요." + "우산을 썼어요." (O) vs "비가 왔어요." + "피자를 먹었어요." (X)
    • 이 훈련을 통해 BERT 는 문장 사이의 논리적 관계 (인과관계, 대조 등) 도 이해하게 됩니다.

4. 실전 적용: "레고 블록" 같은 미세 조정 (Fine-tuning)

BERT 는 미리 거대한 책 (위키백과, 소설 등) 을 다 읽고 기본 지식을 갖춘 상태로 나옵니다. 이제부터는 특정 업무에 맞춰 조금만 수정하면 됩니다.

  • 비유: BERT 는 완벽하게 조립된 레고 기지와 같습니다.
    • 질문 답변 (SQuAD): 기지 위에 '질문 받기 창'만 하나 붙이면 질문 답변 기계가 됩니다.
    • 감정 분석 (SST-2): 기지 위에 '기분 체크 센서'만 붙이면 영화 리뷰가 좋은지 나쁜지 판단하는 기계가 됩니다.
    • 이름 찾기 (NER): 기지 위에 '인물/장소 표시 스티커'만 붙이면 문서 속 인물을 찾아내는 기계가 됩니다.
  • 장점: 처음부터 모든 것을 새로 만들 필요 없이, **하나의 기본 모델 (BERT)**을 가져와서 작업마다 작은 레고 블록 (출력층) 하나만 추가하면 됩니다. 그래서 개발이 매우 쉽고 빠릅니다.

5. 놀라운 성과

BERT 는 11 가지 자연어 처리 과제에서 기존 최고 기록 (State-of-the-art) 을 모두 갈아치웠습니다.

  • GLUE 점수: 언어 이해 능력 평가에서 80.5 점 (이전 최고 72.8 점) 을 기록하며 큰 차이를 보였습니다.
  • SQuAD (질문 답변): 인간이 정답을 찾는 실력과 거의 비슷해졌습니다.

요약

BERT는 인공지능에게 "앞뒤 문맥을 동시에 보고, 빈칸을 채우며, 문장 관계를 이해하는" 훈련을 시켜서, 거의 인간처럼 언어를 이해하게 만든 모델입니다.

이전에는 각 작업 (질문, 번역, 감정 분석 등) 마다 따로따로 복잡한 공장을 지어야 했지만, BERT 는 **하나의 거대한 두뇌 (사전 학습 모델)**를 만들어두고, 필요한 작업마다 **작은 도구 (미세 조정)**만 붙여주면 되는 혁신을 가져왔습니다. 덕분에 언어를 이해하는 AI 의 성능이 비약적으로 발전하게 되었습니다.