Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

이 논문은 영어와 러시아어 수학 식 및 문장을 라텍스로 변환하는 첫 번째 대규모 오픈 소스 데이터셋과 모델을 제안하여, 기존 방법론의 한계를 극복하고 수학 콘텐츠 인식 분야에서 새로운 벤치마크를 수립했습니다.

Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"말하는 수학을 읽어서, 컴퓨터가 이해할 수 있는 수식 (LaTeX) 으로 바꿔주는 기술"**에 대한 연구입니다.

마치 수학 선생님의 강의를 녹음해서, 그 내용을 그대로 깔끔한 수식 노트로 정리해주는 비서를 만든다고 생각하면 됩니다. 하지만 이 비서는 단순히 말을 글로 바꾸는 게 아니라, "x 제곱에 y 더하기" 같은 말을 듣고 \sqrt{x^2 + y} 같은 복잡한 수식 기호로 정확히 변환해야 하는 아주 까다로운 일을 합니다.

이 연구의 핵심 내용을 쉬운 비유로 설명해 드릴게요.

1. 왜 이 연구가 필요할까요? (문제 상황)

기존의 음성 인식 기술 (ASR) 은 "안녕하세요" 같은 일상 대화는 잘 알아듣지만, 수학 수식 같은 전문적인 내용은 엉망으로 알아듣는 경우가 많습니다.

  • 예시: "kappa"라고 말하면, 컴퓨터는 \kappa (κ) 라고 쓸지, \varkappa (ϰ) 라고 쓸지, 아니면 그냥 알파벳 'k'로 쓸지 헷갈려 합니다.
  • 기존의 한계: 이전 연구들은 데이터가 부족하거나, 영어만 지원하거나, 사람이 직접 녹음한 데이터가 거의 없어서 모델을 훈련시키기 어려웠습니다.

2. 이 연구가 해결한 것들 (해결책)

A. 거대한 "수학 말하기" 도서관 만들기 (데이터셋)

이 연구팀은 전 세계 수학 강의를 모으는 대신, 인공지능과 사람을 동원해서 거대한 데이터베이스를 만들었습니다.

  • 인간 교정: 33 명의 사람이 6 만 6 천 개 이상의 수식을 직접 읽어서 녹음했습니다. (다양한 목소리와 억양을 담기 위함)
  • AI 확장: 이 데이터를 바탕으로 AI 가 57 만 개 이상의 추가 음성을 만들어냈습니다. 마치 레시피를 하나 만들고, 그걸로 수만 가지의 변형 요리를 만들어내는 것처럼 데이터를 불린 거죠.
  • 결과: 이제 영어와 러시아어 모두에서 다양한 수식과 문장을 학습할 수 있는 거대한 "수학 말하기 도서관"이 생겼습니다.

B. 두 가지 다른 방식의 비서 테스트 (모델 비교)

연구팀은 이 데이터를 가지고 두 가지 방식으로 수식을 변환하는 비서를 훈련시켰습니다.

  1. 2 단계 방식 (ASR 후 교정):
    • 먼저 음성 인식기로 말을 글로 바꾸고 (예: "x 제곱"), 그 글자를 AI 에게 보여줘서 수식으로 바꿔달라고 요청합니다.
    • 비유: 통역사가 말을 글로 적어주고, 그 글을 수학 선생님이 다시 수식으로 고쳐주는 방식입니다.
  2. 한 번에 끝내는 방식 (멀티모달 AI):
    • 소리를 직접 듣고 수식으로 변환합니다. 중간에 글자를 거치지 않습니다.
    • 비유: 소리를 듣는 순간 바로 수식 노트를 써내는 천재 비서입니다.

3. 어떤 결과가 나왔나요? (성과)

  • 기존 기술과의 비교: 기존에 있던 'MathSpeech'라는 모델은 수식을 변환할 때 64% 정도를 틀렸습니다. 하지만 이 연구팀이 만든 모델은 27% 정도로 훨씬 정확도가 높아졌습니다. (틀린 부분이 64% 에서 27% 로 줄어든 것)
  • 문장 속 수식: 단순히 수식 하나만 말하는 게 아니라, "이 함수의 극한은 0 으로 수렴합니다" 같은 문장 전체에서 수식을 찾아내는 것도 가능해졌습니다.
  • SALMONN 이 최고: 여러 모델 중 'SALMONN'이라는 멀티모달 모델이 가장 잘 작동했습니다. 소리를 직접 이해하는 능력이 뛰어나서 중간에 글자로 바꾸는 과정에서 생기는 실수를 줄였기 때문입니다.

4. 이 기술이 어디에 쓰일까요?

  • 강의 자동 정리: 수학 강의를 녹음하면, 교수님이 말한 내용을 그대로 깔끔한 수식 노트로 바꿔줍니다.
  • 연구 보조: 과학자가 실험 결과를 말로 설명하면, 자동으로 논문 작성에 필요한 수식 형식으로 바꿔줍니다.
  • 시각 장애인 지원: 수식 파일을 소리 내어 읽어주는 것뿐만 아니라, 소리를 듣고 수식 파일을 만들어주는 역방향 지원도 가능해집니다.

요약하자면

이 논문은 **"수학이라는 난해한 언어를 말로 전달할 때 생기는 오해를 없애고, AI 가 그 소리를 완벽하게 수식 노트로 바꿔주는 새로운 표준"**을 만들었습니다. 마치 수학의 바벨탑 (언어 장벽) 을 허물고, 말과 수식을 자유롭게 오가게 해주는 다리를 놓은 것과 같습니다.

이제 앞으로는 수학 강의를 들을 때, "이거 뭐라고 썼지?"라고 고민할 필요 없이 AI 가 알아서 깔끔한 수식으로 정리해 줄 날이 머지않았습니다.