LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

이 논문은 2022 년부터 2025 년 초까지의 25 만 건의 학술 논문을 분석하여 대규모 언어 모델 (LLM) 의 한계 연구 동향을 데이터 기반으로 체계적으로 조사하고, 추론과 일반화, 환각, 편향, 보안 등 주요 연구 주제의 변화와 성장 추세를 제시합니다.

Aida Kostikova, Zhipin Wang, Deidamea Bajri, Ole Pütz, Benjamin Paaßen, Steffen Eger

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

거대 언어 모델 (LLM) 의 '결함'에 대한 거대한 탐사: 쉬운 한국어 설명

이 논문은 최근 폭발적으로 늘어나고 있는 **거대 언어 모델 (LLM, 예: 챗GPT)**에 대한 연구들을 분석한 '데이터 기반 탐사 보고서'입니다. 연구자들은 단순히 "AI 가 얼마나 똑똑한가?"를 보는 것이 아니라, **"AI 가 어디서, 왜 실수하는가?"**에 초점을 맞춰 2022 년부터 2025 년 초까지의 연구 동향을 파악했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.


1. 왜 이 연구를 했을까요? (배경)

상상해 보세요. 새로운 초고성능 로봇이 세상에 등장했습니다. 사람들은 이 로봇이 요리도 하고, 글을 쓰고, 코딩도 하는 걸 보며 환호합니다. 하지만 로봇이 가끔은 엉뚱한 소리를 하거나 (할루시네이션), 편견을 가지고 있거나 (편향), 해킹당할 수도 있다는 우려가 커집니다.

이 논문은 **"이 로봇이 실수하는 이유를 연구하는 학자들이 얼마나 많아졌고, 어떤 실수들을 가장 많이 걱정하는지"**를 파악하기 위해 작성되었습니다. 기존의 연구들은 로봇의 '능력'만 칭찬했지만, 이제는 '결함'을 고치는 연구가 얼마나 중요한지 확인하려는 것입니다.

2. 어떻게 연구를 했나요? (방법론)

연구자들은 25 만 개가 넘는 논문 (ACL, arXiv 등) 을 모았습니다. 이는 마치 거대한 도서관에서 책 25 만 권을 뒤지는 것과 같습니다.

  • 키워드 필터링: "로봇", "실수", "한계" 같은 단어가 들어간 책만 골라냈습니다.
  • AI 가 AI 를 분석: 사람이 일일이 1 만 4 천여 편의 논문을 읽을 수는 없었기에, 더 똑똑한 AI를 시켜서 "이 논문이 AI 의 결함에 대해 얼마나 깊이 다루고 있는가?"를 점수 (0~5 점) 로 매기게 했습니다.
  • 주제 분류: 점수가 높은 논문들을 묶어서 어떤 주제들이 가장 핫한지 찾아냈습니다. (예: "추론", "할루시네이션", "보안" 등)

3. 주요 발견 사항 (결과)

① '결함 연구'가 '능력 연구'보다 더 빨리 성장했습니다!

2022 년부터 2025 년까지, AI 연구 전체가 58 배 늘어난 사이, **AI 의 결함을 연구하는 논문은 1228 배나 폭증**했습니다.

  • 비유: 처음에는 "이 로봇이 얼마나 잘 먹는지"만 관심 있었지만, 이제는 "이 로봇이 왜 독극물을 먹으면 죽는지"를 연구하는 사람이 훨씬 더 많아진 것입니다. 2025 년에는 AI 관련 논문 3 개 중 1 개가 '결함'에 대한 이야기입니다.

② 가장 많이 연구되는 결함은 무엇일까요?

연구자들이 가장 걱정하는 순서는 다음과 같습니다.

  1. 추론 (Reasoning): "논리적으로 생각하기"를 못 하는 문제. (예: 수학 문제를 풀거나 복잡한 상황을 이해하지 못함)
  2. 일반화 (Generalization): 배운 것을 새로운 상황에 적용하지 못하는 문제.
  3. 할루시네이션 (Hallucination): 가장 유명한 문제. 사실과 다른 내용을 마치 진실인 것처럼 꾸며 말하는 것. (예: 존재하지 않는 책을 인용함)
  4. 편향 (Bias) & 보안 (Security): 성차별적인 말을 하거나, 해커에게 악용당할 위험.

③ 연구소 (ACL) 와 실험실 (arXiv) 의 차이

  • ACL (전통적인 언어학/컴퓨터 과학 학회): 연구 주제가 비교적 안정적입니다. 여전히 '추론'과 '일반화'가 핵심입니다.
  • arXiv (빠르게 올라오는 프리프린트): 주제가 훨씬 다양하고 급변합니다. 최근에는 '보안 위험', '모델의 가치 정렬 (Alignment)', '지식 편집', '멀티모달 (이미지+텍스트)' 같은 주제가 급격히 늘었습니다.
  • 비유: ACL 은 전통적인 대학 도서관처럼 정돈된 주제를 다루고, arXiv 는 최신 뉴스 속보처럼 '안전'과 '통제'에 대한 새로운 우려들이 빠르게 쏟아져 나오는 곳입니다.

④ 시계열 변화: 2023 년 중반이 분수령

2023 년 초, 챗GPT 가 세상에 나오기 전까지는 연구 주제가 들쑥날쑥했습니다. 하지만 2023 년 중반 이후부터는 연구 흐름이 안정화되었습니다.

  • 초기에는 '편향'이나 '사회적 영향'에 대한 논의가 많았으나, 시간이 지나면서 '보안', '할루시네이션', '긴 문맥 처리' 같은 기술적이고 실질적인 문제들이 더 중요해졌습니다.
  • 비유: 처음에는 "로봇이 사람처럼 말하니까 무섭지 않을까?"라는 막연한 두려움이 있었지만, 이제는 "로봇이 병원 진료할 때 실수하지 않게 하려면 어떻게 해야 할까?"처럼 구체적인 해결책을 찾는 단계로 넘어갔습니다.

4. 결론: 이 연구가 우리에게 주는 메시지

이 논문은 **"AI 가 완벽해지려면, 그 결함을 정확히 이해하고 연구하는 것이 필수적이다"**라고 말합니다.

  • 과거: AI 가 할 수 있는 일에 집중했다.
  • 현재: AI 가 못 하는 일위험한 일을 연구하는 것이 더 중요해졌다.

연구자들은 이제 AI 를 맹신하기보다, 그 **한계점 (Limitation)**을 정확히 파악하여 의료, 법률, 금융 같은 중요한 분야에서 안전하게 사용할 수 있는 길을 모색하고 있습니다. 마치 비행기를 만들 때 "어디서 추락할 수 있는지"를 연구하는 것이 "얼마나 빠르게 날 수 있는지" 연구하는 것만큼 중요해진 것과 같습니다.

한 줄 요약:

"AI 가 점점 똑똑해지고 있지만, 연구자들은 이제 그 실수하는 습관을 낱낱이 파헤쳐 안전한 미래를 준비하고 있습니다."