ConCISE: A Reference-Free Conciseness Evaluation Metric for LLM-Generated Answers

이 논문은 인간 참조 데이터 없이 LLM 생성 답변의 불필요한 내용을 정량화하여 간결성을 평가하는 새로운 메트릭 'ConCISE'를 제안하고, 이를 통해 대화형 AI 시스템의 응답 간결성을 자동 평가할 수 있음을 입증합니다.

Seyed Mohssen Ghafari, Ronny Kol, Juan C. Quiroz, Nella Luan, Monika Patial, Chanaka Rupasinghe, Herman Wandabwa, Luiz Pizzato

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📝 "ConCISE": AI 답변이 '너무 길어'지는 문제를 해결하는 새로운 측정기

이 논문은 최근 큰 인기를 끌고 있는 **거대 언어 모델 **(LLM, 예: 챗봇, AI 비서)이 답변을 줄 때 자주 겪는 한 가지 큰 문제를 다룹니다. 바로 "답변이 너무 길고 지루하다"는 점입니다.

이 문제를 해결하기 위해 호주 연방은행 (Commonwealth Bank of Australia) 연구팀이 ConCISE라는 새로운 측정 도구를 개발했습니다. 이걸 쉽게 비유해서 설명해 드릴게요.


🤔 왜 이 연구가 필요할까요?

상상해 보세요. 친구가 "오늘 날씨 어때?"라고 물었는데, AI 가 이렇게 답한다면요?

"네, 오늘 날씨는 흐립니다. 구름이 많이 끼어 있어서 햇빛이 잘 안 비칩니다. 비가 올 수도 있다는 예보가 있었지만, 아직 비는 오지 않았습니다. 기온은 20 도 정도이고..."

이 답변은 정확하지만, 친구가 원하는 건 "비 오나요?"라는 간단한 정보일 뿐입니다. AI 가 불필요한 말 (冗余, redundancy) 을 너무 많이 섞어대면:

  1. 사용자는 지루해집니다. (핵심 정보를 찾기 힘들어요)
  2. 돈이 더 듭니다. (많은 AI 서비스는 '글자 수'나 '토큰 수'에 따라 요금을 받기 때문이죠)

기존에는 AI 답변의 질을 평가할 때, **정답 **(참고문서)이 있어야만 점수를 매길 수 있었습니다. 하지만 현실에서는 정답이 없는 경우가 대부분이죠. 그래서 연구팀은 정답 없이도 AI 가 얼마나 간결하게 말했는지를 재는 새로운 방법을 고안했습니다.


🛠️ ConCISE 는 어떻게 작동할까요? (3 가지 마법 비법)

ConCISE 는 정답을 비교하는 대신, AI 스스로의 답변을 '다듬어 보는' 3 가지 시나리오를 만들어 봅니다. 마치 요리사가 요리를 다듬는 과정과 비슷합니다.

1. 📝 요약하기 (두 가지 방식)

AI 에게 "이 긴 답변을 핵심만 남긴 요약문으로 만들어줘"라고 시킵니다.

  • **추상적 요약 **(Abstractive) 내용을 이해하고 새로운 말로 다시 쓰는 것 (예: "오늘 비가 올 것 같아"라고 요약).
  • **추출적 요약 **(Extractive) 원문에서 가장 중요한 문장만 골라내는 것.
  • 비유: 긴 소설을 읽지 않고, 책의 목차나 줄거리만 보고 내용을 파악하는 것과 같습니다.

2. ✂️ 불필요한 말 잘라내기 (Word Removal)

AI 에게 "이 답변에서 핵심 의미는 그대로 유지하되, 불필요한 말은 최대한 잘라내"라고 시킵니다.

  • 비유: 긴 편지를 **최소한의 단어만 남긴 전보 **(Telegraph)로 바꾸는 작업입니다. "비 오니까 우산 챙겨가"만 남기고 "오늘 날씨가 흐려서 비가 올 확률이 높으니 우산을 챙겨가는 게 좋겠습니다" 같은 말은 다 잘라냅니다.

3. 📊 점수 계산하기

원래 답변의 길이와, 위 3 가지 작업 (두 가지 요약 + 잘라내기) 후의 길이를 비교합니다.

  • 결과: 원래 답변이 길고, 요약이나 잘라낸 버전이 훨씬 짧다면? → AI 는 '지저분하게' 길게 썼다는 뜻입니다. (점수 낮음)
  • 결과: 원래 답변이 이미 짧고, 요약해도 차이가 없다면? → AI 는 '간결하게' 잘 썼다는 뜻입니다. (점수 높음)

🧪 실험 결과: 정말 잘 작동할까요?

연구팀은 위키피디아 기반의 질문과 답변 데이터를 이용해 이 방법을 테스트했습니다.

  • 인간 평가자 vs ConCISE: 사람들이 "이 답변은 간결하다/아니다"라고 점수를 매길 때, ConCISE 가 그 판단과 약 60~90% 이상 일치했습니다.
  • 기존 방법과의 비교: 단순히 AI 에게 "이 답변의 간결함 점수를 10 점 만점에 매겨줘"라고 시키는 기존 방법 (GPT Score) 은 인간과 거의 일치하지 않았습니다. (AI 가 "길면 좋은 거 아니야?"라고 오해할 수 있기 때문)
  • 결론: ConCISE 는 정답 없이도 AI 가 얼마나 불필요한 말을 줄였는지 매우 정확하게 측정해 냅니다.

💡 이 기술의 의미와 한계

✨ 장점:

  • 정답이 필요 없음: AI 개발자가 정답을 일일이 작성할 필요 없이, AI 답변 자체만으로 품질을 체크할 수 있습니다.
  • 비용 절감: 불필요한 긴 답변을 줄여 AI 사용 비용을 아낄 수 있습니다.
  • 사용자 경험 향상: 사용자는 핵심 정보만 빠르게 얻을 수 있습니다.

**⚠️ 한계점 **(주의할 점)

  • 상황에 따라 다름: "간결함"의 정의는 분야마다 다릅니다.
    • 예시: 법률이나 금융 분야에서는 "불필요한 설명"처럼 보이는 긴 문장도 법적 정확성을 위해 꼭 필요할 수 있습니다. ConCISE 가 무조건 짧다고 좋은 건 아니라는 점이죠.
  • 향후 과제: 다양한 분야에 맞춰 더 똑똑하게 조정할 필요가 있습니다.

🚀 요약하자면

이 논문은 "AI 가 말을 너무 많이 할 때, 정답 없이도 그 '말 많음'을 재서 고쳐달라"는 새로운 자를 개발한 것입니다. 마치 요리사에게 "이 요리는 너무 소금이 많아서 맛이 없다"고 알려주는 미각 테스트처럼, AI 가 불필요한 말을 줄여 더 깔끔하고 효율적인 답변을 하도록 돕는 도구라고 생각하시면 됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →