Are LLMs Ready to Replace Bangla Annotators?

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 인공지능 (LLM) 이 이제부터 벵골어 (방글라데시 언어) 를 쓰는 사람들의 '혐오 발언'을 판별해 주는 일꾼 (주석자) 을 완전히 대체할 수 있을까?"**라는 아주 중요한 질문을 던집니다.

이 내용을 일상적인 언어와 쉬운 비유로 설명해 드릴게요.

상상해 보세요. 거대한 사과 농장이 있다고 칩시다. 여기서 **'나쁜 사과 (혐오 발언)'**와 **'좋은 사과 (정상적인 말)'**를 구별하는 일이 아주 중요합니다.

과거의 방식 (사람 주석자):
예전에는 이 일을 숙련된 농부들 (사람 annotators) 이 직접 하나하나 손으로 골랐습니다. 하지만 농부들끼리도 "이건 나쁜 사과야", "아니, 이건 그냥 얼룩진 거야"라고 의견이 갈리는 경우가 많았죠. 특히 '나쁜 사과'의 기준이 모호할 때는 더 혼란스러웠습니다.
새로운 방식 (AI 주석자):
이제 농장 주인들은 "인공지능 (LLM) 이라면 훨씬 빠르고 정확하게 해줄 거야!"라고 생각하며 17 가지 다른 크기의 AI 로봇을 데려왔습니다. 이 로봇들은 사람이 말한 것을 보고 "나쁜 사과"라고 딱 찍어주는 역할을 합니다.

연구팀은 이 17 개의 AI 로봇들을 시험해 보았습니다. 결과는 놀라웠습니다.

거대 로봇의 함정: "무조건 크고 무거운 로봇 (거대 모델) 이 더 똑똑할 거야"라고 생각했지만, 실제로는 가장 큰 로봇일수록 엉뚱한 소리를 하거나, 같은 사과를 보고도 오늘은 '나쁜 사과'라고 하고 내일은 '좋은 사과'라고 하는 등 제멋대로였습니다. (불안정성)
작은 로봇의 활약: 반면, 작지만 이 농장 일에 특화된 (작은 모델) 로봇들이 오히려 더 일관성 있게, 그리고 정확하게 사과를 골라냈습니다.
편견의 문제: AI 로봇들도 사람처럼 편견을 가지고 있었습니다. 어떤 로봇은 특정 종류의 사과만 유독 나쁘게 취급하는 등, 공정하지 않은 판단을 내리기도 했습니다.

이 논문의 핵심 메시지는 다음과 같습니다.

"인공지능이 아무리 똑똑해 보인다고 해서, 언어와 문화가 민감한 문제 (혐오 발언 등) 를 판단하는 일을 사람에게서 완전히 빼앗아갈 수는 없습니다."

특히 벵골어처럼 데이터가 부족한 언어에서는 AI 가 실수할 확률이 높고, 그 실수가 큰 사회적 문제를 일으킬 수 있습니다.

한 줄 요약:

"AI 는 훌륭한 도구가 될 수 있지만, 아직은 사람의 눈과 마음을 가진 '검수자'가 반드시 함께 있어야 나쁜 사과를 제대로 골라낼 수 있습니다. 무작정 큰 AI 를 믿고 모든 일을 맡기는 것은 위험할 수 있어요."

유사한 논문