CLFEC: A New Task for Unified Linguistic and Factual Error Correction in paragraph-level Chinese Professional Writing

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이 연구가 필요할까요? (기존의 문제점)

기존의 중국어 교정 프로그램들은 주로 문법이나 맞춤법만 고쳤습니다. 마치 요리사가 음식의 맛 (문법) 만 확인하는 것과 같아요. "소금 양이 너무 많아요"나 "재료 이름이 틀렸어요"는 고쳐주지만, "이 요리에 들어간 소고기 종류가 사실은 돼지고기야" 같은 사실적 오류는 모르고 지나갔습니다.

하지만 전문 문서 (금융, 법률, 의료 등) 에서는 문법 실수와 사실 오류가 섞여 있는 경우가 많습니다.

예시: "2023 년에 열린 제 6 회 회의에서..."라고 썼는데, 사실은 제 4 회 회의였습니다.
- 기존 프로그램은 문법만 보고 "문장은 잘 썼네"라고 통과시켰을 수 있습니다.
- 하지만 이 문장은 **사실 (Fact)**이 틀린 것입니다.

이 논문은 "문법 (Language)"과 "사실 (Fact)"을 동시에 고쳐주는 새로운 교정 시스템을 만들자고 제안합니다.

2. 무엇을 만들었나요? (CLFEC 데이터셋)

연구팀은 현재, 금융, 법률, 의료 등 4 가지 전문 분야의 문서 925 개를 모았습니다. 그리고 이 문서들에 인위적으로 실수를 섞어 넣었습니다.

문법 실수: 오타, 문장 부호 틀림, 문법 오류.
사실 실수: 잘못된 날짜, 틀린 금액, 잘못된 인물 이름, 오래된 법률 조항.

이것은 마치 가짜 지문과 진짜 지문이 섞인 범죄 현장을 만들어서, 수사관 (AI) 이 진짜와 가짜를 모두 찾아내게 훈련시키는 것과 같습니다.

3. 어떻게 해결하려고 했나요? (세 가지 방법)

연구팀은 최신 AI(대규모 언어 모델) 를 이용해 세 가지 다른 방식으로 교정을 시도했습니다.

① 단순 지시 (Prompting)

비유: AI 에게 "이 글 고쳐줘"라고만 말합니다.
결과: AI 가 머릿속 지식만 믿고 고치다 보니, 잘못된 사실을 고치지 못하거나, 오히려 틀리지 않은 부분까지 임의로 고치는 (Over-correction) 문제가 생겼습니다.

② 검색을 활용한 교정 (RAG - Retrieval Augmented Generation)

비유: AI 가 고칠 때, 구글 검색을 통해 사실을 먼저 확인하고 고칩니다.
결과: 사실 오류를 잡는 데는 훨씬 좋습니다. 하지만 문법과 사실을 따로따로 고치는 방식보다는 한 번에 같이 고치는 방식이 더 정확했습니다. (문법과 사실이 섞여 있을 때, 따로 고치면 서로 꼬이거든요.)

③ 에이전트 방식 (Agentic Workflow)

비유: AI 가 **단순한 교정사가 아니라 '수사관'**이 됩니다.
1. 계획: 문서 전체를 훑어보며 "여기 의심스러운 숫자가 있네, 저기 의심스러운 날짜가 있네"라고 **작업 목록 (To-do)**을 만듭니다.
2. 실행: 목록에 있는 것들을 하나씩 검색해서 확인합니다.
3. 검증: 고친 내용이 맞는지 다시 한번 확인합니다.
결과: 가장 똑똑한 AI 모델일 때 이 방식이 가장 잘 작동했습니다. 특히 상충되는 정보가 나올 때 (예: 검색 결과 1 은 A 라고 하고, 결과 2 는 B 라고 할 때) 스스로 판단해서 가장 정확한 것을 고르는 능력이 뛰어났습니다.

4. 어떤 어려움이 있었나요? (현실적인 장벽)

문법보다 사실 고치가 더 어렵습니다: AI 는 "문장 부호"나 "어색한 문장"을 고치는 것보다, "이 숫자가 진짜 맞나?"를 확인하는 게 더 어렵습니다.
혼합된 오류는 함정입니다: 문법 오류 위에 사실 오류가 겹쳐 있으면, AI 는 문법만 고치고 사실 오류는 놓치는 경우가 많습니다. (예: "소화기"를 "소화기"로 고치면서, 사실은 "소화기"가 아니라 "소화기"가 아니라 "소화기"가 아니라... 아, 비유가 복잡해졌네요. 쉽게 말해 문법만 고치느라 진짜 문제를 놓치는 경우가 많습니다.)
너무 많이 고치는 버릇: AI 는 "고쳐줘"라는 명령을 받으면, 아예 틀리지 않은 글도 "더 예쁘게" 고치려고 합니다. (예: "안녕하세요"를 "안녕하십니까"로 바꾸는 식입니다.)

5. 결론: 이 연구의 의미는?

이 논문은 **"전문적인 중국어 문서 교정은 문법과 사실을 분리해서 생각하면 안 된다"**는 것을 증명했습니다.

산업적 가치: 은행, 병원, 법원 등에서 쓰이는 문서의 오류를 자동으로 찾아주는 완벽한 교정 시스템을 만드는 데 기초가 됩니다.
향후 방향: 앞으로는 AI 가 단순히 글을 고치는 것을 넘어, 외부 자료를 검색하고 검증하는 능력을 갖춘 '스마트 에이전트' 형태로 발전해야 한다고 말합니다.

한 줄 요약:

"이 논문은 AI 가 전문 문서를 고칠 때, 맞춤법만 고치는 게 아니라 '사실'까지 검색해서 확인하는 똑똑한 수사관이 되어야 한다고 말합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

기존의 중국어 텍스트 교정 연구는 주로 문법 오류 교정 (GEC) 과 맞춤법 교정 (CSC) 에 집중되어 왔으며, 사실적 오류 (Factual Error) 는 별도로 다루어지는 경향이 있었습니다. 그러나 실제 산업 현장의 전문 문서 (뉴스, 금융, 법률, 의학 등) 에서는 언어적 오류 (단어, 문법, 문장 부호) 와 사실적 오류가 동시에 발생하고 상호작용하는 경우가 많습니다.

현실적 한계: 기존 데이터셋의 '골드 (Gold)' 레이블에도 사실적 오류가 포함되어 있어 모델 학습에 편향을 유발할 수 있음.
과제: 전문적인 문단 (Paragraph-level) 단위에서 언어적 오류와 사실적 오류를 통합적으로 식별하고 수정하는 것은 매우 어렵습니다. 특히 사실적 오류는 도메인 지식과 외부 증거 (Evidence) 가 필요하며, 언어적 오류와 사실적 오류가 혼재된 경우 모델이 표면적인 언어 수정에만 집중하여 깊은 사실적 오류를 놓치는 문제가 발생합니다.

이에 따라 저자들은 CLFEC (Chinese Linguistic & Factual Error Correction) 라는 새로운 태스크를 제안합니다.

2. 방법론 (Methodology)

2.1 CLFEC 태스크 및 데이터셋 구축

태스크 정의: 긴 형식의 전문 중국어 문단 $x$ 를 입력받아, 언어적 오류 (단어, 문법, 문장 부호) 와 사실적 오류 (잘못된 엔티티, 시점, 수치, 규정 등) 를 모두 수정한 문단 $y$ 를 생성하는 작업.
데이터셋 구성:
- 도메인: 시사, 금융, 법률, 의학 등 4 가지 전문 도메인.
- 구성: 기존 교정 코퍼스를 재사용하지 않고, 고품질 원본 텍스트에 LLM 을 활용한 오류 주입 (Error Injection) 과 수동 검증을 통해 구축.
- 분할 (Splits):
  1. LEC: 언어적 오류만 포함된 데이터.
  2. FEC: 사실적 오류만 포함된 데이터.
  3. MIX: 언어적 및 사실적 오류가 혼재된 데이터 (가장 어려운 경우).
  4. Error-free: 오류가 없는 데이터 (과잉 교정 평가용).
- 통계: 총 925 개 문단, 약 43 만 자, 오류 밀도 10,000 자당 48.94 개.

2.2 교정 파이프라인 (Proofreading Pipelines)

저자들은 대규모 언어 모델 (LLM) 기반의 두 가지 주요 아키텍처를 연구했습니다.

검색 증강 생성 (RAG) 기반 파이프라인:
- S-RAG (Sequential): 1 단계에서 언어적 오류만 수정 (외부 도구 미사용), 2 단계에서 사실적 오류 수정 (검색 도구 사용).
- U-RAG (Unified): 언어적 및 사실적 오류를 단일 컨텍스트에서 통합하여 수정.
- 외부 지식: 비즈니스 검색 API 를 활용하여 증거를 검색하고, BM25 로 재순위화하여 상위 3 개 스니펫을 활용.
에이전트 프레임워크 (Agentic Framework):
- ReAct 패러다임: "계획 (Plan) → 실행 (Execute) → 검증 (Verify)" 워크플로우를 따름.
- 작업 관리: todo_write 도구를 사용하여 문서 스캔 후 구체적인 검증 태스크 목록을 생성하고 순차적으로 처리.
- 검증: verify_tool 을 사용하여 수정 사항이 원문과 정확히 매핑되는지 확인하고, 할루시네이션을 방지.
- 특징: 복잡한 추론이 필요한 경우 외부 검색을 동적으로 수행하고, 상충되는 증거가 있을 경우 추가 검색을 통해 해결.

3. 주요 기여 (Key Contributions)

CLFEC 태스크 제안: 중국어 전문 문서의 문단 단위에서 언어적 (단어/문법/문장 부호) 과 사실적 오류를 통합적으로 교정하는 새로운 태스크 정의.
고품질 혼합 데이터셋: 4 개 도메인을 아우르는 다중 도메인 CLFEC 데이터셋 공개 (LEC, FEC, MIX, Error-free 분할 포함).
체계적인 실험 및 분석: 프롬프팅, RAG 변형, 에이전트 워크플로우 등 다양한 LLM 기반 교정 패러다임에 대한 체계적인 연구 수행 및 산업적 적용을 위한 실증적 가이드라인 제공.

4. 실험 결과 및 분석 (Results & Analysis)

4.1 주요 성능 결과

전문 모델 vs 범용 LLM: 특수 목적의 교정 모델 (CEC3-4B) 은 일반 LLM (Qwen3-4B 등) 보다 언어적 오류 교정 (LEC) 성능이 낮았으며, 특히 문장 부호 오류 교정 능력이 부족했습니다. 이는 도메인 적응의 어려움을 시사합니다.
사실적 오류 교정 (FEC): 순수 프롬프팅만으로는 사실적 오류 교정 성능이 낮았습니다 (F1 약 26.87%). U-RAG와 같은 증거 기반 접근법이 성능을 크게 향상시켰습니다 (F1 약 49.73%). 이는 사실 교정이 파라미터 지식만으로는 불가능하고 외부 증거가 필수적임을 보여줍니다.
혼합 오류 (MIX) 의 어려움: 언어적 오류와 사실적 오류가 혼재된 경우 모든 모델의 재현율 (Recall) 이 가장 낮았습니다. 언어적 오류가 사실적 오류를 가리는 "마스킹 효과 (Masking Effect)" 가 발생하여 모델이 표면적 수정만 하고 본질적 오류를 놓치는 경향이 있었습니다.
에이전트 프레임워크: DeepSeek-V3.2 와 같은 고성능 모델 기반 에이전트는 U-RAG 보다 더 나은 성능을 보였으며, 특히 상충되는 증거를 스스로 해결하는 능력이 뛰어났습니다. 반면, 추론 능력이 부족한 모델에서는 에이전트 루프가 불안정성을 초래하기도 했습니다.

4.2 주요 발견 사항

과잉 교정 (Over-correction): 입력 텍스트의 오류 밀도가 낮아질수록 (오류가 적은 텍스트일수록) LLM 은 스타일이나 선호도에 기반한 불필요한 수정을 많이 수행하는 경향이 있었습니다.
통합 컨텍스트의 이점: 언어적 오류와 사실적 오류를 분리하여 처리하는 S-RAG 보다, 단일 컨텍스트에서 처리하는 U-RAG 가 정확도 면에서 더 우수했습니다. 분리된 파이프라인은 누적된 과잉 교정과 컨텍스트 불일치를 초래했습니다.
문법/문장 부호의 난이도: 단어 오류나 사실적 오류에 비해 문법 및 문장 부호 오류의 재현율이 현저히 낮았습니다. 이는 이러한 오류들이 "약한 규범성 (weakly normative)"을 가지며, 원어민조차 명확한 규칙 없이는 놓치기 쉽기 때문입니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 중국어 전문 문서 교정 분야에서 언어적 정확성과 사실적 정확성을 통합해야 할 필요성을 강조하며, 이를 위한 새로운 벤치마크 (CLFEC) 와 데이터셋을 제시했습니다.

실용적 시사점: 산업 수준의 자동 교정 시스템을 구축할 때는 단순한 문법 교정을 넘어 외부 증거 기반의 사실 검증 (RAG) 과 에이전트 기반의 체계적 검증 프로세스가 필수적임을 입증했습니다.
향후 과제: 현재 고성능 모델에 의존하는 비용 문제와, 단일 골드 레퍼런스의 한계를 극복하기 위한 다중 참조 (Multi-reference) 평가 및 인간 평가의 필요성을 제기했습니다.

결론적으로, CLFEC 는 신뢰할 수 있는 자동 교정 시스템 개발을 위한 중요한 이정표가 될 것으로 기대됩니다.