Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 비유: 가짜 범죄로 경찰을 훈련시키다

우리가 데이터베이스를 관리할 때, 가장 큰 문제는 실제 데이터에 어떤 오류가 있는지 알기 어렵다는 것입니다.

문제: 경찰 (오류 탐지 프로그램) 이 범인 (오류) 을 잡는 훈련을 하려면, 실제 범죄 현장 (실제 오류가 있는 데이터) 이 필요합니다. 하지만 실제 범죄 현장을 모두 모으기는 어렵고, 사람이 일일이 오류를 찾아 표시하는 건 너무 비싸고 시간이 걸립니다.
기존 방법 (BART): 과거에는 "규칙"을 정해놓고 오류를 만들었습니다. 예를 들어, "이름 뒤에 X 를 붙여라"나 "숫자를 랜덤으로 바꿔라" 같은 식이죠.
- 한계: 이건 마치 **"가짜 범인을 만들 때, 항상 같은 옷을 입고 같은 얼굴을 한 가짜"**를 만드는 것과 같습니다. 실제 범인은 훨씬 다양하고 교활한데, 이 가짜 범인들은 너무 뻔해서 경찰이 금방 알아챕니다. 그래서 훈련 효과가 떨어집니다.

🚀 새로운 방법: TableEG (진짜 같은 가짜 범인 만들기)

이 논문에서는 **LLM(거대 언어 모델)**을 활용해서, 실제 범죄 현장과 구별하기 힘든 '진짜 같은' 오류를 만들어내는 TableEG라는 시스템을 개발했습니다.

1. 왜 기존 AI 는 안 됐을까? (난이도 설정)

단순히 AI 에게 "데이터에 오류를 만들어줘"라고 하면, AI 는 문장만 잘 만드는지라 데이터의 **2 차원 구조 (행과 열의 관계)**를 잘 이해하지 못합니다.

예시: "이름" 열에 "김철수"를 넣으라고 하면, "김철수" 대신 "김철수 123" 같은 이상한 걸 넣거나, "주소" 열에 "서울"을 넣으라고 하면 "서울" 대신 "김철수"를 넣는 식으로 논리적으로 어색한 실수를 저지릅니다.

2. TableEG 의 해결책: "현장 체험" 훈련

TableEG 는 AI 에게 두 가지 특별한 훈련을 시켰습니다.

① 오류 감지 및 수정 훈련: AI 가 먼저 "어디가 틀렸는지 찾아내고 (감지)", "올바르게 고치는 (수정)" 연습을 시켰습니다.
- 비유: 범인을 잡는 훈련을 먼저 시키니까, 범인이 어떻게 행동하는지 (오류가 어떻게 생기는지) 더 잘 알게 된 거죠.
② 다양한 상황 학습: 10 개 이상의 다른 분야 (영화, 금융, 병원 등) 에서 실제로 발견된 12 가지 데이터셋을 보고 학습시켰습니다.
- 비유: 다양한 범죄 유형 (절도, 사기, 폭행 등) 을 모두 경험하게 해서, 어떤 상황에서도 자연스럽게 범인 행동을 흉내 내게 만든 것입니다.

3. 결과: 완벽한 '가짜'

이제 TableEG 가 만들어낸 오류를 보면:

기존 방식: "Forrest Gump"라는 영화 제목을 "Forrest GumX"로 바꿈 (단순 철자 실수).
TableEG: "Forrest Gump"를 실제 존재하는 다른 영화인 "The Truman Show"로 바꿈.
- 해석: 단순히 글자를 지우는 게 아니라, 실제 데이터에 있을 법한 의미 있는 오류를 만듭니다. 마치 진짜 범인이 남긴 흔적과 똑같은 가짜 흔적을 남기는 것입니다.

📊 검증: 경찰 훈련은 잘 됐을까?

연구진은 이 가짜 데이터로 기존 오류 탐지 프로그램들을 테스트했습니다.

결과: 실제 오류 데이터로 테스트했을 때와 TableEG 가 만든 가짜 오류로 테스트했을 때, 프로그램의 성능이 거의 똑같았습니다.
의미: 이는 TableEG 가 만든 가짜 데이터가 실제 데이터의 복잡함과 특징을 완벽하게 모방했다는 뜻입니다. 즉, 실제 데이터를 구하기 어렵더라도, TableEG 로 만든 데이터로 충분히 훈련하고 테스트할 수 있다는 것을 증명했습니다.

💡 요약: 이 연구가 중요한 이유

비용 절감: 사람이 일일이 오류를 찾아 표시할 필요 없이, AI 가 자동으로 진짜 같은 오류 데이터를 만들어줍니다.
신뢰성: 기존에 쓰던 규칙 기반 방식보다 훨씬 다양하고 현실적인 오류를 만들어내어, 데이터 청소 기술 개발자들에게 더 좋은 '시험지'를 제공합니다.
미래: 이제부터는 데이터 품질을 높이는 기술들을 개발할 때, TableEG 가 만든 가짜 데이터를 표준으로 삼아 테스트하면 된다는 것입니다.

한 줄 요약:

"진짜 범인을 잡는 경찰 훈련을 위해, AI 가 만든 가짜 범인이 실제 범인과 구별이 안 될 정도로 똑똑해졌습니다. 이제 이 가짜 범인들로만 훈련해도 경찰은 충분히 실력 향상을 할 수 있게 된 것입니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

데이터 기반 시스템에서 표 (Tabular) 형태의 데이터 오류는 하류 분석 및 머신러닝 성능을 심각하게 저하시킵니다. 이를 해결하기 위해 다양한 데이터 클리닝 기법이 제안되었으나, 실제적이고 다양한 오류가 포함된 데이터셋의 부재로 인해 포괄적인 평가가 어렵습니다.

기존 방법의 한계:
- 수동 주석: 시간 소모가 크고 일관성이 부족함.
- 규칙 기반 생성 (예: BART): 사전 정의된 제약 조건 (FD, DC 등) 위반 패턴에 국한됨. 실제 데이터에서 발생하는 복잡한 오류 (의미적 불일치, 결측치 패턴 등) 를 반영하지 못하며, 생성된 오류가 실제 세계의 오류 분포와 동떨어져 있어 벤치마크로서의 신뢰도가 낮음.
핵심 질문: LLM 을 사용하여 실제와 유사한 오류를 생성할 수 있는가? 그리고 이러한 합성 오류가 기존 오류 탐지 알고리즘에 실제 데이터와 유사한 도전 과제를 제공하는가?

2. 제안 방법론: TableEG (Methodology)

저자들은 대규모 언어 모델 (LLM) 의 능력을 활용하여 실제와 유사한 오류를 생성하는 프레임워크 TableEG를 제안합니다.

2.1 핵심 접근법

지시 미세 조정 (Instruction Fine-Tuning): LLM 에 직접 오류 생성을 요청하는 대신, 실제 데이터셋에서 수동으로 주석된 오류 데이터를 기반으로 모델을 미세 조정합니다.
구조 인식 강화 (Structural Awareness): 2 차원 표 구조의 복잡성 (행/열 간 의존성, 제약 조건 등) 을 이해시키기 위해 다양한 태스크를 포함합니다.

2.2 3 중 표현 (Triplet Representation)

표 태스크를 모델링하기 위해 (Instruction, Table, Output) 형태의 3 중 표현을 사용합니다.

Instruction (I): 작업 목표 (오류 생성, 탐지, 수정) 와 오류 유형을 설명하는 지시문.
Table (T): 입력된 클린 데이터의 서브셋 (샘플링).
Output (O): 주석된 오류 위치, 유형, 잘못된 값, 올바른 값 등을 포함한 구조화된 JSON.

2.3 학습 태스크 (Training Tasks)

모델의 일반화 능력을 높이기 위해 3 가지 오류 관련 태스크와 5 가지 오류 무관 태스크를 결합하여 학습시킵니다.

오류 생성 (Error Generation): 클린 테이블에 실제와 유사한 오류를 주입.
오류 탐지 (Error Detection): 오류가 포함된 테이블에서 오류 위치와 유형 식별.
오류 수정 (Error Correction): 식별된 오류를 올바른 값으로 복원.
기타 태스크: 행/열 증강, 스와핑, 필터링, 헤더 매칭, 표 요약 등 (표 구조 이해도 향상).

2.4 데이터셋

10 개의 다양한 도메인 (학술, 비즈니스, 엔터테인먼트, 금융 등) 에 걸쳐 12 개의 실제 데이터셋을 사용하여 학습했습니다. 이는 모델이 다양한 오류 유형 (결측치, 규칙 위반, 패턴 위반, 이상치) 을 학습하도록 보장합니다.

3. 주요 기여 (Key Contributions)

표 데이터 오류 생성 프레임워크 (TableEG) 개발: LLM 기반의 구조화된 프레임워크를 제안하여 2 차원 테이블의 복잡한 의존성을 반영한 오류를 생성합니다.
다양한 오류 유형 및 구성 가능성: 12 개 실제 데이터셋 기반 학습을 통해 결측치, 이상치, 규칙 위반, 패턴 위반 등 다양한 오류를 생성하며, 사용자가 오류 비율과 유형을 제어할 수 있습니다.
종합적인 평가 전략: 생성된 오류가 실제 오류와 얼마나 유사한지 측정하기 위해 패턴 정렬 (Pattern Alignment) 및 분포 정렬 (Distribution Alignment) 지표를 도입했습니다.
실증적 검증: 기존 방법 (규칙 기반 BART, 미세 조정되지 않은 GPT-3.5) 대비 우수한 성능을 입증하고, 생성된 오류가 실제 오류 탐지 알고리즘의 성능 평가에 유효한 벤치마크임을 확인했습니다.

4. 실험 결과 (Results)

패턴 정렬 (Error Pattern Alignment):
- $S_{EPA}$ (Error Pattern Alignment Similarity Score): TableEG 는 BART(49.36%) 와 GPT-3.5(50.45%) 를 크게 상회하는 **평균 77.76%**의 점수를 기록했습니다. 이는 생성된 오류가 실제 오류의 변환 패턴을 훨씬 잘 모방함을 의미합니다.
분포 정렬 (Error Distribution Alignment):
- 가중 Jaccard 유사도 ( $J^w_{col}$ ): 열별 오류 분포의 유사성을 측정. Flight 데이터셋에서 TableEG 는 82.3 점으로 BART(34.69) 와 GPT-3.5(44.68) 보다 압도적으로 높았습니다.
- Jensen-Shannon 발산 ( $D_{JS}$ ): 오류 유형 분포의 차이를 측정. TableEG 는 두 데이터셋 모두에서 가장 낮은 발산 값을 보여 실제 분포와 가장 유사함을 입증했습니다.
오류 탐지 알고리즘 평가:
- Raha, Holistic, Horizon 등 다양한 오류 탐지 알고리즘을 사용하여 실험한 결과, TableEG 로 생성된 오류 데이터셋에서의 성능 지표 (정밀도, 재현율, F1-score) 가 실제 오류 데이터셋에서의 성능과 매우 유사하게 나타났습니다. 이는 생성된 오류가 탐지 알고리즘에게 실제와 동일한 난이도와 특성을 제공함을 의미합니다.

5. 의의 및 결론 (Significance & Conclusion)

실용적 벤치마크 제공: TableEG 는 합성 데이터와 실제 데이터 간의 간극을 해소하고, 데이터 클리닝 기술의 성능을 평가할 수 있는 견고한 벤치마크를 제공합니다.
비용 절감 및 확장성: 수동 오류 주석의 높은 비용을 대체할 수 있으며, 다양한 도메인과 오류 유형에 적용 가능한 확장성을 가집니다.
향후 과제: 추론 시 사용자 지정 제약 조건에 대한 의존도를 줄이고, 도메인 특성과 속성 유형 (수치/텍스트) 을 자동으로 학습하여 더 높은 품질의 더러운 데이터를 생성하는 적응형 학습 전략을 모색할 예정입니다.

이 논문은 LLM 을 활용한 데이터 품질 관리의 새로운 패러다임을 제시하며, 특히 실제와 구별하기 어려운 고품질 합성 오류 데이터 생성을 통해 데이터 클리닝 연구의 발전에 기여합니다.