Each language version is independently generated for its own context, not a direct translation.
1. 문제 상황: "요리 레시피가 사라진 식당"
대학에서는 예산을 짜거나 교수님들의 업무량을 평가할 때, '학생 한 명을 가르치는 데 드는 비용'이라는 숫자를 많이 봅니다. 보통 이 숫자들은 엑셀 파일에서 가져와서 계산합니다.
하지만 문제는 이 계산 과정이 불투명하다는 점입니다.
- "어떻게 이 숫자가 나왔지?"
- "누가 실수를 했나?"
- "이전 데이터와 똑같은 걸로 다시 계산하면 같은 결과가 나올까?"
이런 의구심을 해결하기 위해, 저자들은 완벽하게 규칙을 정해둔 자동화 시스템을 만들었습니다.
2. 해결책: "완벽한 요리사 (cad_processor.py)"
이 시스템은 마치 매우 꼼꼼하고 규칙을 철저히 지키는 요리사와 같습니다.
- 원재료 (입력 파일): 대학의 '강의 데이터'가 담긴 엑셀 파일을 받습니다.
- 정해진 레시피 (규칙): 요리사는 임의로 재료를 넣지 않습니다. "학생 수가 없으면 0 으로 처리한다", "비용이 없으면 0 으로 처리한다" 등 미리 정해진 규칙만 따릅니다.
- 손질 과정 (데이터 정제):
- 이름이 비어있는 행은 버립니다. (나쁜 재료는 버림)
- 숫자가 아닌 글자가 섞여 있으면 0 으로 취급합니다. (잘못된 숫자는 0 으로 간주)
- 학생 수가 음수인 이상한 행은 아예 삭제합니다.
- 요리 결과 (출력 파일): 이 과정을 거쳐 깔끔하게 정리된 새로운 엑셀 파일을 만듭니다.
가장 중요한 특징: '지문' (SHA-256 해시)
이 요리사는 요리를 시작하기 전, 원재료 (입력 파일) 의 디지털 지문을 찍어 둡니다. 나중에 "이 요리가 정말 이 원재료로 만들었나?"를 확인하려면, 그 지문을 다시 찍어 비교하면 됩니다. 원재료의 글자 하나만 바뀌어도 지문이 완전히 달라지기 때문에, 조작이나 실수를 100% 잡아낼 수 있습니다.
3. 해석의 마법: "날씨 예보와 옷장 (Fuzzy Banding)"
계산된 '학생 1 인당 비용' 숫자만 보면 "이 학교는 비싼가, 싼가?"를 판단하기 어렵습니다. 그래서 저자들은 **'퍼지 밴딩 (Fuzzy Banding)'**이라는 기술을 썼습니다.
이를 날씨에 비유해 볼까요?
- 날씨 (데이터): 25 도, 26 도, 27 도... 정확한 숫자는 있지만, "이게 더운 건가?"라고 말하기 애매할 때가 있습니다.
- 의류 추천 (라벨링): 우리는 숫자를 보고 **"선선함 (Low)", "적당함 (Medium)", "덥다 (High)"**로 분류합니다.
이 시스템의 특별한 점은 매년 기준을 새로 잡는다는 것입니다.
- 올해의 기준: 올해의 데이터만 보고 '최소', '중간 (중앙값)', '최대'를 정합니다.
- 분류 방법:
- 최소값에 가까우면 '선선함 (Low)'
- 중간값에 가까우면 '적당함 (Medium)'
- 최대값에 가까우면 '덥다 (High)'
- 중요: "어? 25 도는 '선선함'이기도 하고 '적당함'이기도 하네?"라고 애매할 때는, 미리 정해진 규칙 (중간을 우선시) 에 따라 딱 하나를 결정합니다. 이렇게 하면 누구에게나 똑같은 결과가 나옵니다.
이때 중요한 것은, "선선함"이라는 라벨을 붙였지만, 원래의 정확한 숫자 (25 도) 는 여전히 보여준다는 점입니다. 라벨은 이해를 돕는 도구일 뿐, 숫자를 가리는 것이 아닙니다.
4. 결과물: "투명한 보고서"
이 시스템이 만들어내는 엑셀 파일에는 4 개의 탭이 있습니다.
- 요리 기록 (Processing Summary): "어떤 원재료를 썼는지 (지문), 몇 개의 재료를 버렸는지, 몇 개의 재료를 0 으로 처리했는지"를 모두 적어둡니다.
- 추세 지도 (Trend Analysis): 학교별로 비용이 어떻게 변했는지 색깔로 보여주는 지도입니다. (올해 기준에 맞춰 색을 입혔습니다.)
- 상세 내역 (Report): 각 과목별, 학교별 상세 숫자 목록입니다.
- 날씨 분류표 (Fuzzy Bands): 위에서 말한 '선선함/적당함/덥다' 분류와 그 기준이 된 숫자들이 적힌 표입니다.
5. 왜 이 논문이 중요할까요?
이 논문은 **"숫자는 거짓말을 하지 않지만, 숫자를 만드는 과정이 거짓말을 할 수 있다"**는 점을 지적합니다.
- 검증 가능성: 누구든 같은 원재료와 같은 요리사 (코드) 를 쓰면 똑같은 요리가 나옵니다.
- 투명성: 어떤 데이터가 버려졌는지, 어떻게 계산되었는지 모두 기록되어 있어 감시할 수 있습니다.
- 이해 용이성: 복잡한 숫자를 '저/중/고'로 쉽게 분류하되, 원래 숫자를 숨기지 않아 신뢰를 줍니다.
요약
이 논문은 대학의 예산 데이터를 **'완벽하게 규칙을 지키는 요리사'**가 손질하고, **'날씨 예보관'**처럼 쉽게 분류하여 보여주는 시스템을 소개합니다. 모든 과정에 **'디지털 지문'**을 찍어 조작을 방지하고, 누구나 다시 계산해 볼 수 있게 만들어 신뢰할 수 있는 의사결정을 돕는 것이 핵심입니다.