Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

이 논문은 SHA-256 해시 기반의 재현 가능한 결정론적 전처리 워크플로우를 통해 학비 데이터를 집계하고, 퍼지 밴딩 기법을 적용하여 학교별 학생당 비용을 저/중/고 등급으로 해석 가능한 형태로 변환하는 `cad_processor.py` 스크립트와 그 결과를 제시합니다.

Shane Lee, Stella Ng

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "요리 레시피가 사라진 식당"

대학에서는 예산을 짜거나 교수님들의 업무량을 평가할 때, '학생 한 명을 가르치는 데 드는 비용'이라는 숫자를 많이 봅니다. 보통 이 숫자들은 엑셀 파일에서 가져와서 계산합니다.

하지만 문제는 이 계산 과정이 불투명하다는 점입니다.

  • "어떻게 이 숫자가 나왔지?"
  • "누가 실수를 했나?"
  • "이전 데이터와 똑같은 걸로 다시 계산하면 같은 결과가 나올까?"

이런 의구심을 해결하기 위해, 저자들은 완벽하게 규칙을 정해둔 자동화 시스템을 만들었습니다.

2. 해결책: "완벽한 요리사 (cad_processor.py)"

이 시스템은 마치 매우 꼼꼼하고 규칙을 철저히 지키는 요리사와 같습니다.

  • 원재료 (입력 파일): 대학의 '강의 데이터'가 담긴 엑셀 파일을 받습니다.
  • 정해진 레시피 (규칙): 요리사는 임의로 재료를 넣지 않습니다. "학생 수가 없으면 0 으로 처리한다", "비용이 없으면 0 으로 처리한다" 등 미리 정해진 규칙만 따릅니다.
  • 손질 과정 (데이터 정제):
    • 이름이 비어있는 행은 버립니다. (나쁜 재료는 버림)
    • 숫자가 아닌 글자가 섞여 있으면 0 으로 취급합니다. (잘못된 숫자는 0 으로 간주)
    • 학생 수가 음수인 이상한 행은 아예 삭제합니다.
  • 요리 결과 (출력 파일): 이 과정을 거쳐 깔끔하게 정리된 새로운 엑셀 파일을 만듭니다.

가장 중요한 특징: '지문' (SHA-256 해시)
이 요리사는 요리를 시작하기 전, 원재료 (입력 파일) 의 디지털 지문을 찍어 둡니다. 나중에 "이 요리가 정말 이 원재료로 만들었나?"를 확인하려면, 그 지문을 다시 찍어 비교하면 됩니다. 원재료의 글자 하나만 바뀌어도 지문이 완전히 달라지기 때문에, 조작이나 실수를 100% 잡아낼 수 있습니다.

3. 해석의 마법: "날씨 예보와 옷장 (Fuzzy Banding)"

계산된 '학생 1 인당 비용' 숫자만 보면 "이 학교는 비싼가, 싼가?"를 판단하기 어렵습니다. 그래서 저자들은 **'퍼지 밴딩 (Fuzzy Banding)'**이라는 기술을 썼습니다.

이를 날씨에 비유해 볼까요?

  • 날씨 (데이터): 25 도, 26 도, 27 도... 정확한 숫자는 있지만, "이게 더운 건가?"라고 말하기 애매할 때가 있습니다.
  • 의류 추천 (라벨링): 우리는 숫자를 보고 **"선선함 (Low)", "적당함 (Medium)", "덥다 (High)"**로 분류합니다.

이 시스템의 특별한 점은 매년 기준을 새로 잡는다는 것입니다.

  • 올해의 기준: 올해의 데이터만 보고 '최소', '중간 (중앙값)', '최대'를 정합니다.
  • 분류 방법:
    • 최소값에 가까우면 '선선함 (Low)'
    • 중간값에 가까우면 '적당함 (Medium)'
    • 최대값에 가까우면 '덥다 (High)'
    • 중요: "어? 25 도는 '선선함'이기도 하고 '적당함'이기도 하네?"라고 애매할 때는, 미리 정해진 규칙 (중간을 우선시) 에 따라 딱 하나를 결정합니다. 이렇게 하면 누구에게나 똑같은 결과가 나옵니다.

이때 중요한 것은, "선선함"이라는 라벨을 붙였지만, 원래의 정확한 숫자 (25 도) 는 여전히 보여준다는 점입니다. 라벨은 이해를 돕는 도구일 뿐, 숫자를 가리는 것이 아닙니다.

4. 결과물: "투명한 보고서"

이 시스템이 만들어내는 엑셀 파일에는 4 개의 탭이 있습니다.

  1. 요리 기록 (Processing Summary): "어떤 원재료를 썼는지 (지문), 몇 개의 재료를 버렸는지, 몇 개의 재료를 0 으로 처리했는지"를 모두 적어둡니다.
  2. 추세 지도 (Trend Analysis): 학교별로 비용이 어떻게 변했는지 색깔로 보여주는 지도입니다. (올해 기준에 맞춰 색을 입혔습니다.)
  3. 상세 내역 (Report): 각 과목별, 학교별 상세 숫자 목록입니다.
  4. 날씨 분류표 (Fuzzy Bands): 위에서 말한 '선선함/적당함/덥다' 분류와 그 기준이 된 숫자들이 적힌 표입니다.

5. 왜 이 논문이 중요할까요?

이 논문은 **"숫자는 거짓말을 하지 않지만, 숫자를 만드는 과정이 거짓말을 할 수 있다"**는 점을 지적합니다.

  • 검증 가능성: 누구든 같은 원재료와 같은 요리사 (코드) 를 쓰면 똑같은 요리가 나옵니다.
  • 투명성: 어떤 데이터가 버려졌는지, 어떻게 계산되었는지 모두 기록되어 있어 감시할 수 있습니다.
  • 이해 용이성: 복잡한 숫자를 '저/중/고'로 쉽게 분류하되, 원래 숫자를 숨기지 않아 신뢰를 줍니다.

요약

이 논문은 대학의 예산 데이터를 **'완벽하게 규칙을 지키는 요리사'**가 손질하고, **'날씨 예보관'**처럼 쉽게 분류하여 보여주는 시스템을 소개합니다. 모든 과정에 **'디지털 지문'**을 찍어 조작을 방지하고, 누구나 다시 계산해 볼 수 있게 만들어 신뢰할 수 있는 의사결정을 돕는 것이 핵심입니다.