원저자: Tim Menzies, Srinath Srinivasan

게시일 2026-06-03✓ Author reviewed ⓘ

📖 6 분 읽기🧠 심층 분석

원저자: Tim Menzies, Srinath Srinivasan

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

핵심 아이디어: 정말 거대한 AI 기계가 필요할까요?

현재 인공지능의 트렌드는 마치 정원에 떨어진 열쇠 하나를 찾기 위해 거대하고 첨단 기술이 집약된 마천루를 짓는 것과 같습니다. 모두가 말합니다. "그 열쇠를 찾으려면 수십억 달러짜리 크레인, 50 명의 엔지니어 팀, 그리고 슈퍼컴퓨터가 필요해."

이 논문의 저자들은 이렇게 말합니다: "잠깐만요. 마천루가 필요한 게 아닙니다. 그냥 손전등과 지도만 있으면 됩니다."

⚠️ 중요 범위 명시 (Scope Caveat)
이 논문의 결론은 모든 인공지능 분야에 적용되는 것이 아닙니다. 이 연구는 AI 의 한 특정 영역, 즉 **숫자 테이블과 목표 (Goals) 가 관련된 소프트웨어 공학 문제 (Tabular SE Problems)**에 국한됩니다. 여기에는 최적화, 분류, 예측, 회귀 분석 및 일부 텍스트 마이닝 작업이 포함되지만, ChatGPT 나 LLM 과 같은 생성형 AI(코드나 텍스트 생성 등)는 다루지 않습니다. 저자들은 이 발견들이 생성형 AI 에도 적용될 수 있기를 희망하지만, 현재로서는 이 결론이 테이블 기반의 전통적인 데이터 작업에 국한된다는 점을 명확히 하고자 합니다.

저자들은 방대한 양의 소프트웨어 공학 문제, 특히 숫자 테이블과 목표가 관련된 문제들에 대해 우리가 지나치게 복잡하게 생각하고 있다고 주장합니다. 그들은 EZR(단 400 줄의 코드)이라는 아주 작은 툴킷을 만들었는데, 이는 거대하고 무거운 소프트웨어 라이브러리들이 하는 일을 수행하면서도 500 배나 더 빠르고 학습에 필요한 데이터도 거의 필요하지 않습니다.

툴킷: 맥가이버 칼 vs 창고

대부분의 현대적인 AI 도구들은 특화된 도구들이 가득 찬 창고와 같습니다. 나무를 위한 거대한 톱, 금속을 위한 무거운 드릴, 유리를 위한 복잡한 레이저 같은 것들이죠. 도구 하나를 쓰기 위해 창고 전체를 사야 합니다 (즉, pandas 나 sklearn 같은 거대한 라이브러리를 설치해야 합니다).

EZR 는 맥가이버 칼입니다.
저자들은 이러한 테이블 기반 작업들을 자세히 들여다보면 사실 모두 기본적인 동일한 작업을 수행하고 있다는 것을 깨달았습니다. 그들은 화려한 포장을 벗겨내고 다음을 발견했습니다:

분류 (Classification) (사물을 그룹으로 나누기)
군집화 (Clustering) (자연스러운 그룹 찾기)
최적화 (Optimization) (최선의 해결책 찾기)
텍스트 마이닝 (Text Mining) (관련 문서 찾기)

...이 모든 것들이 사실 동일한 세 가지 단순한 빌딩 블록에 의존하고 있다는 사실을 말이죠:

Num: 숫자를 세고 평균을 내는 바구니.
Sym: 단어나 카테고리 같은 기호를 세는 바구니.
Data: 정보의 행 (row) 을 담는 상자.

매 작업마다 새로운 엔진을 만드는 대신, EZR 는 이 동일한 바구니들을 사용하여 모든 것을 수행합니다. 이는 숟가락, 포크, 나이프가 결국 특정 모양을 가진 손잡이일 뿐이라는 것을 깨닫는 것과 같습니다. 그것들을 만들기 위해 세 개의 서로 다른 공장이 필요하지 않은 것처럼 말이죠.

6 가지 놀라운 발견

이 작은 툴킷을 120 개 이상의 실제 소프트웨어 공학 (테이블 기반) 문제에 테스트한 결과, 다음과 같은 사실을 발견했습니다 (쉬운 비유를 사용하겠습니다):

1. "무겁다"는 신화

믿음: AI 를 하려면 거대한 컴퓨터와 거대한 라이브러리가 필요하다.
현실: 아주 작은 스크립트만으로도 테이블 기반 작업은 가능하다.
비유: 자장가를 연주하기 위해 풀 오케스트라가 필요하다고 생각하는 것과 같습니다. 저자들은 단 한 대의 바이올린 (EZR) 이 다른 50 명의 연주자 (무거운 의존성들) 없이도 이러한 특정 작업을 충분히 잘 연주할 수 있음을 보여주었습니다.

2. "별개의 주제"라는 신화

믿음: 데이터를 분류하는 것, 그룹화하는 것, 패턴을 찾는 것은 완전히 다른 주제이며 서로 다른 코드가 필요하다.
현실: 테이블 데이터 내부에서는 거의 동일하다.
비유: 자동차를 운전하는 것, 트럭을 운전하는 것, 버스를 운전하는 것이 완전히 다른 기술이라고 생각하는 것과 같습니다. 저자들은 차량의 크기를 제외하고 나면 핸들과 페달은 똑같다는 것을 보여주었습니다. 그들은 이 세 가지 작업을 모두 처리하는 30 줄의 코드를 작성했습니다.

3. "나무"의 신화

믿음: 숫자를 예측하기 위한 결정 트리 (Decision Tree) 와 카테고리를 예측하는 트리는 완전히 다른 종류다.
현실: 같은 나무이며, 단지 열매가 다를 뿐이다.
비유: 사과가 열리는 나무를 상상해 보세요. 오렌지를 원한다고 해서 새로운 종의 나무를 가져올 필요는 없습니다. 그저 가지에 붙은 라벨만 바꾸면 됩니다. 저자들은 숫자를 예측하는 것과 카테고리를 예측하는 것 사이를 전환하는 것이 코드상에서 단 한 줄의 변화일 뿐임을 보여주었습니다.

4. "구식 vs 신식"의 신화

믿음: 더 복잡하고 새로운 탐색 방법 (재시작을 포함한 Local Search) 이 항상 오래된 단순한 방법 (1983 년의 Simulated Annealing) 보다 낫다.
현실: 테이블 기반 최적화 문제에서 오래된 방법이 종종 비슷하거나 오히려 더 낫다.
비유: 안개 낀 골짜기에서 가장 낮은 지점을 찾는다고 상상해 보세요. "새로운" 방법은 "막히면 처음으로 돌아가서 다시 시도해!"라고 말합니다. "오래된" 방법은 "막히면 몸을 흔들어 탈출할 수 있도록 작은 무작위 발걸음을 위로 내디뎌!"라고 말합니다. 저자들은 "흔들어 탈출하는" 방법 (1983 년 방식) 이 끊임없이 재시작하는 혼란 없이도 "돌아가는" 방법만큼 잘 작동한다는 것을 발견했습니다.

5. "더 많은 데이터"의 신화

믿음: 좋은 모델을 만들려면 수천 개의 라벨링된 예시와 수천 개의 특징 (변수) 이 필요하다.
현실: 테이블 기반 모델은 매우 적은 수의 라벨과 매우 적은 수의 특징만 있으면 된다.
비유: 경주 승자를 맞히려고 한다고 상상해 보세요. 당신은 주자의 키, 몸무게, 신발 사이즈, 식단, 수면 시간, 혈액형까지 알아야 한다고 생각할 수도 있습니다 (수천 개의 특징). 하지만 저자들은 단 두세 가지(예: "신발 사이즈"와 "수면")만 알아도 승자를 정확하게 예측하기에 충분하다는 것을 발견했습니다. 또한, 보통 수천 개가 필요한 모델을 훈련하는 데 단 50 개의 예시만 라벨링해도 충분하다는 것을 발견했습니다.

6. "텍스트 마이닝"의 신화

믿음: 거대한 도서관에서 관련 문서를 찾으려면 수십억 개의 파라미터를 가진 거대한 AI 모델 (LLM) 이 필요하다.
현실: 단순한 수학적 트릭이 더 효과적이다.
비유: 건초더미에서 특정 바늘을 찾는 상황을 상상해 보세요. 하이테크 방식은 엄청난 무게의 거대한 자석을 사용합니다. 저자들은 30 줄의 코드로 된 단순한 "Complementary Bayes" 트릭을 사용했는데, 이것은 날카로운 바늘처럼 작동했습니다. 이것은 거대한 자석보다 더 빠르게, 그리고 더 적은 실수로 관련 문서를 찾아냈으며, 거대한 자석이 어떻게 잘못 사용되고 있는지에 대한 결함도 밝혀냈습니다.

"액티브 러닝 (Active Learning)"의 초능력

EZR 가 하는 가장 멋진 일 중 하나는 액티브 러닝입니다.

패시브 러닝 (Passive Learning): 개념을 배우기 위해 교과서 1,000 페이지를 읽는 학생을 상상해 보세요.
액티브 러닝 (Active Learning - EZR): 10 페이지를 읽고 자신이 무엇을 이해하지 못했는지 파악한 뒤, 선생님에게 오직 그 특정 10 페이지에 대해서만 질문하는 스마트한 학생을 상상해 보세요.

EZR 는 그 스마트한 학생처럼 행동합니다. 데이터를 살펴보고, 어떤 몇 가지 예시가 가장 혼란스럽거나 중요한지 파악한 뒤, 오직 그 예시들에 대해서만 라벨을 달라고 요청합니다. 이는 인간이 지루하고 반복적인 수천 개의 예시에 라벨을 달 필요가 없게 함으로써 엄청난 시간과 비용을 절약해 줍니다.

결론: 코드를 믿지 말고, 코드를 읽으십시오

이 논문의 핵심 메시지는 개발자와 연구자들을 향한 행동 촉구입니다: 코드를 읽으십시오.

저자들은 우리가 코드를 읽는 것을 멈추고 "블랙박스" AI 도구들을 맹목적으로 신뢰하기 시작했다고 주장합니다. 이 도구들의 코드를 실제로 읽어봄으로써, 그들은 많은 도구가 서로 다른 방식으로 동일한 일을 하고 있다는 것을 깨달았습니다.

핵가치:
식료품점에 가기 위해 페라리를 사기 전에, 걸어가는 법을 먼저 시도해 보세요.

만약 단순한 툴킷 (EZR 같은) 으로 테이블 기반의 소프트웨어 공학 문제를 해결할 수 있다면, 시간, 돈, 에너지를 아낄 수 있습니다.
만약 그 단순한 툴킷이 작동하지 않는다면, 그때 비로소 복잡한 솔루션이 진정으로 필요하다는 것을 알게 될 것입니다.
하지만 "다른 사람들도 다 그렇게 하니까"라는 이유로 복잡한 솔루션이 필요하다고 가정한다면, 당신은 주머니 속의 작은 칼 대신 무거운 배낭을 메고 있는 것일지도 모릅니다.

저자들은 소프트웨어 공학 최적화의 세계에서 **"적을수록 많다 (Less is more)"**는 결론을 내립니다. 그리고 그 "적은 것"을 찾는 가장 좋은 방법은 우리가 이미 가지고 있는 코드를 주의 깊게 읽고 단순화하는 것입니다.

마지막으로 다시 강조합니다: 이 논문의 교훈은 **테이블 기반의 소프트웨어 공학 작업 (Tabular SE Tasks)**에서 입증되었습니다. 생성형 AI (코드 생성, 텍스트 작성 등) 에 이러한 접근법이 적용될 수 있는지는 아직 미지의 영역이며, 이는 저자들이 앞으로 연구해 보고자 하는 미래의 과제입니다.

기술 요약: AI는 쉬워질 수 있는가? EZR.py 툴킷으로부터 얻은 교훈

문제 정의

최근 소프트웨어 공학 및 인공지능 분야의 담론에서는 인간 개발자가 더 이상 코드를 읽을 필요가 없으며, AI(특히 거대 언어 모델)가 새로운 컴파일러가 되었다고 주장한다. 동시에, 소프트웨어 공학(SE) 최적화 분야는 종종 무거운 의존성을 가진 라이브러리(예: pandas, scikit-learn, SMAC3)에 크게 의존하며, 복잡한 문제를 해결하기 위해서는 데이터의 양, 피처(feature)의 수, 그리고 알고리즘의 복잡성이 증가해야 한다고 가정한다.

본 논문은 정형 데이터 기반 소프트웨어 공학 최적화 작업(행은 구성 또는 프로젝트 $x$ 를 나타내고, 열은 독립적인 속성 $x$ , $y$ 는 얻기 어려운 목표를 나타냄) 영역 내의 두 가지 지배적인 가설에 도전한다:

AI 인프라는 거대하고 의존성이 많아야 한다.
서로 다른 알고리즘 계열(분류, 클러스터링, 최적화, 능동 학습)은 별도의 복잡한 구현과 방대한 데이터셋을 필요로 한다.

저자들은 기존 코드를 주의 깊게 읽고 리팩토링하면 많은 "정교한" 방법들이 구조적으로 중복되어 있음을 발견할 수 있으며, 가볍고 통합된 툴킷이 상태 최신(SOTA) 성능에 필적하거나 이를 능가할 수 있다고 주장한다.

방법론

핵심 방법론은 코드 읽기를 통한 코드 리팩토링이다. 저자들은 다양한 AI 도구를 읽고, 다시 쓰고, 리팩토링하는 데 수년을 보냈으며, 이를 통해 중복성을 식별하고 제거하였다. 그 결과물은 파이썬 표준 라이브러리에만 의존하며 무거운 제3자 의존성이 없는 400줄 규모의 파이썬 툴킷인 EZR.py이다.

EZR 기질 (Substrate)

EZR는 네 개의 클래스와 하나의 업데이트 프리미티브(primitive)로 구성된 최소한의 기질 위에 구축되었다:

Num: 수치형 열을 요약한다 (평균, 2차 모멘트, 표준 편차 및 목표 방향을 위한 "heaven" 값을 추적).
Sym: 심볼릭(symbolic) 열을 요약한다 (빈도수를 추적).
Cols: 명명 규칙(예: 클래스를 위한 "!", 최대화를 위한 "+", 최소화를 위한 "-")에 따라 Num 또는 Sym 객체를 인스턴스화하도록 헤더를 파싱하는 팩토리이다.
Data: 행(rows)과 그와 관련된 열 요약 정보를 보유한다.
add: 다형적 업데이트 프리미티브이다. 웰포드(Welford) 알고리즘을 사용하여 Num 통계량을 점진적으로 업데이트하고 Sym 빈도수를 업데이트한다. 결정적으로, 이는 추가와 뺄셈( $w=1$ 또는 $w=-1$ )을 모두 지원하므로, 재학습 없이 상수 시간 내에 행을 데이터셋 간에 이동시킬 수 있다.

알고리즘 구현

이 기질을 사용하여 저자들은 여섯 가지의 뚜렷한 AI 역량을 구현하였으며, 이들이 공통된 기본 메커니즘을 공유함을 입증하였다:

분류 및 클러스터링 (70줄): 나이브 베이즈(Naïve Bayes), k-means, k-means++를 구현하였다. 이 기질은 "적합(fitting)"과 "사용(using)"의 구분을 제거한다. 즉, Data 객체 자체가 본질적으로 적합된 모델이다.
트리 (43줄): 분류 및 회귀 트리의 통합 구현이다. 유일한 차이점은 점수 함수(disty는 회귀용, 엔트로피는 분류용)이다.
최적화 (56줄): 시뮬레이티드 어닐링(SA)과 로컬 서치(LS)를 단일 (1+1) 진화 알고리즘의 변형으로 구현하였다. 두 방식은 동일한 oneplus1 루프를 공유하며, 변이(mutation) 및 수용(acceptance) 전략에서만 차이를 보인다.
능동 학습 (80줄): 두 개의 데이터셋, 즉 best (상위 $\sqrt{N}$ 개의 행)와 rest (나머지 행)를 유지하는 능동 학습기이다. 새로운 레이블이 발생하면 add/sub 프리미티브를 사용하여 상수 시간 내에 재균형을 맞추며, 이는 SMAC3와 같은 앙상블 방식에서 요구되는 전체 재학습 과정을 피한다.
텍스트 마이닝 (30줄): **보완 나이브 베이즈(Complementary Naïve Bayes, CNB)**를 사용하는 관련성 필터이다. 가장 가능성 높은 클래스를 예측하는 대신, CNB는 문서가 속할 가능성이 가장 낮은 클래스를 예측함으로써 효과적으로 무관한 문서를 걸러낸다.

실험 설정

툴킷은 소프트웨어 구성, 성능 튜닝, 결함 예측, 텍스트 마이닝을 아우르는 MOOT 저장소의 124개 다목적 최적화 태스크를 통해 평가되었다.

비교 대상: EZR는 최적화의 SMAC3, 설명 가능성의 SHAP/LIME, 텍text 마이닝의 FASTREAD와 같은 SOTA 도구들과 비교되었다.
지표: 성능은 "승리(wins)" (정규화된 후회, normalized regret), 레이블 효율성 (최적값에 도달하기 위한 레이블 수), 피처 효율성 (사용된 피처 수), 그리고 실행 시간으로 측정되었다.
통계적 엄밀성: 결과는 20회 이상의 반복 실험을 통해 집계되었다. 미세한 차이는 과잉 해석을 방지하기 위해 Sawilowsky의 임계값(0.35 $\sigma$ ) 미만일 경우 0으로 처리하였다.

주요 결과

1. 성능 대 복잡성

최적화: 20개의 MOOT 벤치마크에서, 시뮬레이티드 어닐링(재시작 없는 1983년 기본 설정)은 로컬 서치 변형 및 SMAC3와 대등하거나 더 나은 성능을 보였다. SA는 98–99의 평균 승리 점수를 달성한 반면, LS는 유사한 성능에 도달하기 위해 재시작이 필요했다.
속도: EZR 능동 학습기는 SMAC3보다 500배 빠르게 실행되었다. 이는 EZR가 행 교체를 통해 상수 시간( $O(1)$ ) 내에 모델을 업데이트하는 반면, SMAC3는 매 새로운 레이블마다 트리 앙상블을 다시 구축해야 하기 때문이다.
레이블 효율성: EZR의 능동 학습기는 SOTA 방식들이 종종 수천 개의 레이블을 필요로 하는 것과 달리, 100개 미만의 레이블만으로 **참조 최적값의 85–95%**에 도달하였다.
피처 효율성: 데이터셋이 수백 또는 수천 개의 피처를 포함하고 있음에도 불구하고, EZR의 트리는 일관되게 10개 미만의 변수를 사용하여 효과적인 모델을 구축하였다. 사용 가능한 피처의 수가 증가해도 성능은 저하되지 않았다.

2. 텍스트 마이닝

보완 나이브 베이즈를 사용하여, EZR는 체계적 문헌 고찰(SLR) 작업에서 선형 SVM을 사용하는 FASTREAD가 300–800개의 레이블을 필요로 하는 것과 비교하여 100개 미만의 레이블로 높은 재현율(recall)을 달ach하였다.
본 연구는 기존 연구의 방법론적 격차를 폭로하였다. 저자들은 **오경보율(False Alarm rates)**을 측정함으로써(이전 연구들은 이를 무시했음), Rennie 등이 제안한 CNB의 권장 정규화 단계가 오히려 오경보를 증가시킨다는 것을 발견하였다. 이는 기존 도구들의 복잡성에 의해 가려졌던 결함이다.

3. 코드 크기 및 의존성

EZR: 400줄의 코드, 파이썬 표준 라이브러리만 사용, 설치 크기 1MB 미만.
SOTA 비교군: 흔히 20만 줄 이상의 코드이며, 재현성을 위해 pandas, sklearn, numpy 및 무거운 컴퓨팅 클러스터를 요구함.

의의 및 주장

본 논문은 AI가 모든 작업에 대해 보편적으로 단순하다거나 LLM이 모든 작업을 대체할 것이라고 주장하는 것이 아니다. 대신, 정형 데이터 기반 SE 최적화에 대해 다음과 같이 겸허하고 구체적인 주장을 펼친다:

코드를 읽는 것은 유효한 연구 방법이다: 저자들은 "코드를 읽고 리팩토링하는 것"이 통찰력을 생성하는 유용한 방법이라고 주장한다. 알고리즘을 핵심까지 깎아 내려감으로써, 저자들은 겉보기에 서로 다른 알고리즘들(나이브 베이즈, k-means, SA)이 몇 줄의 공유된 코드로 수렴할 수 있음을 입증하였다.
미니멀리즘은 복잡성에 필적한다: 작고 통합된 툴킷은 거대하고 전문화된 라이브러리와 대등할 수 있다. "무거운" 접근 방식은 성능의 비례적인 이득 없이 불필요한 복잡성, 유지보수 부담, 계산 비용을 초래하는 경우가 많다.
가설의 재평가: 본 결과는 더 많은 데이터와 피처가 항상 더 나은 모델을 만든다는 "No Free Lunch" 가설에 도전한다. 테스트된 영역에서 적은 것이 더 많은 것이다(less is more): 더 적은 레이블, 더 적은 피처, 더 단순한 모델이 우수하거나 동등한 결과를 냈다.
실무적 시사점: 실무자는 무거운 파이프라인을 배포하기 전에 단순한 베이스라인을 먼저 실행해야 한다. 만약 단순한 모델이 복잡한 모델과 대등한 성능을 보인다면, 그 복잡한 모델은 "기술 부채"이다.

저자들은 "AI가 새로운 컴파일러"라는 서사가 생성이나 지각 작업에는 적용될 수 있지만, 정형 데이터 최적화 영역에서는 주의 깊은 읽기와 단순화가 여전히 효율성과 통찰력을 생성하는 강력한 도구임을 결론짓는다. 본 논문은 커뮤니티가 다른 "정교한" 방법들에 대해서도 유사한 검토를 적용할 것을 권하며, 많은 방법이 단순화될 수 있음을 시사한다.

Can AI be Easy? Lessons Learned from the EZR.py Toolkit