Large Language Models are Algorithmically Blind

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 은 알고리즘의 성능을 예측하는 데 '시각 장애'를 가지고 있다"**는 놀라운 사실을 밝혀냈습니다.

쉽게 비유하자면, LLM 은 '이론책'은 아주 잘 읽었지만, '실제 운전'을 해본 적이 없는 초보 운전사와 같습니다. 이 차를 타고 어떤 길에서 얼마나 빠르게 갈 수 있는지, 혹은 연비가 얼마나 좋을지 말해달라고 하면, 책에서 본 내용을 바탕으로 "아마도 100km/h 정도일 거예요"라고 자신 있게 말하지만, 실제 운전해보니 20km/h 밖에 안 나옵니다.

이 논문의 핵심 내용을 일상적인 비유로 설명해 드릴게요.

1. 연구의 배경: "책으로 배운 이론 vs 실제 도로 상황"

연구자들은 LLM 이 **"이 알고리즘을 쓰면 결과가 얼마나 나올까?"**라고 물었을 때, 실제로 실행해본 데이터 (정답) 와 비교해 보았습니다.

상황: 13 가지 다른 데이터 세트와 4 가지 다른 알고리즘을 조합해서 총 5,200 번이나 실행해 정확한 '정답'을 만들었습니다.
실험: 이 정답을 LLM 에게 보여주고, "이 알고리즘이 이 데이터를 처리할 때 정확도가 0.6~0.9 사이일 거야"라고 예측해 보라고 했습니다.

2. 충격적인 결과: "완전한 시각 장애 (Algorithmic Blindness)"

결과는 참담했습니다. LLM 들은 대부분의 경우 정답을 맞추지 못했습니다.

비유: LLM 이 "정확도는 0.6 에서 0.9 사이일 거야"라고 예측했는데, 실제 정답은 0.38 이었습니다.
범위의 문제: LLM 이 예측한 범위는 실제 오차 범위의 8 배에서 27 배나 더 넓었습니다. 마치 "내일 비가 올 확률은 0% 에서 100% 사이일 거야"라고 말하며 모든 가능성을 열어두는 것과 비슷합니다.
결과: 이렇게 범위를 아주 넓게 잡았는데도, 실제 정답이 그 안에 들어온 경우는 **100 번 중 16 번 (약 15.9%)**에 불과했습니다. 즉, 84% 는 틀렸습니다.

3. 왜 이런 일이 일어났을까? (기억 vs 추론)

연구자들은 LLM 이 실패한 이유를 **'기억 (암기)'**과 **'이해 (추론)'**의 차이에서 찾았습니다.

기억 (암기): LLM 은 인터넷에 떠도는 유명한 논문이나 벤치마크 데이터 (시험 문제) 를 많이 읽었습니다. 그래서 "아, 이 유명한 '아시아'라는 데이터에 'PC' 알고리즘을 쓰면 보통 이런 결과가 나오더라"라고 암기한 숫자를 뱉어냈습니다.
이해 (추론) 부재: 하지만 새로운 데이터나 조금만 변형된 데이터가 나오면 LLM 은 당황합니다. 알고리즘이 왜 그렇게 작동하는지, 데이터의 구조에 따라 결과가 어떻게 변하는지 원리를 이해하고 계산하는 능력이 없기 때문입니다.

비유:

수학 시험에서 '1+1=2'라는 문제만 1,000 번 풀어서 외운 학생이 있습니다. 시험장에 들어가서 "1+1 은 뭐지?"라고 물으면 2 라고 바로 답합니다. 하지만 갑자기 "1+1+1 은?"이라고 물으면, "아마 2 일 거야"라고 말하거나, "정답은 100 에서 1000 사이일 거야"라고 막연하게 말하며 틀립니다. LLM 이 바로 이런 상태입니다.

4. 구체적인 증거들

연구자들은 LLM 이 단순히 '추론'이 아니라 '암기'에 의존한다는 몇 가지 증거를 찾았습니다.

익숙한 문제 vs 낯선 문제: LLM 은 유명한 벤치마크 데이터 (시험 문제) 에서는 조금 더 잘 맞췄지만, 연구자가 새로 만든 인공 데이터 (낯선 문제) 에서는 성능이 급격히 떨어졌습니다.
모델 간 의견 불일치: 유명한 벤치마크 데이터에서는 여러 LLM 이 비슷한 답을 냈지만 (암기한 내용이 같아서), 새로운 데이터에서는 각자 엉뚱한 답을 냈습니다. (모두가 암기하지 않은 상태라 제각각 추측을 하기 때문)
너무 넓은 범위: LLM 이 정답을 맞추지 못하자, "모르니까 범위를 아주 넓게 잡자"라고 생각한 듯, 실제 오차 범위보다 훨씬 넓은 범위를 예측했습니다. 하지만 그 넓은 범위 안에도 정답이 없었습니다.

5. 결론: "LLM 을 알고리즘 선택 도구로 쓰지 마세요"

이 논문의 결론은 매우 명확합니다.

"LLM 은 알고리즘이 어떤 데이터를 처리할 때 얼마나 잘 작동할지 예측하는 데 쓸 수 없습니다."

LLM 은 알고리즘에 대한 이론적 지식은 풍부하지만, 실제 성능을 예측하는 능력은 거의 없습니다. 마치 요리책에 모든 레시피가 다 실려 있다고 해서, 그 책을 읽은 사람이 실제 요리했을 때 맛을 정확히 예측할 수 있는 것은 아니라는 것과 같습니다.

요약하자면:
LLM 은 알고리즘의 성능을 예측할 때 눈이 먼 상태입니다. 우리가 LLM 을 믿고 "이 알고리즘을 쓰면 성공할 거야"라고 판단하면 큰 낭패를 볼 수 있습니다. 대신, LLM 을 사용할 때는 반드시 직접 실행해 보거나 (테스트), 실제 데이터를 기반으로 한 검증이 필수적입니다.

Large Language Models are Algorithmically Blind

1. 연구의 배경: "책으로 배운 이론 vs 실제 도로 상황"

2. 충격적인 결과: "완전한 시각 장애 (Algorithmic Blindness)"

3. 왜 이런 일이 일어났을까? (기억 vs 추론)

4. 구체적인 증거들

5. 결론: "LLM 을 알고리즘 선택 도구로 쓰지 마세요"

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

A. 체계적인 커버리지 실패 (Systematic Coverage Failure)

B. 기억 (Memorization) vs. 추론 (Reasoning)

C. 프롬프트 민감도

5. 의의 및 결론 (Significance & Conclusion)

Large Language Models are Algorithmically Blind

1. 연구의 배경: "책으로 배운 이론 vs 실제 도로 상황"

2. 충격적인 결과: "완전한 시각 장애 (Algorithmic Blindness)"

3. 왜 이런 일이 일어났을까? (기억 vs 추론)

4. 구체적인 증거들

5. 결론: "LLM 을 알고리즘 선택 도구로 쓰지 마세요"

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

A. 체계적인 커버리지 실패 (Systematic Coverage Failure)

B. 기억 (Memorization) vs. 추론 (Reasoning)

C. 프롬프트 민감도

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models

DuCCAE: A Hybrid Engine for Immersive Conversation via Collaboration, Augmentation, and Evolution

Spelling Correction in Healthcare Query-Answer Systems: Methods, Retrieval Impact, and Empirical Evaluation

Can Structural Cues Save LLMs? Evaluating Language Models in Massive Document Streams

Enhancing Legal LLMs through Metadata-Enriched RAG Pipelines and Direct Preference Optimization