Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"작은 인공지능 (LLM) 이 스스로 실수를 배우며 더 좋은 신경망 구조를 찾아내는 방법"**을 소개합니다.

기존의 인공지능 설계는 거대한 슈퍼컴퓨터가 수천 번을 시뮬레이션해야 했지만, 이 연구는 일반 가정용 그래픽카드 (RTX 4090) 하나와 작은 크기의 인공지능 모델만으로도 가능하다고 말합니다.

이 복잡한 내용을 쉽게 이해할 수 있도록 '요리사'와 '레시피' 비유로 설명해 드릴게요.

🍳 비유: "실수하는 요리사와 메모장"

상상해 보세요. 훌륭한 요리사 (인공지능 모델) 가 새로운 요리를 개발하려고 합니다. 하지만 처음부터 완벽할 수는 없죠.

1. 기존 방식 vs 이 연구의 방식

기존 방식 (비효율적): 요리사가 요리를 만들고, 맛을 보고, 실패하면 그 요리를 완전히 잊어버립니다. 그리고 다시 처음부터 새로운 요리를 만듭니다. 이 과정에서 실패한 경험 (왜 맛이 없었는지) 을 기록하지 않기 때문에 같은 실수를 반복합니다.
이 연구의 방식 (효율적): 요리사가 요리를 만들고, 실패하면 구체적인 메모를 남깁니다. "소금이 너무 많았음", "불이 너무 세서 탔음" 같은 이유와 "다음엔 소금 줄이고 불을 낮춰보자"는 해결책을 적어둡니다. 그리고 가장 최근 5 번의 시도만 메모장에 남겨두고, 그걸 보고 다음 요리를 만듭니다.

2. 핵심 기술 3 가지 (요리사의 도구)

이 연구는 세 가지 핵심 장치를 통해 요리사가 스스로 성장하게 합니다.

① 요리사 (코드 생성기) & 비평가 (프롬프트 개선기)
- 요리사: "이제 이 레시피대로 요리를 만들어봐!"라고 주문을 받으면, 실제로 작동하는 파이썬 (PyTorch) 코드를 작성합니다.
- 비평가: 요리사가 만든 요리를 맛봅니다 (데이터로 학습). 그리고 "이건 너무 짜고, 저건 불이 약했어"라고 분석한 뒤, 다음 요리를 위해 구체적인 조언을 적어줍니다.
- 중요한 점: 이 두 역할은 같은 컴퓨터에서 돌아가기 때문에, 요리사가 무거운 요리를 만들면 컴퓨터가 버거워집니다. 그래서 **가볍고 효율적인 요리 (작은 모델)**를 자연스럽게 선호하게 됩니다.
② '최근 5 개' 메모장 (히스토리 피드백 메모리)
- 요리사가 100 번을 시도했다고 해서 100 번 전의 모든 메모를 다 보면 머리가 복잡해집니다.
- 그래서 **가장 최근 5 번의 시도 (성공/실패 기록)**만 남깁니다.
- 이 메모에는 **"문제점 (왜 실패했나) + 해결책 (어떻게 고칠까) + 결과 (성공했나 실패했나)"**가 3 단으로 정리되어 있습니다.
- 마치 요리사가 "어제 소금 너무 많았지? 오늘 줄였는데 아직 짜네? 그럼 더 줄여야지"라고 직관적으로 배우는 것과 같습니다.
③ 빠른 맛보기 (1 에포크 평가)
- 요리를 완성할 때까지 10 시간씩 끓일 필요는 없습니다. 1 시간만 끓여보고 "이건 맛없겠다"라고 판단하면 바로 버리고 다음 걸 만듭니다.
- 이렇게 **짧은 시간 (1 에포크)**만 학습시켜도 어떤 레시피가 더 좋은지 대략적인 순위를 매길 수 있어, 시간을 아낄 수 있습니다.

3. 실험 결과: 작은 요리사가 대박을 내다

연구진은 세 가지 다른 스타일의 요리사 (LLM 모델) 를 시험해 보았습니다.

DeepSeek-Coder (전문 요리사): 코딩에 특화된 모델입니다. 실패율이 낮고 꾸준히 실력을 키워, CIFAR-10(사진 분류 게임) 에서 **28% → 69%**로 점수가 크게 올랐습니다.
Qwen2.5 (도전적인 요리사): 실패는 많이 했지만, 성공했을 때의 레시피가 가장 훌륭했습니다. **50% → 71.5%**로 가장 높은 점수를 기록했습니다.
GLM-5 (신중한 요리사): 실패를 거의 안 했지만, 점수 상승폭은 작았습니다. 하지만 가장 안정적이었습니다.

결론: 어떤 모델이든, 실수를 기록하고 배우는 과정을 거치면 처음에 만든 요리보다 훨씬 맛있는 요리를 만들어냈습니다.

💡 이 연구가 왜 중요할까요?

저렴합니다: 비싼 클라우드 서버가 필요 없습니다. 집에 있는 고사양 PC 하나면 됩니다. (약 18 시간만 돌리면 끝!)
작은 모델도 가능합니다: 거대한 AI 가 아니어도, **작은 AI(70 억 개 파라미터 이하)**만으로도 훌륭한 결과를 낼 수 있습니다.
실용적입니다: 이 방법으로 찾은 모델은 컴퓨터 성능이 낮은 스마트폰이나 IoT 기기에도 바로 쓸 수 있을 정도로 가볍고 효율적입니다.

📝 한 줄 요약

"인공지능이 자신의 실패를 '최근 5 개'만 기억하며 메모장에 적어두고, 그걸 바탕으로 스스로 레시피를 고쳐가며 더 좋은 모델을 찾아내는, 저렴하고 효율적인 자동 설계 시스템입니다."

이 기술은 앞으로 인공지능을 개발할 때, 거대한 돈과 시간을 들이지 않고도 작은 장비로 최적의 설계를 찾아낼 수 있는 길을 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

신경망 아키텍처 탐색 (NAS) 은 수동으로 설계된 네트워크와 경쟁력 있거나 더 우수한 성능을 내는 네트워크를 자동화하여 설계하는 강력한 패러다임입니다. 그러나 기존 방법론에는 다음과 같은 심각한 한계가 존재합니다.

높은 계산 비용: 초기 강화학습 (RL) 기반이나 진화 알고리즘 기반의 NAS 는 수천~수만 개의 GPU 일 (GPU-days) 을 소모하여 비현실적인 비용이 듭니다.
검색 공간의 제약: 효율적인 차분 가능 Relaxation(DARTS 등) 이나 제로샷 (Zero-shot) 방법들은 미리 정의된 셀 (cell) 기반 구조나 이산적인 검색 공간 내에서만 작동하여, 진정한 혁신적인 아키텍처 패턴을 발견하는 데 한계가 있습니다.
LLM 기반 접근법의 한계: 최근 LLM 을 이용한 코드 생성 방식이 등장했으나, 대부분 '단일 회차 (single-shot)' 생성에 그쳐 평가 피드백을 활용하지 못하거나, 실패한 시나리오를 폐기하여 학습 신호를 잃어버리는 문제가 있었습니다.

2. 방법론 (Methodology)

저자들은 단일 소비자 등급 GPU(RTX 4090) 에서 LLM 미세 조정 (fine-tuning) 없이 실행 가능한 폐쇄 루프 (closed-loop) NAS 파이프라인을 제안합니다.

핵심 구성 요소

코드 생성기 (Code Generator):
- 사전 학습된 지시형 (instruction-tuned) LLM 을 사용하여 실행 가능한 PyTorch 모델 클래스 (nn.Module) 를 생성합니다.
- 현재까지의 최선 아키텍처와 이전 단계의 개선 제안 (suggestions) 을 프롬프트에 포함합니다.
평가기 (Evaluator):
- 생성된 코드를 검증 (Validation) 하고, CIFAR-10, CIFAR-100, ImageNette 데이터셋에서 1 에포크 (one-epoch) 만 학습하여 프록시 정확도 (proxy accuracy) 를 측정합니다.
- 이는 전체 학습의 비용을 줄이면서도 아키텍처의 품질을 빠르게 순위 매길 수 있는 신호로 작용합니다.
프롬프트 개선기 (Prompt Improver) 및 피드백 메모리:
- 역사적 피드백 메모리 (Historical Feedback Memory): 마르코프 체인 (Markov chains) 에서 영감을 얻어 최근 $K=5$ 개의 개선 시도 기록을 슬라이딩 윈도우 형태로 유지합니다.
- 구조화된 진단 삼중체 (Diagnostic Triple): 각 기록은 (문제 식별, 제안된 수정, 결과)의 형태로 저장됩니다. 실패한 코드 실행 (Error) 도 학습 신호로 간주하여, LLM 이 실패 패턴을 반복하지 않도록 합니다.
- 이중 LLM 특화 (Dual-LLM Specialization):
  - 코드 생성기: 아키텍처 합성 담당.
  - 프롬프트 개선기: 진단 및 추론 담당.
  - 이 분업은 LLM 의 인지 부하를 줄이고, VRAM 이 제한된 환경에서 검색이 컴팩트하고 하드웨어 효율적인 모델을 찾도록 유도합니다.

작동 원리

LLM 이 아키텍처 코드를 생성합니다.
평가기가 1 에포크 학습 후 정확도 (또는 오류 메시지) 를 반환합니다.
프롬프트 개선기가 현재 결과와 최근 5 개의 히스토리 (진단 삼중체 포함) 를 분석하여 다음 세대를 위한 구체적인 개선 제안을 생성합니다.
이 과정이 최대 2000 회 반복되며, 가장 좋은 아키텍처가 계속 업데이트됩니다.

3. 주요 기여 (Key Contributions)

폐쇄 루프 반복 NAS 파이프라인: 코드 생성, 평가, 프롬프트 정제를 통해 점진적으로 아키텍처를 발견하는 LLM 기반 시스템 구축.
역사적 피드백 메모리 메커니즘: 실패와 성공을 모두 구조화된 형태로 기록하는 슬라이딩 윈도우를 도입하여, LLM 이 반복적인 실수를 피하고 성공 전략을 기반으로 학습하도록 함.
저예산 및 재현 가능한 NAS: LLM 미세 조정 없이, 파라미터 7B 이하의冻结 (frozen) LLM 과 단일 소비자 GPU(RTX 4090) 만으로 2000 회 반복 검색을 약 18 GPU 시간 내에 완료하는 효율적인 방법론 제시.
광범위한 실험 검증: 다양한 특성을 가진 3 개의 LLM(DeepSeek-Coder, Qwen2.5, GLM-5) 과 3 개의 데이터셋에서 일관된 성능 향상을 입증.

4. 실험 결과 (Results)

CIFAR-10, CIFAR-100, ImageNette 데이터셋에서 1 에포크 프록시 정확도를 기준으로 평가했습니다.

성능 향상:
- DeepSeek-Coder-6.7B (코드 특화): CIFAR-10 에서 초기 28.2% → 최고 69.2% 로 41.0%p 향상 (상관관계 $\rho=0.75$ ). CIFAR-100 에서 5.0% → 29.2% 로 급격히 개선.
- Qwen2.5-7B (범용): CIFAR-10 에서 초기 50.0% → 최고 **71.5%**로 가장 높은 정점 성능 달성 (단, 실패율이 높아 2000 회 중 376 회만 성공).
- GLM-5 (대형 범용): 100 회 반복만으로도 CIFAR-10 에서 43.2% → 62.0% 로 안정적으로 향상 (실패율 9.0% 로 가장 안정적).
효율성: 전체 2000 회 반복 검색이 RTX 4090 에서 약 18 시간 만에 완료됨.
Ablation Study: 피드백 메모리를 제거할 경우 성능이 정체되거나 초기 단일 회차 (single-shot) 수준으로 떨어지는 것을 확인하여, 피드백 루프의 중요성을 입증했습니다.

5. 의의 및 의의 (Significance)

하드웨어 인식형 탐색 (Hardware-Aware Search): LLM 과 모델 학습이 동일한 제한된 VRAM 을 공유하기 때문에, 시스템이 자연스럽게 메모리 효율적이고 엣지 디바이스에 적합한 컴팩트한 아키텍처를 선호하게 됩니다.
클라우드 인프라 불필요: 고가의 클라우드 GPU 클러스터 없이도 연구자들이 개인용 GPU 로 고품질 NAS 를 수행할 수 있는 접근성을 제공합니다.
실패 신호의 가치 재발견: 기존 LLM 최적화 연구들이 실패한 경로를 폐기하는 반면, 이 연구는 실패를 구조화된 학습 신호로 활용하여 작은 모델 (≤7B) 로도 복잡한 아키텍처 탐색이 가능함을 증명했습니다.
개방형 검색 공간: 미리 정의된 셀 구조가 아닌, 실행 가능한 Python 코드 전체를 검색 공간으로 사용하여 더 유연하고 창의적인 아키텍처 발견이 가능합니다.

이 논문은 제한된 자원 환경에서도 LLM 을 활용한 효율적이고 재현 가능한 신경망 설계의 새로운 패러다임을 제시한다는 점에서 의미가 큽니다.