The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

이 논문은 가정용 폐기물 10 개 카테고리를 포함하는 12,259 장의 이미지로 구성된 공개 데이터셋 'Garbage Dataset(GD)'을 소개하고, 다양한 딥러닝 모델을 통해 분류 성능과 탄소 배출량을 평가하여 자동 폐기물 분리 연구의 실용적 벤치마크로 활용 가치를 제시합니다.

Suman Kunwar

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🗑️ 이 연구는 왜 필요할까요?

우리가 매일 버리는 쓰레기를 재활용하려면 먼저 "이게 플라스틱인가, 유리인가?"를 구분해야 합니다. 하지만 사람이 일일이 손으로 분류하는 건 너무 힘들고 비효율적입니다. 그래서 AI(인공지능) 가 쓰레기를 스스로 보고 분류하게 하려고 합니다.

그런데 AI 를 가르치려면 **"잘 가르칠 수 있는 좋은 교재 (데이터)"**가 필요한데, 기존에 있던 교재들은 다음과 같은 문제가 있었습니다.

  • 종류가太少 (TrashNet): 종이와 플라스틱만 많고, 다른 건 없어요.
  • 장소가 이상함 (TACO, UAVVaste): 바다에 떠다니는 쓰레기나 하늘에서 본 쓰레기만 있어요.
  • 실제와 다름: 너무 깔끔하게 찍힌 사진들만 있어서, 실제 쓰레기통처럼 지저분한 환경에서는 AI 가 당황합니다.

이 연구는 **"실제 우리 집과 쓰레기장에서 볼 수 있는 모든 종류의 쓰레기 사진 12,259 장을 모아, AI 가 진짜 현실에서 쓸 수 있도록 만든 새로운 교재 (GD)"**를 만들었습니다.


📸 이 '새로운 교재'는 어떻게 만들었나요?

  1. 다양한 곳에서 사진 수집:

    • 직접 개발한 모바일 앱으로 사람들이 찍은 사진, 인터넷에서 찾아온 사진, 그리고 자원봉사자들이 보낸 사진을 모두 모았습니다.
    • 마치 다양한 취미 생활을 가진 사람들이 각자 찍은 여행 사진을 한데 모으는 것과 같습니다.
  2. 불필요한 것 제거 (청소 작업):

    • 똑같은 사진이 여러 장 있는 경우 (복사본) 를 찾아서 없앴습니다. (지문으로 같은 사람인지 확인하는 것과 비슷합니다.)
    • 투명하거나, 글자가 적혀 있거나, 저작권 문제가 있는 사진은 버렸습니다.
    • 결과: 처음에 2 만 장이 넘던 사진을, AI 가 배우기 좋은 **12,259 장의 '고품질 사진'**으로 정리했습니다.
  3. 10 가지 카테고리 분류:

    • 금속, 유리, 생물학적 폐기물, 종이, 배터리, 일반 쓰레기, 판지, 신발, 옷, 플라스틱 등 10 가지 주요 쓰레기 종류로 나누었습니다.

🔍 이 교재의 특징 (문제점과 장점)

이 교재는 AI 에게 진짜 시험을 치르게 하기에 아주 까다롭습니다.

  • 📊 편향된 학생 수 (클래스 불균형):
    • '플라스틱'이나 '종이' 사진은 수천 장인데, '유리'나 '쓰레기' 사진은 몇 백 장뿐입니다.
    • 비유: 수학 선생님이 '뺄셈' 문제만 1,000 개 주고, '나눗셈' 문제는 10 개만 준다면, 학생은 뺄셈은 잘하지만 나눗셈은 전혀 못하게 되겠죠? AI 도 마찬가지라, 적은 종류의 쓰레기를 잘 못 구분합니다.
  • 🌆 복잡한 배경:
    • 사진 배경이 너무 지저분하거나, 빛이 너무 강하거나 어두운 경우가 많습니다.
    • 비유: 시끄러운 카페에서 친구 목소리를 듣는 것과 비슷합니다. AI 가 쓰레기 (목소리) 를 구별하기 어렵게 만드는 '잡음'이 많습니다.
  • 👀 서로 닮은 쓰레기:
    • '종이'와 '플라스틱'은 서로 너무 비슷해서 AI 가 자주 헷갈려 합니다.

🤖 AI 선생님들 (모델) 의 시험 결과

연구진은 이 교재를 가지고 다양한 AI 모델 (EfficientNet, ResNet, MobileNet 등) 을 시험시켜 보았습니다.

  • 가장 잘한 학생: EfficientNetV2S라는 모델이 **95.13%**라는 높은 점수를 받았습니다.
  • 가장 빠른 학생: MobileNet은 점수는 낮았지만 (약 67%), 매우 빠르게 공부했습니다.
  • 환경 비용 (탄소 배출):
    • 점수가 높은 모델은 공부하는 데 많은 전기를 써서 탄소 배출량도 많았습니다.
    • 비유: "최고 점수를 받으려면 고급 연료 (전기) 를 많이 써야 하지만, 조금만 점수를 낮추면 친환경적인 연료로도 충분하다"는 뜻입니다.

결론: 단순히 모델을 크게 만든다고 해서 점수가 오르는 건 아니었습니다. 어떤 모델을 선택하느냐가 더 중요했고, 특히 데이터의 불균형 문제를 해결하지 않으면 AI 는 여전히 특정 쓰레기를 잘 못 구분했습니다.


💡 이 연구의 핵심 메시지

  1. 실제 환경을 반영한 데이터가 중요하다: 깔끔한 사진만으로는 AI 를 훈련시킬 수 없습니다. 지저분하고 복잡한 실제 쓰레기 사진이 필요합니다.
  2. AI 도 편견을 가질 수 있다: 데이터에 특정 쓰레기 사진이 적으면, AI 는 그걸 잘 못 구분합니다. 이를 고쳐주는 노력이 필요합니다.
  3. 환경과 성능의 균형: AI 가 똑똑해질수록 전기를 많이 씁니다. 우리는 성능과 환경 비용 (탄소 배출) 을 모두 고려해서 적절한 모델을 골라야 합니다.

이 연구는 앞으로 자동 쓰레기 분리수거 기계재활용 앱을 개발하는 사람들에게 아주 귀중한 지도 (데이터) 를 제공하며, "AI 를 만들 때는 데이터의 특성과 환경 영향까지 함께 생각하자"고 조언합니다.