The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Each language version is independently generated for its own context, not a direct translation.

우리가 매일 버리는 쓰레기를 재활용하려면 먼저 "이게 플라스틱인가, 유리인가?"를 구분해야 합니다. 하지만 사람이 일일이 손으로 분류하는 건 너무 힘들고 비효율적입니다. 그래서 AI(인공지능) 가 쓰레기를 스스로 보고 분류하게 하려고 합니다.

그런데 AI 를 가르치려면 **"잘 가르칠 수 있는 좋은 교재 (데이터)"**가 필요한데, 기존에 있던 교재들은 다음과 같은 문제가 있었습니다.

이 연구는 **"실제 우리 집과 쓰레기장에서 볼 수 있는 모든 종류의 쓰레기 사진 12,259 장을 모아, AI 가 진짜 현실에서 쓸 수 있도록 만든 새로운 교재 (GD)"**를 만들었습니다.

다양한 곳에서 사진 수집:
- 직접 개발한 모바일 앱으로 사람들이 찍은 사진, 인터넷에서 찾아온 사진, 그리고 자원봉사자들이 보낸 사진을 모두 모았습니다.
- 마치 다양한 취미 생활을 가진 사람들이 각자 찍은 여행 사진을 한데 모으는 것과 같습니다.
불필요한 것 제거 (청소 작업):
- 똑같은 사진이 여러 장 있는 경우 (복사본) 를 찾아서 없앴습니다. (지문으로 같은 사람인지 확인하는 것과 비슷합니다.)
- 투명하거나, 글자가 적혀 있거나, 저작권 문제가 있는 사진은 버렸습니다.
- 결과: 처음에 2 만 장이 넘던 사진을, AI 가 배우기 좋은 **12,259 장의 '고품질 사진'**으로 정리했습니다.
10 가지 카테고리 분류:
- 금속, 유리, 생물학적 폐기물, 종이, 배터리, 일반 쓰레기, 판지, 신발, 옷, 플라스틱 등 10 가지 주요 쓰레기 종류로 나누었습니다.

이 교재는 AI 에게 진짜 시험을 치르게 하기에 아주 까다롭습니다.

📊 편향된 학생 수 (클래스 불균형):
- '플라스틱'이나 '종이' 사진은 수천 장인데, '유리'나 '쓰레기' 사진은 몇 백 장뿐입니다.
- 비유: 수학 선생님이 '뺄셈' 문제만 1,000 개 주고, '나눗셈' 문제는 10 개만 준다면, 학생은 뺄셈은 잘하지만 나눗셈은 전혀 못하게 되겠죠? AI 도 마찬가지라, 적은 종류의 쓰레기를 잘 못 구분합니다.
🌆 복잡한 배경:
- 사진 배경이 너무 지저분하거나, 빛이 너무 강하거나 어두운 경우가 많습니다.
- 비유: 시끄러운 카페에서 친구 목소리를 듣는 것과 비슷합니다. AI 가 쓰레기 (목소리) 를 구별하기 어렵게 만드는 '잡음'이 많습니다.
👀 서로 닮은 쓰레기:
- '종이'와 '플라스틱'은 서로 너무 비슷해서 AI 가 자주 헷갈려 합니다.

연구진은 이 교재를 가지고 다양한 AI 모델 (EfficientNet, ResNet, MobileNet 등) 을 시험시켜 보았습니다.

가장 잘한 학생: EfficientNetV2S라는 모델이 **95.13%**라는 높은 점수를 받았습니다.
가장 빠른 학생: MobileNet은 점수는 낮았지만 (약 67%), 매우 빠르게 공부했습니다.
환경 비용 (탄소 배출):
- 점수가 높은 모델은 공부하는 데 많은 전기를 써서 탄소 배출량도 많았습니다.
- 비유: "최고 점수를 받으려면 고급 연료 (전기) 를 많이 써야 하지만, 조금만 점수를 낮추면 친환경적인 연료로도 충분하다"는 뜻입니다.

결론: 단순히 모델을 크게 만든다고 해서 점수가 오르는 건 아니었습니다. 어떤 모델을 선택하느냐가 더 중요했고, 특히 데이터의 불균형 문제를 해결하지 않으면 AI 는 여전히 특정 쓰레기를 잘 못 구분했습니다.

실제 환경을 반영한 데이터가 중요하다: 깔끔한 사진만으로는 AI 를 훈련시킬 수 없습니다. 지저분하고 복잡한 실제 쓰레기 사진이 필요합니다.
AI 도 편견을 가질 수 있다: 데이터에 특정 쓰레기 사진이 적으면, AI 는 그걸 잘 못 구분합니다. 이를 고쳐주는 노력이 필요합니다.
환경과 성능의 균형: AI 가 똑똑해질수록 전기를 많이 씁니다. 우리는 성능과 환경 비용 (탄소 배출) 을 모두 고려해서 적절한 모델을 골라야 합니다.

이 연구는 앞으로 자동 쓰레기 분리수거 기계나 재활용 앱을 개발하는 사람들에게 아주 귀중한 지도 (데이터) 를 제공하며, "AI 를 만들 때는 데이터의 특성과 환경 영향까지 함께 생각하자"고 조언합니다.

유사한 논문