MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

이 논문은 광산 작업의 안전 위반을 감지하기 위해 도메인 특화 데이터셋과 효율적인 모듈을 도입한 멀티모달 비전 - 언어 프레임워크인 MonitorVLM 을 제안하며, 기존 모델 대비 정밀도, 재현율, F1 점수에서 크게 향상된 성능을 입증합니다.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏗️ 1. 문제 상황: "눈이 많은 감시자"의 한계

광산이나 공사 현장에서는 수많은 안전 규칙이 있습니다. "헬멧을 써라", "안전벨트를 매라", "담배를 피우지 마라" 등등.
지금까지 이 규칙을 지키는지 확인하는 일은 **현장 감독관 (사람)**이 CCTV 영상을 하나하나 직접 보며 확인하는 방식이었습니다.

  • 문제점: 사람이 감시하는 것은 피곤하고, 실수가 생기기 쉽습니다. 또한, 광산은 넓고 어두워서 멀리 있는 사람의 작은 행동 (예: 헬멧 끈을 느슨하게 매는 것) 을 놓치기 쉽습니다. 마치 수만 개의 책장을 가진 도서관에서 한 권의 책을 찾아야 하는데, 도서관 관리자가 눈으로만 일일이 찾아다니는 상황과 같습니다.

🚀 2. 해결책: MonitorVLM (모니터브이엘엠)

이 논문은 인공지능 (AI) 을 이용해 이 문제를 해결했습니다. 이 AI 는 단순히 영상을 보는 것을 넘어, **안전 규정 (텍스트) 과 현장 영상 (이미지) 을 동시에 이해하는 '시각 - 언어 모델'**입니다.

이 시스템은 크게 세 가지 똑똑한 도구를 사용합니다.

① 도우미 1: "규칙 필터 (Clause Filter)" - 현명한 도서관 사서

  • 상황: 현장에는 수백 가지 안전 규칙이 있습니다. AI 가 매번 모든 규칙을 다 확인하면 시간이 너무 오래 걸립니다.
  • 비유: 마치 도서관 사서가 독자가 찾는 책의 종류에 따라, 관련 있는 책장만 먼저 가리켜 주는 것과 같습니다.
  • 기능: AI 가 영상을 보고 "아, 여기서는 '헬멧'과 '안전대' 관련 규칙만 확인하면 되겠구나!"라고 판단하여, 불필요한 규칙은 제외하고 가장 관련 있는 상위 5 개 규칙만 골라냅니다.
  • 효과: 이렇게 하면 AI 가 생각하는 시간이 약 13% 단축되어 훨씬 빠르게 답변을 줍니다.

② 도우미 2: "행동 확대기 (Behavior Magnifier)" - 마이크로 렌즈

  • 상황: 광산은 넓어서 카메라에서 근로자가 멀리 떨어져 있을 때가 많습니다. 멀리서 보면 헬멧을 썼는지, 손에 전화를 들고 있는지 구분이 안 갈 수 있습니다.
  • 비유: 마이크로 렌즈확대경을 통해 멀리 있는 사물을 가까이서 또렷하게 보는 것과 같습니다.
  • 기능: AI 가 근로자를 발견하면, 그 부분만 잘라내어 2 배로 확대하고 화질을 높인 뒤 다시 원래 영상에 붙입니다.
  • 효과: 멀리서 흐릿하게 보였던 "헬멧 끈이 풀려 있다"거나 "손에 담배가 있다"는 것을 정확하게 찾아냅니다. (정확도가 3%, 발견율 8% 향상)

③ 도우미 3: "전문가 훈련 데이터" - 현장 실습생

  • 상황: 일반적인 AI 는 광산이라는 특수한 환경을 잘 모릅니다.
  • 비유: 일반 의사가 광산 의사가 되려면 현장 실습이 필요합니다.
  • 기능: 연구팀은 광산의 위험한 상황 9,000 가지를 모아서 AI 에게 가르쳤습니다. (헬멧을 안 쓴 사진, 전동공구를 잘못 쓴 사진 등) 또한, 어두운 광산 환경을 모방하거나 헬멧을 가리는 등의 인위적인 변형을 주어 AI 가 어떤 상황에서도 똑똑하게 대처하도록 훈련시켰습니다.

📊 3. 결과: 얼마나 잘할까요?

이 시스템을 테스트한 결과, 기존에 있던 가장 똑똑한 AI 모델들보다 압도적으로 잘 작동했습니다.

  • 정확도: 잘못된 것을 '안전하다'고 오인하는 경우가 크게 줄었습니다.
  • 발견율: 실제로 위험한 상황을 놓치는 경우가 거의 없어졌습니다.
  • 속도: 규칙을 필터링하고 확대하는 과정을 통해, 복잡한 현장에서도 실시간으로 경고할 수 있습니다.

🎯 4. 결론: 왜 중요한가요?

이 연구는 **"인공지능이 인간의 안전을 지키는 새로운 파트너가 될 수 있다"**는 것을 보여줍니다.

  • 자동 보고: AI 가 위험을 발견하면 자동으로 "오후 2 시 30 분, A 구역에서 헬멧을 쓰지 않은 근로자가 발견되었습니다"라는 보고서를 만들어줍니다.
  • 확장성: 이 기술은 광산뿐만 아니라 건설 현장, 공장 등 어떤 위험한 산업 현장에도 적용할 수 있습니다.

한 줄 요약:

MonitorVLM은 광산이라는 어둡고 복잡한 현장에서, **현명한 사서 (규칙 필터)**가 필요한 책만 골라주고, **확대경 (행동 확대기)**으로 멀리 있는 위험을 찾아내며, **열정적인 실습생 (훈련 데이터)**처럼 학습하여, 사람이 놓칠 수 있는 안전 사고를 AI 가 24 시간 감시하고 알려주는 시스템입니다.