QPredSGG: Hybrid Quantum Predicate Learning for Long-Tailed Scene Graph… — 쉬운 설명

원저자: Prerana Ramkumar, Nouhaila Innan, Muhammad Shafique

게시일 2026-06-04

📖 4 분 읽기🧠 심층 분석

원저자: Prerana Ramkumar, Nouhaila Innan, Muhammad Shafique

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 공원에서 찍은 북적이는 사진을 보고 있다고 상상해 보세요. 이미지를 이해하려는 컴퓨터는 단순히 "사람과 말이 보인다"라고 말하는 것 이상의 것을 해야 합니다. 컴퓨터는 "사람이 말을 타고 있다"라는 이야기를 이해해야 합니다.

이 작업은 **장면 그래프 생성(Scene Graph Generation)**이라고 불립니다. 컴퓨터는 이미지의 객체들을 점으로, 그들 사이의 관계를 이 점들을 연결하는 선으로 만들어 지도를 구축합니다.

문제점: "인기 많은 아이" 편향

이 논문은 현재 컴퓨터가 이러한 작업을 수행하는 방식에 존재하는 주요 결함을 지적합니다. 이들은 Visual Genome이라는 거대한 데이터셋을 통해 학습됩니다. 이 데이터셋에는 매우 흔한 관계(예: "위에", "의", "안에")와 매우 드물지만 구체적인 관계(예: "입고 있는", "쫓고 있는", "위에 그림을 그리는")가 섞여 있습니다.

이것을 교실 상황에 비유해 보겠습니다. 교실 학생의 90%가 이름이 "존(John)"이라고 가정해 봅시다. 만약 선생님이 "가장 흔한 이름이 무엇인가요?"라고 묻는다면, 학생들은 거의 항상 "존"이라고 대답할 것입니다. 설령 교실에 "제퍼(Zephyr)"라는 아주 흥มี로운 이름을 가진 학생이 실제로 있더라도, 학생들은 "존"이 훨씬 더 자주 등장하기 때문에 제퍼를 무시하게 됩니다.

컴퓨터 세계에서 이는 AI가 흔한 관계를 추측하는 데는 매우 능숙해지지만, 드물고 구체적인 관계를 파악하는 데는 처참하게 실패한다는 것을 의미합니다. 이를 **롱테일 문제(Long-Tail Problem)**라고 부릅니다.

해결책: 양자 "전문가"

Prerana Ramkumar와 그녀의 팀은 새로운 시도를 해보기로 했습니다. 관계에 대한 최종 결정을 내리는 데 거대하고 무거운 컴퓨터 두뇌를 사용하는 대신, 그 부분을 아주 작은 **하이브리드 양자 헤드(Hybrid Quantum Head)**로 교체했습니다.

그들이 이 작업을 수행한 방법은 다음과 같은 비유를 통해 설명할 수 있습니다.

힘든 일 처리 (고전적 부분): 매우 똑똑하고 전통적인 사서(이 "CFEN 백본")가 책을 읽고 이야기를 요약한다고 상상해 보세요. 이 부분은 그대로 유지됩니다. 이 부분은 시각적 정보를 가져와 두 객체 사이의 관계에 대한 길고 상세한 요약(4,096개의 숫자)을 만듭니다.
양자 전문가 (새로운 부분): 이 긴 요약을 거대하고 비싼 결정권자에게 전달하는 대신, 그들은 이를 16개의 숫자로 이루어진 아주 작은 요약본으로 압축합니다. 그런 다음 이 작은 요약을 **양자 회로(Quantum Circuit)**에 입력합니다.
- 양자 회로는 마법의 필터나 특수 렌즈라고 생각하면 됩니다. 이것은 작동하기 위해 거대할 필요가 없습니다. 이 회로는 양자 역학의 기묘한 법칙(중첩과 얽힘 등)을 사용하여 16개의 숫자를 살펴보고, "이것이 '타고 있는' 것인가, 아니면 '입고 있는' 것인가?"를 결정합니다.
결과: 전문가는 추측을 내놓고, 작은 고전 컴퓨터가 이를 확인합니다.

무엇을 테스트했는가

연구진은 이 과정을 완벽한 "양자 전문가"를 찾기 위한 과학 실험처럼 다루었습니다. 그들은 다음을 테스트했습니다:

사용할 "큐비트(qubits, 양자 비트)"의 수: 4개와 8개를 시도했습니다.
데이터 변환 방식: 숫자를 양자 상태로 변환하는 다양한 방법(예: "Angle Embedding" 대 "Amplitude Embedding")을 시도했습니다 편입니다.
회로의 복잡도: 다양한 층(layer)의 수를 가진 회로를 테스트했습니다.

큰 성과

연구진이 발견한 내용을 쉬운 영어로 설명하면 다음과 같습니다:

작을수록 아름답다: 가장 좋은 버전은 단 4개의 큐비트(테스트한 가장 작은 크기)를 사용했습니다. 이 모델은 96개의 학습 가능한 파라미터만을 가졌습니다. 이를 비교해 보자면, 나머지 컴퓨터 모델은 수백만 개의 파라미터를 가지고 있습니다. 양자 부분은 거대한 주방에서 딱 한 가지 결정적인 역할만을 수행하는 작고 효율적인 셰프와 같습니다.
희귀한 것에 더 강함: 시스템이 희귀한 관계에 특별히 더 주의를 기울이도록 훈련했을 때(특수한 "가중치" 학습 방법을 사용하여), 양자 헤드는 세상의 "제퍼"들을 찾아내는 데 훨씬 더 뛰어난 성능을 보였습니다.
- 기존의 표준 컴퓨터 모델은 희귀한 관계를 약 41% 맞혔습니다.
- 새로운 4-큐비트 양자 모델은 **57%**를 맞혔습니다.
- 8-큐비트 버전 역시 **55%**로 강력한 성능을 유지했습니다.
흔한 것을 놓치지 않음: 희귀한 것을 잘 잡아내는 동안에도, 모델은 "위"나 "안" 같은 흔한 관계를 추측하는 능력을 잃지 않았습니다. 전체 정확도를 높게 유지했습니다.
실제 하드웨어 테스트: 그들은 단순히 시뮬레이터에서만 실행한 것이 아니라, 실제 양자 컴퓨터(IBM 초전도 칩)에서 아주 작은 버전을 실제로 실행했습니다. 결과는 성공적이었습니다! 오류가 나거나 무작위 답변을 내놓지 않았습니다. 9개의 테스트 케이스 중 6개를 정확히 식별해 냈으며, 이는 이 작은 양자 두뇌가 실제의 노이즈가 있는 하드웨어에서도 실제로 작동할 수 있음을 증명합니다.

트레이드오프 (Trade-Off)

논문은 또한 주의할 점도 언급했습니다. 만약 양자 회로를 너무 깊게 만든다면(더 "똑똑하게" 만들기 위해 층을 많이 추가한다면), 실행하는 데 시간이 더 오래 걸리고 더 많은 컴퓨팅 자원을 사용하게 됩니다. 최적의 지점(Sweet spot)은 충분히 똑똑하면서도 충분히 빠른 회로였습니다.

요약

요약하자면, 이 논문은 AI를 개선하기 위해 반드시 거대한 양자 컴퓨터가 필요한 것은 아니라는 점을 보여줍니다. 마지막 의사 결정 단계만을 작고 효율적인 양자 모듈로 교체함으로써, AI가 이미지 속의 희귀하고 구체적인 관계들을 무시하지 않도록 도울 수 있습니다. 이는 마치 시끄럽고 편향된 군중을, 다른 모든 이들이 놓치는 세부 사항까지 들어내는 조용하고 고도로 훈련된 전문가로 교체하는 것과 같습니다.

기술 요약: QPredSGG – 롱테일 장면 그래프 생성을 위한 하이브리드 양자 술어 학습

1. 문제 정의

장면 그래프 생성(Scene Graph Generation, SGG)은 이미지를 객체(노드)와 그들의 의미론적 관계(엣지)로 구성된 구조화된 그래프로 표현하는 것을 목표로 하며, 일반적으로 $\langle \text{주체}, \text{술어}, \text{대상} \rangle$ 의 삼중항(triplet)으로 표현됩니다. 현재 SGG 시스템의 핵심적인 병목 현상은 Visual Genome과 같은 데이터셋에서 발견되는 **술어의 롱테일 분포(long-tailed distribution of predicates)**입니다. 빈번하게 등장하는 일반적인 술어(예: "on", "of", "in")가 주석 처리된 관계를 지배하는 반면, 의미적으로 구체적인 술어는 드물게 나타납니다.

결과적으로, 기존의 목적 함수로 학습된 표준 모델들은 빈번한 클래스를 예측함으로써 **전역 재현율(Global Recall, R@K)**을 최적화하는 경향이 있으며, 이로 인해 희귀하지만 정보 가치가 높은 관계에 대한 **평균 재현율(Mean Recall, mR@K)**은 저하됩니다. 인과 추론(causal inference)이나 손실 가중치 재설정(loss reweighting)과 같은 기존의 디바이어싱(debiasing) 전략들이 평균 재현율을 개선해 왔으나, CFEN(Causal Feature Enhancement Network)과 같은 최첨단 프레임워크 내의 술어 분류 단계는 여전히 대규모의 고전적 다층 퍼셉트론(MLP)에 의존하고 있습니다. 이러한 결정 모듈은 파라미터가 매우 많으며, 이는 더 압축된 결정 모듈이 롱테일 인식 성능을 유지하거나 오히려 향상시킬 수 있는지에 대한 의문을 제기합니다.

2. 방법론

본 논문은 CFEN 백본의 고전적 술어 헤드를 **양자 술어 헤드(Quantum Predicate Head, QP-Head)**로 교체하는 하이브리드 양자-고전 아키텍처인 QPredSGG를 제안합니다. 방법론은 4단계의 실험 파이프라인을 따릅니다:

백본 및 특징 압축: 시스템은 문맥적 쌍 임베딩( $h_{ij} \in \mathbb{R}^{4096}$ )을 추출하기 위해 양방향 트리 LSTM(BiTreeLSTM)을 사용하는 CFEN 백본을 활용합니다. 양자 처리를 수행하기 전, 이 고차원 특징들은 고전적 선형 레이어를 통해 압축된 양자 호환 벡터(예: 4 큐비트를 위한 16차원)로 투영됩니다.
하이브리드 양자 아키텍처 (QP-Head):
- 인코딩 (Encoding): 압축된 특징들은 각도 임베딩(Angle Embedding)(특징을 회전 각도로 매핑) 또는 진폭 임베딩(Amplitude Embedding)(상태 진폭으로 정규화 및 매핑)을 사용하여 매개변수화된 양자 회로(PQC)에 인코딩됩니다.
- 변분 회로 (Variational Circuit): 인코딩된 상태는 회전 게이트와 얽힘 템플릿(entangling templates)으로 구성된 학습 가능한 레이어를 통과합니다. 본 연구에서는 두 가지 템플릿인 **기본 얽힘 레이어(Basic Entangling Layers, BEL)**와 **강력한 얽힘 레이어(Strongly Entangling Layers, SEL)**를 평가합니다.
- 리드아웃 (Readout): 회로는 기댓값을 생성하는 측정으로 종료되며, 이 값들은 51개의 술어 클래스에 대한 로짓(logits)을 생성하기 위해 경량화된 고전적 리드아웃 레이어로 전달됩니다.
편향 인식 학습 (Bias-Aware Training): 롱테일 불균형 문제를 해결하기 위해 모든 모델은 가중치 교차 엔트로피(Weighted Cross-Entropy, WCE) 손실을 사용하여 학습됩니다. 역빈도 가중치가 적용되며, 희귀 클래스와 빈번 클래스 간의 페널티 비율은 46배로 제한되어, 최적화 도구가 학습을 불안정하게 하지 않으면서도 희귀 술어를 우선적으로 학습하도록 보장합니다.
평가 지표: 성능은 전역 재현율(R@50, R@100) 및 평균 재현율(mR@50, mR@100)을 통해 평가됩니다. 또한, 표현력(Expressibility)(Haar-random fidelity로부터의 KL divergence) 및 얽힘(Entanglement)(Von Neumann entropy)을 포함한 양자 특화 지표들도 분석됩니다.

3. 주요 기여

본 논문은 다섯 가지 주요 기여를 명시합니다:

하이브리드 양자 술어 헤드: SGG 파이프라인에서 고전적 MLP를 대체하여 관계적 특징 백본을 보존하는 압축된 매개변수화 양자 회로인 QP-Head를 도입했습니다.
제어된 아키텍처 연구: 큐비트 수(4 vs. 8), 인코딩 전략(Angle vs. Amplitude), 얽힘 템플릿(BEL vs. SEL), 그리고 회로 깊이(2, 4, 6 레이어)에 따른 QP-Head의 체계적인 평가를 수행했습니다.
편향 인식 평가: QP-Head가 단순히 빈번한 클래스의 성능을 높이는 것이 아니라, 희귀 술어 인식을 개선하는지 확인하기 위해 클래스 균형 학습 하에서의 분석을 수행했습니다.
양자 품질 및 효율성 분석: 시맨틱 성능과 회로 수준의 진단(표현력, 얽힘) 및 계산 오버헤드(파라미터 수, 실행 시간) 간의 상관관계를 분석했습니다.
물리적 QPU 검증: 상태 벡터 시뮬레이션을 넘어 실현 가능성을 검증하기 위해 실제 초전도 양자 프로세서(IBM ibm_fez)에서 압축된 4-큐비트 QP-Head를 실행했습니다.

4. 실험 결과

실험은 Visual Genome 150 (VG-150) 데이터셋의 술어 분류(PredCls) 설정에서 수행되었습니다.

학습 역학: 클래스 균형 학습(WCE)은 전역 재현율을 저하시키지 않으면서 표준 교차 엔트로피에 비해 mR@50을 (약 0.17에서 약 0.26으로) 유의미하게 개선했습니다.
4-큐비트 탐색: 4-큐비트 구성 중, 강력한 얽힘 레이어를 사용한 진폭 임베딩이 가장 우수한 성능을 보였으며, 단 96개의 학습 가능한 양자 파라미터만으로 **mR@100 57.25%**를 달성했습니다(고전적 CFEN 참조 모델의 41.1% 대비). 이 구성은 16차원의 압축된 표현을 사용했습니다.
8 큐비트로의 확장: 8 큐비트(256차원 상태 공간)로 확장했을 때도 강력한 성능을 유지하며, 384개의 양자 파라미터로 **mR@100 55.38%**에 도달했습니다. 전역 재현율은 안정적으로 유지되었습니다 (R@100 > 0.90).
깊이 절제 실험 (Depth Ablation): 회로 깊이를 2에서 6 레이어로 늘리면 표현력(낮은 KL divergence)은 향상되었으나, 실행 시간 지연(latency)이 크게 증가했습니다(약 214ms에서 474ms로). 4-레이어 구성이 표현력과 계산 비용 사이의 최적의 절충안을 제공했습니다.
파라미터 효율성: 양자 구성 요소는 전체 모델 파라미터의 0.001% 미만을 차지하며, 고전적 특징 추출기 위의 압축된 결정 레이어 역할을 했습니다.
하드웨어 실행: IBM ibm_fez QPU에서 4-큐비트 모델은 9개의 검증 삼중항을 성공적으로 처리하여 66.67%의 배치 정확도를 달-성했습니다. 결정적으로, 출력은 하드웨어 노이즈에도 불구하고 하나의 지배적인 클래스로 붕괴되지 않고 클래스 구별 구조를 보존했습니다.
비교: QP-Head 변형 모델들은 고전적 CFEN 참조 모델보다 mR@100(57.25% vs. 41.1%)에서 더 높은 성능을 보였으며, 고전적 헤드에 필요한 파라미터의 극히 일부만을 사용하면서도 경쟁력 있는 전역 재현율을 유지했습니다.

5. 의의 및 주장

본 논문은 압축된 하이브리드 양자 술어 헤드가 복잡한 시각적 추론 작업에서 파라미터 효율적인 롱테일 관계 분류를 지원할 수 있음을 완곡하게 주장합니다.

무조건적 우위의 주장이 아님: 저자들은 광범위한 양자 우위를 주장하지 않습니다. 대신, 작은 NISQ 시대의 양자 회로가 확립된 고전적 파이프라인에 통합될 때 효과적인 결정 모듈로서 기능할 수 있다는 통제된 증거를 제공합니다.
실현 가능성: 본 연구는 하이브리드 양자 모델이 심각한 차원 압축 상황에서도 시뮬레이션 환경에서 학습될 수 있고, 무작위 또는 단일 클래스로 붕괴되지 않고 물리적 하드웨어에서 실행될 수 있음을 입증합니다.
실용성: 결과는 아키텍처(인코딩 및 얽힘)가 신중하게 조정된다면, 양자 구성 요소가 과도한 파라미터 오버헤드 없이 희귀 술어에 대한 평균 재현율을 개선할 수 있음을 시사합니다.

본 연구는 현재의 평가가 PredCls와 시뮬레이션에 국한되어 있으나, QP-Head가 롱테일 편향을 효율적으로 해결하기 위해 하이브리드 양자 구성 요소를 장면 그래프 생성에 통합하는 유망한 방향임을 보여준다고 결론짓습니다.

QPredSGG: Hybrid Quantum Predicate Learning for Long-Tailed Scene Graph Generation