Criteria-first, semantics-later: reproducible structure discovery in image-based sciences

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식: "무엇인가?"를 먼저 정하는 것 (Semantics-First)

지금까지 과학자들은 사진을 볼 때, **"이건 뭐지? (고양이인가, 개인가?)"**라고 먼저 생각했습니다.

비유: 마치 요리사가 재료를 볼 때, "이건 소고기야, 돼지고기야?"라고 먼저 분류하는 것과 같습니다.
문제점: 만약 10 년 뒤에 "소고기"라는 이름이 바뀌거나, 다른 나라에서는 소고기를 "붉은 고기"라고 부르면 어떻게 될까요?
- 이미 "소고기"라고 딱 붙여진 레이블은 그 이름이 바뀌면 쓸모없어집니다.
- 계절이 바뀌거나, 카메라가 바뀌거나, 연구 주제가 달라지면 기존에 정해둔 이름 (레이블) 들이 더 이상 맞지 않게 되어 분석이 무너집니다.
- 결과: 이름 (의미) 에 너무 집착하다 보니, 실제 데이터의 본질적인 구조를 놓치게 됩니다.

2. 새로운 방식: "어떻게 생겼는가?"를 먼저 찾는 것 (Criteria-First)

이 논문은 **"이름을 붙이는 건 나중에 해도 돼. 일단 이 재료들이 어떤 모양과 질감을 가지고 있는지 먼저 찾아보자"**라고 말합니다.

비유: 레고 블록을 생각해보세요.
- 기존 방식은 "이건 자동차야, 비행기야?"라고 먼저 정해놓고 블록을 맞추려다 실패하는 것입니다.
- 새로운 방식은 먼저 **"이 블록들은 빨간색이고, 네모나게 생겼고, 서로 잘 붙는다"**는 **규칙 (기준)**을 찾아냅니다.
- 이 규칙을 바탕으로 블록들을 잘게 나누거나 (구조 발견) 큰 덩어리로 묶습니다.
- 그 다음에 "아, 이 빨간 네모 블록들이 모여서 '자동차' 모양이네!"라고 이름을 붙이거나, "아, 이건 '비행기'로 변할 수도 있겠네!"라고 다른 이름으로 부를 수도 있습니다.

3. 왜 이 방식이 더 좋은가요?

이 논문은 이 새로운 방식이 과학, 특히 장기적인 관찰과 새로운 발견에 필수적이라고 말합니다.

① 이름이 변해도 데이터는 살아남습니다 (안정성)

상황: 10 년 전에는 "산림"이라고 불렀던 지역을, 10 년 후에는 "도시 녹지"라고 부르게 될 수 있습니다.
기존 방식: "산림"이라는 레이블이 사라지면 과거 데이터도 쓸모없어집니다.
새로운 방식: "나무가 빽빽하게 모여 있고, 초록색이 강하다"는 구조적 특징은 그대로 유지됩니다. 나중에 이름이 바뀌어도, 그 구조는 변하지 않으므로 과거와 현재를 비교할 수 있습니다.

② 새로운 것을 발견할 수 있습니다 (개방성)

상황: 우주에서 아직 이름이 없는 새로운 별을 발견했다고 칩시다.
기존 방식: "이건 별 목록에 없으니 분석할 수 없어!"라고 무시할 수 있습니다.
새로운 방식: "이건 빛의 패턴이 이상하고, 모양이 특이하다"는 구조적 특징을 먼저 포착합니다. 그다음에 과학자들이 "아, 이건 새로운 종류의 별이구나!"라고 이름을 붙이면 됩니다.

③ 여러 사람이 함께 쓸 수 있습니다 (호환성)

상황: 의사는 이 이미지를 "암세포"라고 부르고, 생태학자는 "이상한 조직"이라고 부를 수 있습니다.
새로운 방식: 이미지에서 먼저 **구조 (예: 세포막이 끊어진 부분)**를 찾아낸 뒤, 의사는 그걸로 "암"을 진단하고, 생태학자는 "조직 손상"을 진단할 수 있습니다. 하나의 구조를 두고 여러 가지 해석이 공존할 수 있게 됩니다.

4. 핵심 요약: "기준 (Criteria) 먼저, 의미 (Semantics) 나중에"

이 논문의 핵심 메시지는 다음과 같습니다.

구조를 먼저 찾아라: 이미지에서 "무엇인가"를 추측하기보다, "어떤 규칙으로 묶을 수 있는가" (예: 색깔이 비슷한 것끼리, 모양이 비슷한 것끼리) 를 수학적이고 명확한 기준으로 먼저 찾아내세요.
이름은 나중에 붙여라: 찾아낸 구조 (예: 빨간 덩어리, 둥근 덩어리) 에 대해 각자 필요한 이름 (의미) 을 나중에 붙이세요.
유연하게 변하라: 이름이 바뀌거나, 새로운 분야가 생겨도, 구조를 찾는 기준만 변하지 않는다면 그 데이터는 영원히 쓸모 있고, 재현 가능 (Reproducible) 합니다.

마치며

이 논문은 과학자들에게 **"이름표 (레이블) 에 너무 집착하지 말고, 데이터가 가진 본질적인 '모양'과 '규칙'을 먼저 찾아내자"**고 제안합니다.

이는 마치 **디지털 트윈 (현실 세계의 디지털 복제본)**을 만들 때, 현실의 이름이 어떻게 변하든 상관없이 현실의 구조가 어떻게 변하는지를 정확히 기록하는 것과 같습니다. 이렇게 하면 미래의 과학자들도 과거의 데이터를 쉽게 이해하고, 새로운 발견을 할 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

현재 자연과학 및 생명과학 분야에서 이미지는 주요 측정 수단으로 자리 잡았으나, 분석 패러다임은 여전히 **'의미 우선 (Semantics-first)'**에 머물러 있습니다.

기존 접근법의 한계: 데이터의 구조를 미리 정의된 도메인 온톨로지 (Domain Ontology) 나 레이블 집합 (예: 클래스, 객체 유형, 토지 피복 카테고리) 에 매핑하여 구조를 복원하는 방식이 지배적입니다.
실패 원인: 이 방식은 이미지 기반 과학이 가장 가치가 있는 조건들, 즉 개방형 과학 발견 (open-ended discovery), 센서 및 사이트 간 비교, 장기 모니터링 상황에서 체계적으로 실패합니다.
- 도메인 온톨로지와 레이블 집합은 문화적, 제도적, 생태적 변화에 따라 시간이 지남에 따라 변이 (Drift) 합니다.
- 의미 (Semantics) 는 이미지의 고유한 속성이 아니라 관찰 공동체의 해석 체계에 의존하는 것이므로, 분석의 첫 단계에 이를 강요하면 구조 추출이 특정 온톨로지에 종속되어 재현성과 전이성 (Transferability) 이 떨어집니다.
핵심 문제: 의미 부여가 너무 일찍 이루어지면, 측정에서 구조를 복원하는 과정이 특정 도메인의 온톨로지에 인질로 잡히게 되어, 레이블 집합이 변할 때마다 분석 파이프라인 전체를 다시 작성해야 하는 비효율이 발생합니다.

2. 방법론 (Methodology)

저자는 **'기준 우선, 의미 후 (Criteria-first, semantics-later)'**라는 역발상적인 프레임워크를 제안합니다. 이는 분석을 두 단계로 명확히 분리합니다.

A. 핵심 원리

의미 없는 구조 추출 (Upstream): 원시 측정 데이터 (이미지) 에서 명시적인 최적화 기준 (Explicit optimality criteria) 을 사용하여 의미 (Semantic) 가 없는 구조적 산물 (Structural Product) 을 먼저 추출합니다.
의미 매핑 (Downstream): 추출된 구조적 산물을 도메인 온톨로지나 레이블 집합에 매핑하는 작업을 하류 (Downstream) 로 이관합니다.

B. 수식적 정의 및 프레임워크

측정 필드 ( $X$ ): 이미지나 측정 스트림을 $X: \Omega \to \mathbb{R}^k$ 로 정의합니다.
명시적 기준 ( $C$ ): 온톨로지가 아닌, 구조적 안정성, 스케일 일관성, 경계 증거, 압축성 등을 정의하는 명시적 기준입니다.
구조 추출 연산자 ( $S_C$ ): 기준 $C$ 에 따라 $X$ 에서 구조적 산물 $S$ 를 도출합니다.
$S = S_C(X)$
구조적 산물 ( $S$ ): 분할 (Partitions), 그래프 (Graphs), 계층 (Hierarchies), 구조 필드 (Structural fields) 등 온톨로지와 무관한 형태입니다.
의미 매핑 ( $M_i$ ): 추출된 $S$ $S$ 를 특정 도메인 온톨로지 $O_i$ $O_{i}$ 로 매핑하는 하류 과정입니다.
$M_i: S \to O_i$
- 이 매핑은 목적과 공동체에 따라 여러 개가 공존할 수 있으며 (Pluralism), 변경되더라도 상류의 구조 추출 ( $S$ ) 을 다시 계산할 필요가 없습니다.

C. 이론적 기반

사이버네틱스 및 관찰: 관찰은 수동적인 복사가 아니라 '구별 (Distinction)'을 만드는 과정이며, 의미는 이 구별을 공동체 내에서 소통 가능하게 만드는 해석 체계입니다.
정보 이론: Shannon 의 정보와 의미의 분리를 기반으로, 통신은 제약 하의 불확실성 감소로 볼 수 있으며, 구조 추출은 이러한 명시적 제약 (기준) 하에서 수행되어야 합니다.

3. 주요 기여 (Key Contributions)

재현 가능한 구조 발견 프레임워크 제안: 도메인 온톨로지에 의존하지 않고, 명시적 기준 (안정성, 스케일 일관성 등) 에 기반한 재현 가능한 '구조적 산물'을 분석의 첫 번째 레이어로 확립했습니다.
도메인 간 통합 프레임워크: 지구 관측, 의료 영상, 현미경, 지진학, 천문학, 재료 과학, 로봇 공학 등 다양한 분야에서 공통적으로 나타나는 '구조 추출 - 의미 매핑' 패턴을 통합하여 설명했습니다.
검증 기준의 전환: 단순한 분류 정확도 (Class Accuracy) 중심의 평가를 넘어, **구조적 유효성 (Structural Validity)**을 평가하는 새로운 기준을 제시했습니다.
- 강건성 (Robustness): 노이즈, 조명 변화, 센서 드리프트에 대한 안정성.
- 스케일 일관성 (Scale Coherence): 다양한 해상도에서의 일관성.
- 복잡도 제어 (Complexity Control): 압축 가능성 및 설명 길이.
- 하류 다원성 (Downstream Pluralism): 하나의 구조적 산물에 여러 의미 매핑이 가능해야 함.
FAIR 및 디지털 트윈을 위한 디지털 객체 정의: 구조적 산물 ( $S$ ) 을 버전 관리가 가능한, 기계가 실행 가능한 (Machine-actionable) FAIR 디지털 객체로 취급할 것을 제안했습니다. 이는 장기 모니터링과 디지털 트윈의 상태 변수 (State Variables) 로서 온톨로지 변화에 영향을 받지 않는 안정적인 레이어를 제공합니다.

4. 결과 및 증거 (Results & Evidence)

논문은 다양한 도메인에서 '기준 우선' 접근법이 이미 암묵적으로 또는 부분적으로 사용되고 있음을 보여주며, 이를 체계화할 필요성을 입증합니다.

교차 도메인 증거 (Cross-Domain Evidence):
- 지구 관측: 토지 피복 분류 전에 균질한 영역으로 분할하는 객체 기반 이미지 분석 (OBIA).
- 의료 영상: 병변 경계나 장기 윤곽을 먼저 추출한 후 진단 레이블을 부여하는 방식.
- 현미경/바이오이미징: 세포나 세포소기관을 의미적으로 라벨링하기 전에 형태학적 기준 (막 연속성 등) 으로 분할하는 비지도 학습.
- 지진학: 지층 (Facies) 을 분류하기 전에 지진파의 연속성 (Coherence) 과 불연속면을 추출하는 전통적 워크플로우.
- 천문학: 새로운 현상 발견을 위해 미리 정의된 클래스 없이 데이터 기반 군집화 (Clustering) 를 수행.
- 로봇 공학 (SLAM): 의미론적 라벨 없이 기하학적 일관성 (재투영 오차, 루프 클로저) 으로 지도와 궤적을 구축하는 SLAM.
시뮬레이션 결과 (Fig. 2): 동일한 이미지 데이터에 대비 (Contrast) 변화, 공변량 드리프트 (Covariate shift), 다운샘플링을 가했을 때, '의미 우선' 방식은 레이블 할당이 붕괴되거나 사라지는 반면, '기준 우선' 방식은 추출된 구조적 산물 (경계, 객체 인스턴스) 이 변하지 않고 유지됨을 보여줍니다.

5. 의의 및 시사점 (Significance)

과학적 재현성 및 장기 모니터링: 도메인 온톨로지가 변하더라도 (예: 새로운 질병 분류, 토지 이용 규정 변경), 측정에서 구조를 추출하는 기준이 명확하면 과거 데이터와 현재 데이터를 비교 가능한 상태로 유지할 수 있습니다.
개방형 과학 발견: 미리 정의된 레이블 집합에 갇히지 않고, 측정 스트림의 구조적 편차 (Structural deviations) 를 통해 새로운 현상을 발견할 수 있는 기반을 마련합니다.
AI 및 디지털 트윈의 진화:
- AI 준비 (AI-ready): 구조적 산물은 Foundation Model 이나 자기지도학습 (Self-supervised Learning) 에 대한 명확한 입력/목표가 될 수 있습니다.
- 디지털 트윈: 온톨로지가 진화하는 환경에서도 디지털 트윈의 상태 변수를 안정적으로 유지할 수 있는 '내구성이 있는 (Durable)' 레이어를 제공합니다.
연구 의제 제안:
- 최적화 기준의 공식화, 구조적 벤치마크 구축, 의미 매핑의 명시적 문서화, 구조적 산물의 표준화 (스키마, 버전 관리) 등을 위한 구체적인 연구 방향을 제시합니다.

결론적으로, 이 논문은 이미지 기반 과학이 직면한 온톨로지 드리프트와 재현성 위기를 해결하기 위해, 분석의 첫 단계를 '의미 부여'가 아닌 '명시적 기준에 의한 구조 추출'로 재정의할 것을 강력하게 주장하며, 이를 통해 과학적 비교와 장기 모니터링의 토대를 마련할 수 있음을 보여줍니다.