SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'SeDa(세다)'**라는 새로운 시스템을 소개합니다. 이 시스템을 이해하기 쉽게 비유와 일상적인 언어로 설명해 드릴게요.

🌍 SeDa 란 무엇인가요?

"데이터의 거대한 도서관을 하나로 묶어주는 '지능형 사서'이자 '나침반'입니다."

지금까지 인터넷에는 정부, 대학, 기업 등 수많은 곳에 데이터 (정보의 보물) 가 흩어져 있었습니다. 문제는 각 보물창고의 지도 (메타데이터) 가 서로 달랐고, 보물찾기 방법도 제각각이었다는 점입니다. SeDa 는 이 모든 흩어진 보물들을 하나로 모아, 누구나 쉽게 찾고 이해할 수 있게 만들어줍니다.

🛠️ SeDa 가 해결하는 3 가지 핵심 문제 (비유로 설명)

1. 언어 장벽을 허무는 '통역사' (스키마 추론)

상황: A 창고는 "이것은 사과입니다"라고 적고, B 창고는 "과일 - 사과"라고 적고, C 창고는 "빨간 과일"이라고 적어 놓았습니다. 검색하면 하나도 안 나옵니다.
SeDa 의 해결: SeDa 는 거대한 AI(대규모 언어 모델) 를 고용해서, 이 모든 서로 다른 표현을 **"사과"**라는 통일된 언어로 번역합니다. 200 개 이상의 플랫폼에서 온 760 만 개의 데이터를 모두 같은 기준으로 정리해 놓았죠.

2. 보물 지도를 만드는 '스마트 태그' (자동 태깅)

상황: 보물상자를 열었을 때, 안에 뭐가 들어있는지 알 수 없다면 어떻게 찾겠습니까?
SeDa 의 해결: SeDa 는 각 데이터 상자를 자동으로 분석해서 "자율주행", "의료 영상", "날씨 예측" 같은 알기 쉬운 라벨 (태그) 을 붙여줍니다. 마치 도서관 책장에 "소설", "역사", "과학"이라는 분류표를 붙여놓은 것과 같습니다.
- 재미있는 점: 기존에 없던 새로운 주제가 나오면 AI 가 스스로 새로운 태그를 만들어서 지도를 계속 업데이트합니다.

3. 길을 잃지 않게 해주는 '나침반' (다중 엔티티 탐색)

상황: "자율주행 데이터"를 찾았는데, 딱 하나만 나옵니다. 하지만 "아, 이 데이터를 만든 곳은 A 대학이고, A 대학은 B 기업과 협력했구나"라는 연결고리를 알면 더 많은 보물을 찾을 수 있죠.
SeDa 의 해결: SeDa 는 단순히 데이터만 보여주는 게 아니라, 데이터를 제공한 사이트, 연구소, 기업까지 연결해 줍니다.
- "이 데이터를 만든 기관은 누구야?" → 기관 정보를 보여줌.
- "이 기관이 만든 다른 데이터는 뭐가 있지?" → 관련 데이터를 찾아줌.
- 마치 여행할 때 "이 호텔은 어디에 있나?"만 보는 게 아니라, "이 호텔이 있는 동네, 근처 맛집, 교통편"까지 모두 알려주는 여행 가이드 같은 역할을 합니다.

🚫 기존 검색 엔진과 무엇이 다를까요?

구글 데이터셋 검색 (Google Dataset Search): 책 제목만 보고 찾아줍니다. 책 내용 (태그나 출처) 이 부족하면 찾기 어렵습니다.
ChatPD: 논문에서 언급된 데이터만 찾습니다. 논문이 아닌 곳에 있는 데이터는 모릅니다.
SeDa:
1. 더 빠릅니다: 데이터가 처음 생기는 순간 (논문 발표 전, 웹사이트에 올라오는 순간) 바로 찾아냅니다.
2. 더 정확합니다: 링크가 끊긴 (사라진) 데이터는 자동으로 찾아내서 검색 결과에서 제외시킵니다. (마비된 도로를 안내하지 않는 것과 같습니다.)
3. 더 넓습니다: 200 개 이상의 플랫폼을 모두 훑어 760 만 개 이상의 데이터를 보유하고 있습니다.

💡 요약: SeDa 가 우리 삶에 어떤 변화를 줄까요?

SeDa 는 **"데이터를 찾는 것"**을 **"데이터의 세계를 탐험하는 것"**으로 바꿔줍니다.

연구자는 더 이상 각자 다른 사이트에서 헤매지 않고, 한곳에서 필요한 모든 데이터를 찾을 수 있습니다.
기업은 새로운 데이터 트렌드를 가장 먼저 파악할 수 있습니다.
일반인도 복잡한 전문 용어 없이, "자율주행"이나 "기후 변화" 같은 쉬운 단어로 원하는 정보를 찾을 수 있습니다.

결국 SeDa 는 흩어져 있던 데이터 보물들을 하나로 모아, **누구나 쉽게 접근하고 신뢰할 수 있게 만드는 '데이터의 구글'이자 '데이터의 지도'**라고 할 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 인공지능과 데이터 과학의 발전으로 인해 정부, 학술, 산업 등 다양한 분야에서 오픈 데이터 플랫폼과 연구 리포지토리가 급격히 증가하고 있습니다.
주요 문제:
1. 파편화된 생태계: 수백 개의 플랫폼에 분산된 데이터는 형식, 메타데이터 스키마, 조직 단위가 이질적 (Heterogeneous) 이어서 통합된 발견과 해석이 어렵습니다.
2. 기존 검색 도구의 한계:
  - Google Dataset Search (GDS): 광범위한 데이터를 인덱싱하지만, 제목이나 짧은 설명에 의존하여 복잡한 의미 검색이 어렵고, 태그 체계나 출처 추적 (Provenance) 기능이 부족합니다.
  - Papers with Code / ChatPD: 학술 논문 기반의 데이터 연결은 강력하지만, 논문이 없는 데이터나 광범위한 산업/정부 데이터의 커버리지가 제한적입니다. 또한, 실제 데이터 접근 경로 (URL) 가 누락되는 경우가 많습니다.
3. 사용자 요구의 변화: 단순한 키워드 검색을 넘어, 특정 주제에 대한 체계적인 탐색, 출처에 따른 신뢰성 확인, 그리고 관련 기관/기업과의 맥락적 탐색이 필요해졌습니다.

2. 제안 시스템: SeDa (Methodology)

SeDa(SelectDataset) 는 대규모 데이터셋 발견과 탐색을 위한 통합 프레임워크로, 스키마 추론 (Schema Inference), 자동 태깅 및 출처 보증 (Provenance), 다중 엔티티 증강 탐색 (Multi-entity Augmented Navigation) 을 핵심 모듈로 구성합니다.

2.1. 다중 소스 데이터 통합 및 스키마 추론 (Multi-source Data Integration)

데이터 수집: 200 개 이상의 플랫폼 (HuggingFace, Kaggle, DataCite, 정부 오픈 데이터포털 등) 과 학술 논문 (arXiv), 웹 크롤링 (Common Crawl) 에서 데이터를 수집합니다.
LLM 기반 메타데이터 추출: 이질적인 소스 (README, 논문 초록, 웹 페이지 등) 에서 구조화되지 않은 텍스트를 분석하여 LLM 을 활용하여 표준화된 메타데이터 (이름, 설명, URL, 소스 등) 를 추출합니다.
중복 제거 (Deduplication):
1. 명시적 식별자 (정규화된 이름/URL) 매칭.
2. 해시 기반 블로킹 (SimHash, LSH) 을 통한 후보군 축소.
3. 의미적 유사도 (Semantic Similarity) 매칭을 통해 플랫폼 간 미세한 차이를 가진 중복 레코드를 식별하고 통합합니다.

2.2. 주제 태깅 및 출처 보증 (Topic Tagging & Provenance)

그래프 기반 LLM 태깅 (LLM4Tag 기반):
- 후보 태그 풀 구축: 고품질 데이터셋의 기존 태그와 LLM 생성 태그를 결합하여 초기 태그 풀을 만듭니다.
- 그래프 구성: 데이터셋 - 태그 (D2T), 데이터셋 - 데이터셋 - 태그 (D2D2T), 태그 - 태그 (T2T) 관계를 포함하는 확장 가능한 태그 그래프를 구축합니다.
- 태그 선정: LLM 을 사용하여 각 데이터셋에 가장 적합한 2 개의 대표 주제 태그를 선택하고, 필요시 새로운 태그를 어휘집에 추가하여 진화시킵니다.
사망 링크 탐지 (Dead-link Detection):
- 데이터의 신뢰성을 위해 사이트 레벨의 주기적인 링크 생존율 (Link Alive Rate) 을 모니터링합니다.
- 사이트의 규모, 역사적 안정성, 최근 업데이트 빈도를 기반으로 가중치를 부여하여 샘플링 예산을 할당하고, 링크가 끊긴 사이트의 데이터는 검색 결과에서 제외합니다.

2.3. 다중 엔티티 증강 탐색 (Multi-entity Augmented Navigation)

탐색 전략: 단순 검색 결과를 넘어 사이트 (Site), 기관 (Institution), 기업 (Enterprise) 의 3 가지 엔티티 유형을 기반으로 탐색 공간을 확장합니다.
작동 방식:
1. 초기 검색 결과 ( $R(q)$ ) 를 기반으로 공통 소스나 겹치는 태그를 가진 관련 데이터셋을 찾습니다.
2. 해당 데이터셋의 출처를 기반으로 지식 베이스에서 관련 기관/기업 정보를 추출합니다.
3. LLM 을 사용하여 데이터셋, 관련 엔티티, 출처 정보를 통합하여 구조화된 요약 및 시각화 인터페이스를 제공합니다.

3. 주요 기여 (Key Contributions)

크로스 플랫폼 표준 통합: LLM 을 활용한 스키마 추론 파이프라인을 설계하여 200 개 이상의 플랫폼에서 768 만 개 이상의 데이터셋을 통합하고, 이질적인 메타데이터를 표준화했습니다.
다중 엔티티 증강 검색: 사이트, 기관, 기업이라는 3 가지 엔티티 유형을 통합하여 사용자가 데이터의 맥락과 출처를 파악할 수 있는 구조화된 탐색 환경을 제공합니다.
자동 태깅 및 출처 신뢰성 확보: 그래프 기반 LLM 태깅 시스템을 통해 정교한 주제 분류를 자동화하고, 지속적인 링크 모니터링을 통해 데이터의 가용성과 추적 가능성을 보장합니다.

4. 실험 결과 (Results)

통합 규모: 768 만 개 이상의 데이터셋을 통합했으며, DataCite, data.europa, HuggingFace 등 주요 소스로부터 광범위한 데이터를 수집했습니다.
성능 평가 (Ablation Study):
- 주제 관련성 (Topic Relevance): 주제 인식 필터링을 적용했을 때, 직접 검색 대비 하위 주제 관련성이 크게 향상되었습니다 (평균 점수 2.60 vs 1.67).
- 링크 가용성 (Availability): 사망 링크 탐지 모듈을 활성화한 결과, 검색 결과의 링크 생존율이 99.84% 로 유지되었습니다 (비활성화 시 94.68%).
- 탐색 확장성 (Exploration): 다중 엔티티 탐색을 통해 초기 검색 결과 대비 약 10.9% 더 많은 관련 데이터셋을 발견할 수 있었습니다.
타 플랫폼 비교 (ChatPD, GDS):
- 신규 데이터 발견: 2025 년 3 월~8 월 사이에 발견된 3,047 개의 신규 데이터셋 중 ChatPD 는 622 개, GDS 는 1,639 개만 인덱싱한 반면, SeDa 는 모든 데이터를 즉시 발견했습니다.
- 선도적 발견: ChatPD 와 GDS 가 놓친 SDSS-V DR19(천문학), LOONGBENCH(LLM 벤치마크) 등 중요한 최신 데이터셋들을 최초로 발견했습니다.

5. 의의 및 결론 (Significance)

신뢰할 수 있는 데이터 탐색의 기반: SeDa 는 단순한 검색 엔진을 넘어, 데이터의 출처, 신뢰성, 맥락적 관계를 보장하는 신뢰할 수 있는 (Trustworthy) 데이터 탐색 인프라를 제시합니다.
지식 공간의 확장: 데이터를 단순한 파일이 아닌, 기관, 기업, 플랫폼과 연결된 지식 공간으로 재정의하여 연구자와 실무자가 데이터 생태계를 더 깊이 이해하고 탐색할 수 있게 합니다.
실용성: 현재 selectdataset.com 에서 서비스를 제공 중이며, 학술, 산업, 교육 전반에 걸쳐 구조화되고 최신의 데이터셋 발견을 위한 핵심 진입점으로 자리 잡을 것으로 기대됩니다.

이 논문은 대규모 데이터 생태계의 파편화 문제를 해결하기 위해 LLM 과 지식 그래프 기술을 융합하여, 데이터의 발견 (Discovery), 해석 (Interpretation), 탐색 (Navigation) 을 통합한 새로운 패러다임을 제시했다는 점에서 의의가 큽니다.