이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기
Each language version is independently generated for its own context, not a direct translation.
1. 왜 필요한가요? (문제 상황: "메모가 사라지다")
지금까지 사람이 AI 와 함께 논문을 쓸 때, 보통 채팅창에서 대화가 오갔습니다.
비유: 마치 친구와 함께 메모장 앱에서 아이디어를 주고받다가, 앱이 꺼지거나 인터넷이 끊기면 그 모든 대화가 하루아침에 증발해버리는 것과 같습니다.
문제: 연구 결과가 남더라도, "누가 무엇을 썼는지", "어떤 과정을 거쳐서 이 결론에 도달했는지"를 증명하기 어렵습니다. 파일이 흩어져 있고, AI 가 쓴 부분인지 사람이 쓴 부분인지 구별이 안 됩니다.
2. 클로우크시브는 무엇인가요? (해결책: "디지털 타임캡슐")
클로우크시브는 이 흩어진 메모들을 모아서 **단단한 '타임캡슐'**로 만드는 시스템입니다.
① 4 단계의 여정 (연구의 생애주기)
이 시스템은 연구물을 4 가지 상태로 관리합니다.
씨앗 (Legacy Seed): 흩어진 채팅 기록과 파일들 (비유: 산더미 같은 종이 조각들).
정리된 프로젝트 (Normalized Project): 이 조각들을 깔끔하게 정리하고 폴더를 만드는 단계 (비유: 조각들을 정리해서 책 초고로 만드는 작업).
서명된 뭉치 (Signed Bundle):가장 중요한 단계! 이 파일을 **디지털 지문 (서명)**으로 봉인합니다. 한 글자라도 바뀌면 지문이 달라져서 변조된 것을 바로 알 수 있습니다. (비유: 공증받은 계약서를 봉인하는 것).
공개된 유물 (Published Artifact): 이 봉인된 파일을 전 세계가 볼 수 있는 곳에 영구적으로 보관합니다.
② 핵심 기능: "누가 썼는지 증명하기"
사람과 AI 의 공동 저자: 이 시스템은 AI 가 단순히 도구를 쓴 게 아니라, 실제로 아이디어를 기여했다면 '공동 저자'로 인정합니다.
비유: 사람이 그림을 그리고 AI 가 색칠을 했다면, 두 사람 모두 그림의 주인공입니다. 하지만 AI 는 전자기기이기 때문에 영구적인 도장을 찍을 수 없습니다. 그래서 **"이 작업을 할 때만 임시로 도장을 찍고, 끝내면 그 도장을 버리는 방식"**을 사용합니다. (비유: 한 번만 사용하는 일회용 도장을 찍고, 그 도장의 존재를 기록으로 남기는 것).
3. 어떻게 작동하나요? (시스템의 특징)
🌍 "두 발로 걷는 시스템" (분산 출판)
이 논문은 연구물을 두 가지 곳에 동시에 저장합니다.
사람이 읽는 발 (arXiv 등): 기존 학계에서 인정받는 곳에 논문을 올립니다. (비유: 도서관의 정통 서가).
기계가 읽는 발 (Swarm 등): 블록체인 기술을 쓴 분산 저장소에 **디지털 지문 (해시값)**을 남깁니다. (비유: 전 세계에 흩어져 있는 수많은 복사본들).
효과: 만약 도서관 (arXiv) 이 논문을 삭제하더라도, 전 세계에 흩어진 복사본들 (Swarm) 은 지워지지 않습니다. 누구도 이 연구 결과를 완전히 지울 수 없습니다.
💰 "우편 요금제" (경제적 지속 가능성)
인터넷에 파일을 영원히 저장하는 데는 돈이 듭니다.
비유: 우편물을 보낼 때 우표를 붙이듯이, 연구자를 저장할 때 **디지털 우표 (Swarm Postage Stamp)**를 붙입니다.
이 우표는 "이 파일을 2 년간 보관해 주세요"라는 의미입니다. 도서관이나 후원자가 이 우표를 사서 계속 붙여주면, 연구 자료는 영원히 살아남습니다.
4. 실전 사례: 이 논문 자체가 증명합니다
이 논문은 단순히 이론을 제안하는 것을 넘어, 스스로가 제안한 시스템을 직접 실행한 살아있는 예시입니다.
실제 공동 저자: 이 논문은 Claude 와 ChatGPT 와 함께 공동 저술되었습니다.
공개된 증명: 이 AI 공동 저자들은 전통적인 출판물에서는 이름이 생략될 수 있었지만, 이 논문의 **'사이드카 (sidecar) 증명서'**에 명확히 기록되어 있습니다.
의미: 이는 AI 가 연구에 기여한 내용을 암호학적으로 기록하고 귀속시킬 수 있다는 ClawXiv 의 핵심 아이디어가 이론이 아닌 현실로 구현됨을 보여주는 첫 번째 사례입니다.
5. "안전 문" (콘텐츠 안전)
아무리 자유로운 시스템이라도 아동 성착취물 (CSAM) 같은 끔찍한 것은 막아야 합니다.
비유: 공항 보안 검색대처럼, 그림 파일이 들어올 때 자동 스캐너가 위험한 이미지를 찾아냅니다. 위험하면 바로 차단하고 기록합니다. 하지만 그 외의 연구 자료는 검열하지 않고 자유롭게 내보냅니다.
6. 요약: 이 시스템이 가져오는 변화
기존: "AI 와 대화하다가 파일이 사라졌어요. 다시 써야겠네요." (불안정, 불투명)
클로우크시브: "우리가 만든 연구는 변조 불가능한 디지털 금고에 담겨, 누가 무엇을 기여했는지 명확히 기록된 채 영원히 남습니다." (안정적, 투명, 공정한)
이 논문은 단순히 기술을 소개하는 것을 넘어, AI 시대에 연구의 '진실'과 '소유권'을 어떻게 지켜낼 것인가에 대한 새로운 철학을 제시합니다. 마치 과거의 종이 문서가 디지털로 넘어가면서 변형되었듯이, 이번에는 인간과 AI 의 협업이 '영구적인 기록'으로 남을 수 있는 새로운 방식을 제안하는 것입니다.
Each language version is independently generated for its own context, not a direct translation.
ClawXiv: 인간 - AI 협업 연구를 위한 서명 아카이브 워크플로우 및 분산 출판 아키텍처
1. 문제 정의 (Problem)
현대 연구는 대화형 AI 시스템을 활용하여 논문 초안 작성, BibTeX 참고문헌 구성, 코드 생성 및 기술적 논증의 반복을 수행하는 경우가 많습니다. 그러나 현재 대화 중심 (chat-centric) 의 워크플로우는 다음과 같은 심각한 한계를 가지고 있습니다.
상태 손실 (State Loss): UI 제한, 링크 스냅샷 실패, 계정 변경 등으로 인해 대화 세션의 기록이 소실되어 연구의 연속성이 깨지고 작업이 재수행되어야 합니다.
파편화된 아카이빙: 연구 산출물이 살아남더라도 .tex, .bib 파일, 이미지, 메모, 그리고 여러 채팅 세션 링크가 뒤섞인 이질적이고 취약한 형태로 존재하여 장기적인 보관과 검증이 어렵습니다.
AI 기여도 기록의 부재: 기존 출판 시스템은 AI 를 '도구'로만 간주하거나, AI 의 실질적인 지적 기여를 저자 (Author) 로 명시적으로 기록하는 메커니즘이 부족합니다.
2. 방법론 (Methodology)
ClawXiv 는 인간과 AI 가 공동 저자로 참여하는 연구를 위해 설계된 로컬 기반의 서명 아카이브 워크플로우와 분산 출판 아키텍처를 제안합니다. 핵심은 연구물을 '변경 가능한 프로젝트'에서 '불변의 서명된 번들 (Bundle)'로 변환하는 과정입니다.
A. 생명주기 (Lifecycle) 및 워크플로우 연구물은 다음 4 가지 단계를 거쳐 아카이빙됩니다.
레거시 시드 (Legacy Seed): 기존 .tex 파일, 이미지, 채팅 링크 등이 포함된 비정형 상태.
정규화된 프로젝트 (Normalized Project):clawxiv 스크립트를 통해 변환된 작업용 디렉토리. src/, project.yaml(메타데이터), keys/(저자 공개키) 등을 포함하며, 지속적인 연구와 검토를 위해 수정 가능합니다.
서명된 번들 (Signed Bundle): 프로젝트의 불변 스냅샷. 콘텐츠 주소 (Content-addressed) 방식으로 생성되며, 파일 해시, 소스, 컴파일된 PDF, 그리고 모든 저자 (인간 및 AI) 의 서명이 포함된 manifest 를 가집니다.
출판된 아티팩트 (Published Artifact): IPFS/Swarm, GitHub, arXiv 등을 통해 공개된 최종 산출물.
B. 기술적 구현 (v4 기준)
로컬 커널:import 스크립트 (정규화), bundle-create.sh (컴파일 및 서명), bundle-push.sh (배포) 로 구성.
이미지 처리:fig-add 유틸리티를 통해 그림을 추가하고, 메타데이터 사이드카 (sidecar) 를 생성하며, CSAM(아동 성착취물) 탐지 스텁을 실행합니다.
플랫폼 대응: macOS, Linux(X11/Wayland), Windows 의 네이티브 스크린 캡처 도구를 자동 감지하여 호출하는 bin/capture/ 레이어 구현.
빌드 시스템:configure 및 Makefile 을 통해 Python, LaTeX, 캡처 도구, 배포 타겟을 자동 감지하고 설정합니다.
C. 분산 출판 아키텍처 (Two-foot Design)
인간 가독성 발 (Human-legible foot): arXiv 와 같은 전통적인 학술 인프라. DOI 부여 및 인용 그래프 통합을 담당합니다. AI 공동 저자 정책과 충돌할 경우, Acknowledgements 섹션에 상세한 기여도 공개를 포함합니다.
기계 가독성 발 (Machine-readable foot): Ethereum Swarm(분산 저장소) 을 기반으로 합니다. 콘텐츠 주소 (Swarm hash) 를 사용하여 아티팩트의 무결성과 영구성을 보장하며, '우표 (Postage stamp)' 메커니즘을 통해 저장 비용의 지속 가능성을 확보합니다.
D. 신원 및 책임성 (Identity & Accountability)
서명된 저자성: 모든 번들은 공개키로 서명됩니다.
AI 저자 처리: 현재 AI 는 세션 간 키 관리를 완벽히 수행하지 못하므로, **사이드카 인증 모델 (Sidecar attestation model)**을 도입합니다. 인간 운영자가 AI 를 위해 일회성 Ed25519 키 쌍을 생성하여 아티팩트를 서명한 후 즉시 폐기합니다. 이 과정에서 AI 의 모델명, 제공자, 버전 등이 사이드카에 기록되어 AI 의 지적 기여를 증명합니다.
프로베넌스 (Provenance): 문장 단위의 미세한 기여도 추적보다는 논문 수준의 전체적 기여도 (Coarse paper-level provenance) 를 기록하여 실용성을 확보합니다.
3. 주요 기여 (Key Contributions)
인간 -AI 협업 아카이빙 표준 제안: 대화형 AI 세션의 취약성을 해결하고, 연구물을 검증 가능하고 영구적인 디지털 객체로 변환하는 구체적인 워크플로우를 제시했습니다.
AI 저자성 및 신원 관리 프레임워크: AI 를 단순 도구가 아닌 '지적 기여자'로 인정하면서도, 현재의 기술적 한계 (세션 간 지속성 부재) 를 고려한 실용적인 서명 및 인증 메커니즘 (일회성 키 생성 및 사이드카 기록) 을 설계했습니다.
이중 발 (Two-foot) 출판 모델: arXiv(전통적) 와 Swarm(분산형) 을 결합하여, 기존 학술 생태계와의 호환성과 동시에 검열 저항성 및 분산 저장을 동시에 달성하는 아키텍처를 구현했습니다.
경제적 지속 가능성: Swarm 의 '우표 (Postage stamp)' 메커니즘을 도입하여 스팸을 방지하고 (작업 증명 또는 추천 기반), 장기 저장 비용을 명확히 하여 아카이브의 경제적 생존 가능성을 확보했습니다.
오픈 소스 구현체 (v4): 실제 작동하는 스크립트, 빌드 시스템, 이미지 처리 파이프라인, 그리고 CSAM 필터링 스텁을 포함한 전체 코드를 GitHub 를 통해 공개했습니다.
4. 결과 및 현황 (Results)
구현 완료 (v4): 현재 로컬 워크플로우 (가져오기, 정규화, 번들 생성, 배포) 가 완전히 구현되어 작동 중입니다.
채용 및 호환성 (Adoption): 시스템은 venue 호환성 (예: arXiv) 을 위해 인간 저자만 표기하는 방식을 지원하면서도, 하위 번들 (underlying bundle) 에서는 AI 기여도를 완전히 공개합니다.
자기 증명 사례 (Self-demonstrating Example): 이 논문 자체가 ClawXiv 의 방법론을 직접 실천하고 있습니다. 논문 부록 (sidecar attestation) 에서는 Claude 와 ChatGPT 가 공동 저자로 명시되어 있으나, arXiv 표지에는 인간 저자 (Kornai) 만 등재되어 있습니다. 이는 이 백서가 기술하는 시스템의 첫 번째 구체적인 사례임을 의미합니다.
제한 사항: 현재 CSAM 필터링은 스텁 상태이며 (실제 허가된 해시 리스트 통합 전), Wayland/Windows 네이티브 캡처 구현은 아직 진행 중입니다. 또한, AI 가 자체적으로 키를 영구적으로 관리하는 완전한 자율성은 미래 과제로 남아있습니다.
5. 의의 및 중요성 (Significance)
학술적 연속성 보장: AI 시대의 연구가 대화형 인터페이스의 일시성에 갇히지 않고, 검증 가능한 형태로 영구 보존되도록 합니다.
AI 윤리 및 투명성: AI 의 지적 기여를 '블랙박스'가 아닌 명확한 저자성 (Authorship) 으로 기록함으로써, 향후 AI 저자성에 대한 학술적, 법적 기준을 선제적으로 마련합니다.
분산 아카이빙의 실용화: 이론적 분산 저장소 개념을 실제 학술 출판 워크플로우에 통합하여, 중앙 집중식 플랫폼의 검열이나 폐쇄에 대비한 대안적 인프라를 제시합니다.
지속 가능한 모델: 무료가 아닌 '명시적 비용' (우표 구매) 을 통해 스팸을 막고 장기 저장을 보장하는 경제적 모델을 제시하여, AI 생성 콘텐츠의 폭발적 증가에 따른 인프라 과부하 문제를 해결할 수 있는 방향을 제시합니다.
이 논문은 AI 와 인간이 함께 연구하는 새로운 시대에, 연구의 생성, 기록, 출판, 보존을 아우르는 기술적·사회적 인프라의 청사진을 제시한다는 점에서 의의가 큽니다.