Commitment Checklist: Auditing Author Commitments in Peer Review

Each language version is independently generated for its own context, not a direct translation.

🍔 "햄버거 주문과 실제 제공"의 비유

想像해 보세요. 당신이 햄버거 가게에 갔습니다.
**심사자 (리뷰어)**는 "이 햄버거는 치즈가 너무 적고, 감자튀김도 없네요. 치즈를 더 넣고 감자튀김도 추가해 주시면 사드리겠습니다."라고 말합니다.

**저자 (연구자)**는 급하게 "네! 치즈를 두 배로 넣고, 감자튀김도 꼭 추가해서 최종 메뉴판에 올리겠습니다!"라고 약속합니다.

이때 가게 주인 (학술 대회 주최자) 은 이 약속을 믿고 "좋습니다, 합격입니다!"라고 말합니다. 하지만 나중에 완성된 햄버거를 받아보면, 치즈는 그대로고 감자튀김은 아예 없습니다.

지금까지의 학술계는 이 햄버거가 실제로 완성되었는지, 약속대로 치즈와 감자튀김이 들어갔는지 확인하는 절차가 거의 없었습니다. "합격만 되면 끝!"인 셈이죠.

이 논문은 바로 **"약속한 햄버거 (연구 결과) 가 실제로 만들어졌는지 확인하는 시스템"**을 제안합니다.

🔍 연구자들이 발견한 놀라운 사실

저자들은 ICLR, EMNLP 같은 주요 학술 대회에서 수천 편의 논문과 저자들의 '약속 목록 (리뷰어 답변)'을 분석했습니다.

약속은 정말 많아요: 논문 한 편당 평균 4~12 개씩의 약속을 합니다. (예: "새로운 실험을 할게요", "코드를 공개할게요", "오타를 고칠게요" 등)
하지만 절반은 안 지켜져요: 놀랍게도 약속한 것 중 약 **25%**는 최종 논문에서 사라졌습니다.
- 특히 치즈와 감자튀김 (새로운 실험, 데이터) 같은 중요한 약속이 가장 많이 빠졌습니다.
- "코드를 못 공개했어요", "이론 증명이 안 됐어요" 같은 중요한 약속들이 그냥 잊혀진 경우가 많았습니다.
왜 안 지켜질까요?
- 단순히 게으름 때문만은 아닙니다. 시간이 너무 부족하거나, 실험 결과가 안 좋게 나와서 약속대로 할 수 없었던 경우도 많습니다.
- 하지만 중요한 건, 안 했다고 해서 아무 말 없이 그냥 넘어갔다는 점입니다.

🤖 AI 가 해결사? (LLM 을 활용한 감사)

수천 편의 논문을 사람이 일일이 확인하는 건 불가능합니다. 그래서 연구자들은 **AI(대형 언어 모델)**를 활용했습니다.

AI 의 역할: "리뷰어에게 '코드를 공개한다'고 약속했나요?"라고 물어보고, 최종 논문을 읽어보며 "아, 여기 코드 링크가 있네요!" 혹은 "아, 여기는 없네요?"라고 자동으로 체크합니다.
성공률: AI 가 사람의 판단과 거의 비슷하게 (약 75~78% 정확도) 약속을 지키는지 확인해 낼 수 있었습니다.
비용: 논문 한 편을 확인하는 데 드는 비용은 **약 3 센트 (한화 40 원 정도)**로, 매우 저렴합니다.

📝 제안: "약속 체크리스트 (Author Commitment Checklist)"

이 논문이 제안하는 핵심 솔루션은 **'약속 체크리스트'**입니다.

이것은 저자를 처벌하기 위한 감시 카메라가 아니라, **잊지 않도록 도와주는 '기억력 보조 도구'**입니다.

어떻게 작동할까요?

자동 생성: 논문이 최종 출판 (카메라레디) 되기 전, AI 가 리뷰어와의 대화에서 나온 모든 약속을 뽑아내어 체크리스트를 만들어줍니다.
저자의 확인: 저자는 이 리스트를 보고 하나씩 확인합니다.
- ✅ 약속 지켰다: "네, 3 페이지 표 1 에 실험 결과가 있습니다."
- ❌ 약속 못 지켰다: "죄송합니다. 실험 결과가 안 좋아서 못 했습니다. 그 이유를 부록에 적었습니다."
- ⚠️ AI 가 잘못 봤다: "AI 가 실수한 것 같습니다. 여기 있습니다."
투명성 확보: 이렇게 하면, "약속은 했지만 안 했다"는 사실을 숨기지 않고 왜 안 했는지를 명확히 기록하게 됩니다.

💡 왜 이것이 중요할까요?

이 시스템은 **"약속을 지키지 못해도 괜찮다"**는 것을 인정하면서도, **"약속을 안 했다고 아무 말도 안 하는 것"**은 막아줍니다.

신뢰 회복: 심사자들이 "내 조언이 진짜 반영되었나?"라고 의심하지 않아도 됩니다.
부정 방지: "코드를 공개할게요"라고 말만 하고 실제로는 안 공개하는 '허위 약속'을 줄여줍니다.
건강한 연구 문화: 연구자들이 점수를 따기 위해 무리하게 약속을 하는 것을 줄이고, 진짜 중요한 부분에만 집중하게 돕습니다.

🚀 결론

이 논문은 학술계의 **'약속 문화'**를 더 투명하고 정직하게 만들자는 제안입니다. 마치 햄버거 가게가 "치즈를 더 넣겠다"고 약속했다면, 실제로 치즈가 들어갔는지, 아니면 안 들어갔는지 그 이유를 메뉴판에 적어주는 것과 같습니다.

**"약속은 지키는 것이 미덕이지만, 지키지 못했을 때는 그 이유를 솔직하게 말하는 것도 미덕"**이라는 메시지를 전달하며, AI 를 이용해 이를 자연스럽게 실현할 수 있음을 증명했습니다.

Commitment Checklist: Auditing Author Commitments in Peer Review

🍔 "햄버거 주문과 실제 제공"의 비유

🔍 연구자들이 발견한 놀라운 사실

🤖 AI 가 해결사? (LLM 을 활용한 감사)

📝 제안: "약속 체크리스트 (Author Commitment Checklist)"

💡 왜 이것이 중요할까요?

🚀 결론

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

3. 주요 결과 및 분석 (Key Results & Analysis)

4. 제안 솔루션: 저자 약속 체크리스트 (Author Commitment Checklist, ACC)

5. 의의 및 기여 (Significance & Contributions)

6. 한계점 (Limitations)

결론

Commitment Checklist: Auditing Author Commitments in Peer Review

🍔 "햄버거 주문과 실제 제공"의 비유

🔍 연구자들이 발견한 놀라운 사실

🤖 AI 가 해결사? (LLM 을 활용한 감사)

📝 제안: "약속 체크리스트 (Author Commitment Checklist)"

💡 왜 이것이 중요할까요?

🚀 결론

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

3. 주요 결과 및 분석 (Key Results & Analysis)

4. 제안 솔루션: 저자 약속 체크리스트 (Author Commitment Checklist, ACC)

5. 의의 및 기여 (Significance & Contributions)

6. 한계점 (Limitations)

결론

유사한 논문

When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models

DuCCAE: A Hybrid Engine for Immersive Conversation via Collaboration, Augmentation, and Evolution

Spelling Correction in Healthcare Query-Answer Systems: Methods, Retrieval Impact, and Empirical Evaluation

Can Structural Cues Save LLMs? Evaluating Language Models in Massive Document Streams

Enhancing Legal LLMs through Metadata-Enriched RAG Pipelines and Direct Preference Optimization