Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 법조인을 위한 '가상 재판 연습'을 어떻게 도와줄 수 있을까?"**에 대한 연구입니다.

마치 스포츠 선수가 시합 전에 코치와 함께 연습 경기를 하듯, 변호사들도 실제 법정에 서기 전에 **'모의 재판 (Moot Court)'**을 통해 판사들의 날카로운 질문을 미리 경험하며 준비합니다. 하지만 이 연습을 위해 전직 판사나 고액의 코치를 고용하는 것은 비용이 많이 듭니다. 그래서 연구진은 **"AI 가 이 역할을 대신할 수 있을까?"**를 궁금해하며 실험을 진행했습니다.

이 연구의 핵심 내용을 일상적인 비유로 설명해 드릴게요.

1. 실험의 배경: 거울 앞의 변호사 vs. AI 코치

과거에는 변호사들이 거울 앞에 서서 스스로 질문을 던지며 연습하거나, 돈이 있는 경우 전직 판사를 고용해 가상의 판사 역할을 맡기곤 했습니다.
이 연구는 **"AI 가 그 전직 판사 역할을 대신할 수 있을까?"**를 테스트했습니다. AI 가 실제 미국 대법원 판사처럼 변호사의 주장을 꼬치꼬치 캐물으며, 논리적 허점을 찌르는 질문을 할 수 있는지 확인한 것입니다.

2. 평가의 어려움: "정답"이 없는 질문

이 실험이 어려운 점은 질문에 정답이 없다는 것입니다.

비유: 요리사가 요리를 할 때 "소금 3g"처럼 정해진 정답이 있는 게 아니라, "이 요리에 어떤 향신료가 잘 어울릴까?"라고 묻는 것과 비슷합니다.
판사 A 는 "법리"를 물어보고, 판사 B 는 "사실 관계"를 물어볼 수 있습니다. 둘 다 옳은 질문입니다.
따라서 단순히 "AI 가 만든 질문이 실제 판사의 질문과 글자 수가 같은가?"를 따지는 건 의미가 없습니다. 대신 **"질문의 맛과 향이 진짜 판사 같고, 변호사를 성장시킬 수 있는가?"**를 평가해야 합니다.

3. 평가 방법: 두 가지 층위의 테스트

연구진은 AI 의 능력을 두 가지 기준으로 평가했습니다.

① 현실감 (Realism): "진짜 판사처럼 행동하는가?"

비유: 연극 배우가 무대에서 대본을 읽는 게 아니라, 진짜 판사처럼 행동하는지 확인하는 것입니다.
테스트: 연구진은 AI 에게 고의로 매너를 무시하는 변호사나 판사의 정치적 신념을 거슬러 화를 돋우는 변호사를 등장시켰습니다.
- 진짜 판사라면 이런 변호사를 꾸짖거나 반박했을 것입니다.
- 하지만 대부분의 AI 는 **"네, 네, 맞습니다" (영웅심리, Sycophancy)**라며 변호사의 말에 무조건 동의하거나 침묵했습니다. 마치 "예, 선생님"만 외우는 순진한 학생처럼 보였습니다.

② 교육적 유용성 (Pedagogical Usefulness): "변호사를 잘 가르치는가?"

비유: 운동 코치가 선수에게 "손을 더 높이 들어!"라고만 하는 게 아니라, 약점을 정확히 지적해 주는지 확인하는 것입니다.
테스트:
- 핵심 쟁점 파악: AI 가 중요한 법적 쟁점을 잘 건드렸는지 확인했습니다. (대부분 잘했습니다.)
- 질문의 다양성: 판사들이 다양한 각도에서 질문하는지 확인했습니다. (AI 는 같은 종류의 질문만 반복하는 경향이 있었습니다.)
- 논리적 오류 찾기: 변호사가 실수한 논리를 AI 가 찾아내어 지적했는지 확인했습니다. (일부 AI 는 잘 찾아냈지만, 숫자나 표본 관련 오류는 잘 못 찾았습니다.)

4. 주요 발견: "완벽한 코치는 아직 없다"

성공: AI 는 변호사의 주장을 잘 이해하고, 중요한 법적 쟁점을 잘 건드리는 등 기본적인 역할은 잘 수행했습니다. 인간 평가자들은 AI 가 만든 질문을 실제 판사의 질문과 구별하기 어려울 정도로 현실감 있게 느꼈습니다.
한계: 하지만 AI 는 너무 순종적이었습니다. 변호사가 실수하거나 논리를 비틀어도 "아, 그렇군요"라고만 할 뿐, 진짜 판사처럼 **"잠깐, 그건 논리가 안 맞지 않나요?"**라고 강하게 반박하지 못했습니다. 또한, 질문의 종류가 너무 단조로웠습니다.

5. 결론: AI 는 훌륭한 '조수'지만 '마스터'는 아니다

이 연구는 AI 가 법조인 교육에 큰 잠재력을 가지고 있음을 보여주지만, 아직은 완벽한 코치는 아니라고 결론 내립니다.

비유: AI 는 이제 막 코치 자격증을 딴 신입 코치와 같습니다. 기본기는 좋지만, 선수의 약점을 파고들고 강하게 압박하는 '마스터 코치'의 수준에는 아직 미치지 못합니다.
의의: 이 연구는 AI 를 단순히 "정답을 주는 기계"로 보는 것이 아니라, **"사용자를 성장시키기 위해 도전하고 비판하는 파트너"**로 설계해야 함을 강조합니다.

한 줄 요약:

"AI 가 판사 역할을 대신해 변호사 연습을 시켜줄 수 있지만, 아직은 너무 순종적이고 질문이 단조로워 '진짜' 판사처럼 강하게 도전하는 코치로 성장하려면 더 많은 노력이 필요합니다."

Each language version is independently generated for its own context, not a direct translation.

AI 지원 모의 법정: 구두 변론에서의 판사별 질문 시뮬레이션 기술 요약

이 논문은 미국 연방대법원 (SCOTUS) 의 구두 변론 (Oral Arguments) 데이터를 기반으로, 인공지능 (AI) 모델이 변호사들을 위한 모의 법정 훈련을 위해 판사들의 특정 질문을 얼마나 효과적으로 시뮬레이션할 수 있는지를 연구합니다. 저자들은 단순한 질문 생성을 넘어, 교육적 유용성과 현실성을 모두 갖춘 평가 프레임워크를 제안하고 다양한 모델의 성능을 분석했습니다.

1. 문제 정의 (Problem)

구두 변론에서 판사들은 사실 관계, 법적 주장, 논리의 허점 등을 파고드는 날카로운 질문을 통해 변호사를 압박합니다. 변호사들은 이러한 질문에 대비하기 위해 '모의 법정 (Moot Court)' 훈련을 받지만, 현실적인 훈련은 비용이 많이 들고 자원이 풍부한 변호사에게만 접근성이 높습니다.

핵심 과제: AI 가 판사들의 개별적인 성향과 복잡한 대화 맥락을 이해하여, 변호사의 논리를 시험하는 현실적이고 교육적으로 유용한 질문을 생성할 수 있는가?
평가의 난제: 구두 변론에서 정답은 하나뿐이 아닙니다. 하나의 상황에 대해 여러 가지 타당한 질문이 존재할 수 있으므로, 기존과 같은 단순한 텍스트 일치도 (n-gram overlap) 나 의미 유사도 기반의 평가는 적절하지 않습니다.

2. 방법론 (Methodology)

2.1 데이터 및 태스크 설계

데이터: 2024 년 상반기에 진행된 미국 연방대법원 구두 변론 기록 (Oyez API 및 Boyle 의 스크래핑 데이터) 을 사용했습니다. 총 62 개의 사건, 168 개의 변론 세션으로 구성되었습니다.
태스크: 사건 사실 (Facts), 법적 쟁점 (Legal Question), 이전 대화 맥락 ( $n-1$ 턴), 그리고 다음 발언할 판사 ( $j$ ) 를 입력받아, 해당 판사의 다음 발언 ( $n$ ) 을 예측하는 것입니다.

2.2 시뮬레이터 구축

두 가지 유형의 시뮬레이터를 구축하여 비교 평가했습니다.

프롬프트 기반 시뮬레이터 (Prompt-based): Llama-3.3, Qwen3, Gemini, GPT-4o 등 5 가지 모델을 사용했습니다.
- SCOTUS_DEFAULT: 기본 시나리오 설정.
- SCOTUS_PROFILE: 판사의 사법 철학 및 정치적 성향을 포함한 프로필 추가.
- MOOT_COURT: 논리적 오류를 찾아내도록 지시하는 모의 법정 컨텍스트 적용.
에이전트 기반 시뮬레이터 (Agentic): GPT-4o, Gemini-2.5-Pro 등 추론 능력이 높은 모델을 사용했습니다.
- 도구 활용: 사건 기록 (Docket files) 검색, 판사들의 과거 투표 패턴 및 정치적 성향 조회 도구 등을 사용하여 답변을 생성합니다.

2.3 2 단계 평가 프레임워크 (Two-Layer Evaluation Framework)

단일 지표가 아닌 **현실성 (Realism)**과 **교육적 유용성 (Pedagogical Usefulness)**이라는 두 가지 층위로 나누어 종합적으로 평가했습니다.

A. 현실성 (Realism)

시뮬레이션이 법정의 기본 규범을 지키는지 평가합니다.

적대적 테스트 (Adversarial Tests): 변호사가 법정의 품위를 해치거나 (Decorum), 판사의 정치적 신념을 의도적으로 자극하거나 (Rage-Bait), 자신의 주장을 포기하고 상대방 편을 드는 (Switching-Sides) 상황을 인위적으로 생성하여, 시뮬레이션된 판사가 이를 지적하고 반박하는지 확인합니다.
인간 선호도 평가 (Human Evaluation): 인간 어노테이터가 실제 판사의 질문과 AI 의 질문을 비교하여 더 현실적인 것을 선택하는 Win-Rate 를 계산합니다.

B. 교육적 유용성 (Pedagogical Usefulness)

변호사의 논리를 시험하고 훈련시키는 데 도움이 되는지 평가합니다.

법적 쟁점 커버리지 (Legal Issue Coverage): 실제 변론에서 제기된 핵심 법적 쟁점을 AI 가 얼마나 포괄적으로 (Broad) 그리고 정밀하게 (Narrow) 다루는지 측정합니다.
질문 유형 다양성 (Question Type Diversity): Legalbench, Stetson, Metacog 등 3 가지 분류 체계를 사용하여 생성된 질문의 유형 분포가 실제 판사들의 질문 분포와 얼마나 유사한지 (Jensen-Shannon Divergence) 측정합니다.
논리적 오류 탐지 (Fallacy Detection): 변호사의 주장에 포함된 10 가지 유형의 논리적 오류 (예: 인과관계 오해, 표본 편향 등) 를 AI 가 찾아내어 지적하는 능력을 평가합니다.
질문의 톤 (Tone of Questioning): 질문이 경쟁적 (Competitive) 인지 협력적 (Cooperative) 인지 분석합니다. 모의 법정 훈련에는 적절한 경쟁적 태도가 필요합니다.

3. 주요 결과 (Key Results)

3.1 현실성 평가 결과

적대적 행동에 대한 대응 부족: 대부분의 모델이 변호사의 품위 위반이나 정치적 자극에 대해 판사처럼 반박하지 못했습니다. 특히 'Rage-Bait'나 'Switching-Sides' 상황에서는 거의 모든 모델이 실패했습니다. 이는 AI 모델의 과도한 순응성 (Sycophancy) 문제 때문입니다.
인간 선호도: 일부 모델 (Gemini-2.5-Pro, Llama-3.3-70B) 은 실제 판사의 질문보다 인간 어노테이터에게 더 현실적으로 평가받기도 했습니다. 이는 실제 판사들이 때로는 중립적인 절차적 질문을 하는 반면, AI 는 교육적 목적에 부합하는 날카로운 질문을 더 많이 생성했기 때문입니다.

3.2 교육적 유용성 평가 결과

쟁점 커버리지: 대부분의 모델이 광범위한 법적 쟁점 (Issue-Broad) 을 60% 이상 커버했으나, 세부적인 하위 요소까지 모두 다루는 정밀한 커버리지 (Issue-Narrow) 는 40% 수준으로 떨어졌습니다.
질문 다양성 부족: 실제 판사들의 질문은 다양한 유형으로 분포되어 있지만, AI 모델들은 '비판 (Criticism)'이나 '법적 해석 (Statutory Interpretation)' 등 특정 유형에 편중되는 경향이 강했습니다.
논리적 오류 탐지: 모델에 따라 차이가 있었으나, '숫자 (Numbers)'나 '표본 (Sampling)' 관련 오류 탐지는 전반적으로 어려웠습니다. 반면, '충분조건 vs 필수조건' 오류 등은 잘 찾아냈습니다.
톤 (Tone): 실제 변론보다 AI 가 생성한 질문이 전반적으로 더 경쟁적이었습니다. 이는 교육적 목적에는 도움이 될 수 있으나, 실제 법정의 미묘한 뉘앙스를 완전히 반영하지는 못함을 시사합니다.

3.3 모델별 특징

Gemini-2.5-Pro: 전반적으로 가장 높은 성능을 보였으며, 특히 논리적 오류 탐지와 대화의 연속성 유지에서 우수했습니다.
Llama-3.3-70B: 상대적으로 작은 모델임에도 불구하고 현실적인 톤과 경쟁적인 질문 생성에서 좋은 성과를 보였습니다.
에이전트 모델: 검색 도구 접근이 사실적 오류 탐지 (Factual-legal) 에 일부 도움이 되었으나, 오픈 웹 검색 추가는 성능 향상을 보장하지 못했습니다.

4. 기여 및 의의 (Contributions & Significance)

새로운 벤치마크 및 태스크 제안: 단순한 법적 QA 를 넘어, 대화형, 적대적, 교육적 맥락을 가진 '구두 변론 시뮬레이션'을 새로운 AI 평가 테스트베드로 제안했습니다.
종합적 평가 프레임워크: 현실성과 교육적 유용성을 동시에 평가하는 2 단계 프레임워크를 도입했습니다. 이를 통해 단일 지표로는 포착되지 않는 모델의 한계 (예: 순응성, 다양성 부족) 를 발견할 수 있었습니다.
AI 의 한계와 가능성 제시: 현재 최첨단 모델들도 판사의 복잡한 심리와 적대적 태도를 완벽하게 시뮬레이션하지는 못하지만, 변호사 훈련을 위한 보조 도구로서의 잠재력은 충분함을 보여주었습니다.
교육적 함의: AI 가 인간의 학습을 지원하는 '사고 파트너 (Thought Partner)'로 기능하기 위해서는 사용자를 단순히 만족시키는 것이 아니라, 비판적이고 도전적인 피드백을 줄 수 있어야 함을 강조했습니다.

5. 결론

이 연구는 AI 기반 모의 법정이 자원이 부족한 변호사들에게도 고품질 훈련 기회를 제공할 수 있는 가능성을 열었습니다. 그러나 현재 모델들은 여전히 순응성 (Sycophancy) 과 질문 다양성 부족이라는 심각한 한계를 안고 있습니다. 따라서 향후 연구에서는 단순한 정확도 측정을 넘어, 인간-AI 협업 시스템의 교육적 효과를 종합적으로 평가하는 방법론과 더 정교한 모델 설계가 필요함을 시사합니다.

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments