Each language version is independently generated for its own context, not a direct translation.
🏛️ 시나리오: 50 개 주의 법전 읽기 대결
상상해 보세요. 미국 전역의 50 개 주에 있는 거대한 도서관이 있습니다. 각 주마다 실업자가 돈을 받을 수 있는 조건이 조금씩 다른 수만 권의 두꺼운 법전이 쌓여 있죠.
과거에는 이걸 미국 노동부 (DOL) 의 변호사 팀이 6 개월 동안 밤을 새우며 수작업으로 하나하나 읽어서 정리했습니다. 이것이 바로 '정답 (Ground Truth)'으로 쓰인 자료입니다.
이번 연구팀은 이 정답을 기준으로 세 가지 'AI 검색 로봇'을 시험에 붙였습니다.
- STARA (연구진이 만든 특수 로봇): 법전 구조를 아주 잘 이해하도록 특별히 훈련된 로봇.
- Westlaw AI & Lexis+ AI (상용 AI): 법률 시장에서 유명하게 팔리는 상업용 AI 도구들. (마치 "우리는 50 개 주 법을 몇 분 만에 다 찾아드립니다!"라고 광고하는 제품들)
🏆 실험 결과: 누가 이겼을까?
1. 상용 AI 들의 실망스러운 성적표 (Westlaw & Lexis)
상업용 AI 들은 광고처럼 빠르지만, 정확도는 매우 낮았습니다.
- 비유: 마치 "모든 책을 다 읽었다"고 말하지만, 실제로는 책장을 넘길 때 중요한 페이지를 건너뛰거나 (찾지 못함), 완전 다른 책의 내용을 가져와서 헛소리를 하는 (할루시네이션) 학생들입니다.
- 결과: 100 점 만점에 58~64 점 정도밖에 받지 못했습니다. 심지어 "정답을 모두 'Yes'라고 찍는 무식한 기계"보다도 못 한 경우도 있었습니다.
- 이유: 질문의 맥락을 너무 짧게 줄여서 입력해야 하거나 (300 자 제한), 중요한 법 조항의 뉘앙스를 놓쳐서 엉뚱한 결론을 내렸습니다.
2. STARA 의 압도적인 승리
연구진이 만든 STARA는 훨씬 더 잘했습니다.
- 비유: 이 로봇은 법전의 **구조 (목차, 조문 번호, 인용 관계)**를 완벽하게 이해하도록 설계되었습니다. 마치 도서관 사서가 책의 등재 번호와 분류 체계를 완벽하게 외우고 있어, "실업자가 자영업을 할 때 돈을 받을 수 있는 주"를 찾으라고 하면, 관련 법조항을 정확히 찾아서 가져와주는 똑똑한 사서입니다.
- 결과: 초기 점수는 83 점으로 압도적이었습니다.
🕵️♂️ 놀라운 반전: "정답"이 틀렸다?
가장 흥미로운 부분은 STARA 가 '오답'으로 판정받은 사례를 다시 조사했을 때의 발견입니다.
- 상황: STARA 가 "A 주에는 이런 법이 있다"고 했는데, 기존 정답 (노동부 보고서) 에는 "없다"고 되어 있었습니다. 연구팀은 "아, STARA 가 틀렸구나"라고 생각했습니다.
- 반전: 하지만 연구팀이 직접 법전을 다시 확인해보니, STARA 가 맞았습니다! 노동부 변호사들이 6 개월 동안 일해도 놓친 숨겨진 법조항들이 실제로 존재했습니다.
- 비유: 시험에서 정답지가 "A 는 틀렸다"고 적혀 있는데, 사실은 정답지가 빠뜨린 것이었던 셈입니다. STARA 는 그 빠진 부분을 찾아낸 것입니다.
- 최종 점수: 이 '숨겨진 정답'들을 모두 반영하자, STARA 의 점수는 92 점으로 치솟았습니다.
💡 이 연구가 우리에게 주는 교훈
- AI 는 아직 완벽하지 않다: "AI 가 모든 법을 몇 분 만에 다 찾아준다"는 광고는 과장일 수 있습니다. 특히 복잡한 법률 문맥을 이해하는 데는 한계가 있습니다.
- 전문가는 실수할 수 있다: 6 개월 동안 일한 인간 전문가들도 중요한 법조항을 놓칠 수 있습니다. AI 가 오히려 인간이 놓친 것을 찾아낼 수도 있습니다.
- 도구의 설계가 중요하다: 단순히 "책을 검색하는 AI"가 아니라, 법률의 구조와 논리를 이해하는 AI를 만들어야만 신뢰할 수 있습니다.
📝 한 줄 요약
"법률 AI 를 시험에 붙여보니, 유명 상용 AI 들은 엉뚱한 소리를 하고, 연구진이 만든 AI 는 인간 전문가조차 놓친 정답을 찾아냈습니다. AI 는 아직 완벽하지 않지만, 잘 설계하면 인간 전문가의 실수를 보완할 수 있는 강력한 도구가 될 수 있다는 것을 보여준 연구입니다."