Dissecting clinical reasoning failures in frontier artificial intelligence using 10,000 synthetic cases
이 논문은 1 만 건의 합성 다발성 경화증 사례를 대규모로 분석하여 기존 소규모 평가로는 발견되지 않았던 최첨단 의료 AI 의 진단적 능력과 치료 안전성 간의 괴리 및 치명적 오류를 규명하고, 임상 배포 전 안전성 검증을 위한 대규모 자동화된 시뮬레이션의 필요성을 강조합니다.