TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement
이 논문은 테스트 시 학습 중 발생하는 신뢰할 수 없는 의사레이블과 비효율적인 적응 문제를 해결하기 위해, 실패한 추론 경로를 분석하고 표적 변형 문제를 생성하는 '교사' 역할과 문제 해결을 수행하는 '학생' 역할이 교차하는 자기반성 기반의 TTSR 프레임워크를 제안하여 대형 언어 모델의 추론 능력을 지속적으로 향상시키는 방법을 제시합니다.