The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate
이 논문은 생성 능력이 뛰어난 대규모 언어 모델 (LLM) 이 반드시 평가자로서도 탁월한 것은 아니며, 오히려 역량이 부족한 영역에서도 부정확한 평가를 수행할 수 있는 '생성형 AI 역설'을 실증적으로 규명하고 있습니다.
1072 편의 논문
이 논문은 생성 능력이 뛰어난 대규모 언어 모델 (LLM) 이 반드시 평가자로서도 탁월한 것은 아니며, 오히려 역량이 부족한 영역에서도 부정확한 평가를 수행할 수 있는 '생성형 AI 역설'을 실증적으로 규명하고 있습니다.
이 논문은 ChatGPT 를 활용한 인용 문장 감성 분석을 통해 과학적 인용의 미묘한 긍정적·부정적 뉘앙스를 파악하고 잠재적 편향 및 이해 상충을 식별함으로써 학술 연구의 무결성을 강화하는 AI 기반 도구의 혁신적 가능성을 제시합니다.
이 논문은 embodied mind 이론을 바탕으로 대형 언어 모델 (LLM) 이 자율적 행위자 (agent) 의 조건을 충족하지 못해 '대화형 자동화 장치'로 정의되어야 하지만, 인간과의 결합을 통해 기존 도구를 넘어선 새로운 형태의 '중간적 행위성 (midtended agency)'을 창출한다고 주장합니다.
이 논문은 현재 널리 사용되는 편향 지표들이 대규모 언어 모델 (LLM) 의 예측이 실제 자원 배분 결정으로 이어질 때 발생하는 불공정한 결과 (할당적 해악) 를 신뢰성 있게 포착하지 못함을 규명하고, 모델 평가 시 예측과 실제 의사결정 간의 간극을 고려할 필요성을 강조합니다.
이 논문은 저자원 언어를 위한 대규모 다국어 모델의 한계를 지적하고, 350 개 언어 각각에 대해 1GB 미만의 데이터로 훈련된 125M 파라미터 규모의 소규모 단국어 모델 'Goldfish'를 공개하여 다국어 모델보다 우수한 성능을 입증했습니다.
이 논문은 대규모 언어 모델의 편향을 완화하기 위해 작은 편향 및 반편향 전문가 모델을 활용하여 디코딩 시 편향 보정 신호를 추가하는 효율적이고 해석 가능한 프레임워크를 제안하며, 다양한 편향 유형과 모델 아키텍처에서 성능 저하 없이 편향을 효과적으로 감소시키는 것을 입증합니다.
이 논문은 기존 LLM 앙상블 방법의 한계를 극복하기 위해, 추론 단계에서 모델 간 시맨틱 협업을 가능하게 하고 실시간 피드백을 통해 각 모델의 기여도를 동적으로 조정하는 훈련 불필요인 플러그 앤 플레이 프레임워크인 SpecEM 을 제안합니다.
이 논문은 다양한 비전 인코더의 시각 토큰을 효과적으로 통합하는 경량화된 설계 원칙을 제안하고, 이를 적용한 'LEO'라는 새로운 아키텍처가 다양한 벤치마크와 자율주행 도메인에서 기존 혼합 비전 인코더 (MoVE) 기반 모델보다 우수한 성능을 보임을 입증합니다.
이 논문은 대규모 멀티모달 언어 모델을 활용한 과학적 발견, 실험, 콘텐츠 생성 및 평가의 5 가지 핵심 영역에 대한 데이터셋, 방법론, 평가 전략, 한계 및 윤리적 문제를 포괄적으로 검토하여 AI 기반 과학 연구의 현재와 미래를 조명하는 종합적인 조사를 제공합니다.
이 논문은 영어-스페인어 병렬 코퍼스 구축을 위한 역번역 기반 미세조정 방법론을 제안하여 LLM 이 유창한 코드스위칭 텍스트를 생성하도록 하고, 기존 자동 평가 지표보다 LLM 기반 판단이 인간 선호도와 더 잘 일치함을 입증했습니다.
이 논문은 다양한 문화적 특성을 효과적으로 반영하고 고유한 뉘앙스를 구분하기 위해 정보 이론적 목표를 기반으로 데이터 최적화 프레임워크인 CAReDiO 를 제안하며, 소수의 학습 데이터로도 대규모 언어 모델의 문화적 정렬 성능을 기존 방법보다 획기적으로 향상시킵니다.
이 논문은 보상 모델링을 추론 작업으로 재정의하여 '추론 보상 모델 (ReasRM)'인 RM-R1 을 제안하고, 고품질 추론 체인의 증류와 검증 가능한 보상을 통한 강화학습을 통해 기존 대형 모델보다 뛰어난 성능과 해석 가능성을 달성했다고 요약할 수 있습니다.
이 논문은 이벤트 카메라의 비동기적 특성을 언어 모델링 기법에 빗대어 고안된 EVA 프레임워크를 통해 기존 동기화 방식보다 표현력과 일반화 성능을 극대화하고, 인식 및 검출 태스크에서 새로운 성능 기준을 제시했습니다.
이 논문은 언어 모델의 추론 과정에서 내용적 타당성과 형식적 논리성을 혼동하는 편향을 완화하기 위해, kNN 기반의 조건부 활성화 제어 기법 (K-CAST) 을 도입하여 추론 정확도를 최대 15% 향상시키고 다양한 작업에 적용 가능한 확장성 있는 해결책을 제시합니다.
이 논문은 기존 벤치마크의 한계를 극복하고 다양한 LLM 의 가치 차이를 더 명확하게 식별하기 위해, 모델의 내부 가치 경계를 탐지하여 테스트 질문을 자동으로 생성하고 확장하는 적응형 평가 알고리즘 'AdAEM'을 제안합니다.
이 논문은 기존 벤치마크의 오염과 편향 문제를 해결하기 위해, 다른 LLM 이나 인력 개입 없이 원시 도메인 코퍼스를 기반으로 자동화된 완성형 평가 벤치마크를 생성하여 LLM 의 도메인 전문성을 확장 가능하고 공정하게 평가하는 새로운 파이프라인을 제안합니다.
이 논문은 파인튜닝 없이 고정된 LLM 의 시스템 프롬프트를 사용자 입력에 맞춰 적응적으로 조정하는 'Sysformer'를 제안하여, 유해한 입력에 대한 거절률을 최대 80% 향상시키고 안전한 입력에 대한 준수율을 최대 90% 높이며 다양한 재킹킹 공격에 대한 모델의 견고성을 극대화한다고 요약할 수 있습니다.
이 논문은 비전 - 언어 모델 (VLM) 의 활성화 특성을 분석하여 시각 토큰의 과잉 표현과 모달리티 간극 문제를 해결하기 위해, 토큰별 중요도를 고려한 선택적 양자화 전략을 도입함으로써 저비트 환경에서도 기존 방법보다 뛰어난 성능을 달성하는 VLMQ 라는 새로운 Post-Training Quantization 프레임워크를 제안합니다.
이 논문은 농업 기계 매뉴얼을 기반으로 한 크로스링구얼 기술 질의응답 사례 연구를 통해, 하이브리드 RAG 방식이 128K 토큰 컨텍스트를 가진 직접 프롬프팅 방식보다 일관되게 더 높은 정확도를 보임을 입증하고, Gemini 2.5 Flash 및 Qwen 2.5 7B 와 같은 모델이 RAG 와 결합 시 85% 이상의 높은 성능을 달성함을 밝혔습니다.
이 논문은 기존 멀티모달 문서 기반 질문 응답 시스템의 한계를 극복하기 위해 텍스트와 이미지를 통합적으로 활용하는 'CMRAG' 프레임워크와 대규모 삼중항 데이터셋을 제안하여, 다양한 시각 문서 질문 응답 벤치마크에서 단일 모달리티 기반 방법보다 우수한 성능을 입증했습니다.