Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls
이 논문은 대규모 언어 모델의 테스트 시간 적응을 위한 다수 샷 프롬프팅의 효과와 한계를 실증적으로 분석하여, 구조화된 작업에서는 유익하지만 개방형 생성 작업에서는 선택 전략에 민감하고 효과가 제한적일 수 있음을 규명했습니다.
1714 편의 논문
이 논문은 대규모 언어 모델의 테스트 시간 적응을 위한 다수 샷 프롬프팅의 효과와 한계를 실증적으로 분석하여, 구조화된 작업에서는 유익하지만 개방형 생성 작업에서는 선택 전략에 민감하고 효과가 제한적일 수 있음을 규명했습니다.
이 논문은 외부 오라클이나 실행 피드백 없이도 강화 학습을 통해 생성된 코드에 대한 자기 성찰과 자기 수정 능력을 내재화한 새로운 프레임워크 'ReflexiCoder'를 제안하며, 이를 통해 1.5B~14B 크기의 오픈소스 모델 중 최고 성능을 달성하고 추론 시 토큰 효율성을 40% 향상시켰음을 보여줍니다.
이 논문은 SparseGPT 의 사전 정의된 가지치기 순서의 한계를 극복하기 위해 가지치기 손실 크기에 따라 가중치와 블록을 재배열하는 'ROSE'를 제안하여, 다양한 대규모 언어 모델에서 기존 방법보다 더 정확한 원샷 가지치기 성능을 달성함을 보여줍니다.
이 논문은 기존 답변 후 신뢰도를 추정하는 방식의 한계를 극복하기 위해, GRPO 강화학습을 활용해 답변 정확도와 신뢰도 보정을 동시에 최적화하는 'CoCA' 프레임워크를 제안하여 LLM 의 불확실성 추정을 효율적으로 개선하는 새로운 패러다임을 제시합니다.
이 논문은 영어 중심의 통계적 토크나이저가 접미어와 접두어가 풍부한 교착어에서 형태소 경계를 왜곡하는 문제를 해결하기 위해, 문법 규칙을 우선시하는 새로운 토큰화 방법인 'VerChol'을 제안합니다.
이 논문은 장편 스토리 생성 시 발생하는 일관성 오류를 체계적으로 분석하기 위해 새로운 벤치마크 'ConStory-Bench'와 자동 검증 도구 'ConStory-Checker'를 제안하고, 다양한 LLM 들의 일관성 오류가 사실 및 시간적 차원에서 주로 발생하며 이야기의 중간 부분과 높은 토큰 엔트로피 구간에서 빈번하게 나타난다는 사실을 규명했습니다.
이 논문은 UN 안보리 결의안의 의미 태깅을 위해 여러 LLM 의 성능 변이를 활용한 앙상블 방법론과 환각을 방지하는 새로운 평가 지표를 도입하여, 비용 효율적으로 고품질의 데이터 정제 및 태깅 결과를 도출하는 신뢰할 수 있는 시스템을 제안합니다.
이 논문은 법적 및 의료 분야에서 불완전한 정보와 모순된 증거를 Dempster-Shafer 이론 기반의 증거 네트워크로 체계적으로 통합하여, 기존 방법보다 더 적은 대화 횟수로 신뢰할 수 있는 의사결정을 지원하는 'InfoGatherer' 프레임워크를 제안합니다.
이 논문은 사용자의 멀티모달 상호작용 데이터를 기반으로 다음 행동을 예측하는 'LongNAP' 모델을 제안하고, 이를 통해 방대한 양의 자연스러운 사용자 행동 데이터를 학습하여 개인화된 행동 예측 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 대규모 언어 모델 (8B Llama) 에 대해 저자의 언어적 맥락을 고려한 HuLM 과 HuFT 기법을 적용하여 생태학적 오류를 해결함으로써, 기존 표준 미세조정 방식보다 다양한 하위 작업에서 성능을 크게 향상시킬 수 있음을 입증했습니다.
이 논문은 데이터 부족과 스타일 분리 복잡성으로 인해 소규모 언어 모델의 역할극 성능이 제한되는 문제를 해결하기 위해, 어휘·구문·화용론적 스타일을 명시적으로 분리하고 추론 과정에서의 연쇄 사고 (CoT) 증류 기반의 암묵적 스타일 조건부 전략을 제안하여, 추론 시 추가 토큰 없이도 소비자용 하드웨어에서 대형 모델보다 뛰어난 스타일 일관성과 의미 충실도를 달성하는 효율적인 프레임워크를 제시합니다.
이 논문은 개인적 성향과 상황적 맥락의 상호작용을 기반으로 한 이론적 프레임워크와 대규모 언어 모델을 결합하여, 해석 가능성과 예측 성능을 동시에 확보하는 동적 정신 건강 평가 모델을 개발하고 그 유효성을 입증합니다.
이 논문은 정적인 이미지 쌍 비교를 넘어 변화의 시간적 역학을 명시적으로 모델링하여 두 이미지 간의 차이와 변화 과정을 더 정확하게 설명하는 새로운 프레임워크 'ProCap'을 제안합니다.
이 논문은 다중 턴 텍스트 -SQL 작업에서 생성형 언어 모델의 성능을 향상시키기 위해 스키마와 컨텍스트 추적을 위한 이중 추출 모듈을 도입한 'Track-SQL' 프레임워크를 제안하고, SparC 및 CoSQL 데이터셋에서 최첨단 성능을 입증합니다.
이 논문은 자연어 의도를 실행 가능한 그래프로 변환하는 'Vibe Graphing' 접근법과 재사용 가능한 컴포넌트를 통해 복잡한 LLM 기반 멀티에이전트 시스템의 오케스트레이션을 자동화하고 시각화하는 'MASFactory' 프레임워크를 제안합니다.
이 논문은 여러 시점 간의 공간적 관계를 명시적으로 정렬하고 추론하는 'ViewFusion'이라는 2 단계 프레임워크를 제안하여, 기존 비전 - 언어 모델의 다중 시점 추론 성능을 크게 향상시킨다는 내용을 담고 있습니다.
이 논문은 오픈 가중치 대형 언어 모델 (LLM) 을 활용한 오스트리아 A 레벨 독일어 에세이 자동 채점 실험을 통해, rubric 기반 평가에서 인간 채점자와의 일치도가 최종 점수 32.8% 에 불과하여 실제 채점 환경에 적용하기에는 정확도가 부족함을 규명했습니다.
이 논문은 도메인별 텍스트를 통한 계속적 사전 학습으로 LLM 의 '경험'을 시뮬레이션하고, 이를 Big Five 성격 척도에 기반한 기계 성격 지수 (MPI) 로 분석한 결과, 사회적 특성이 억제된 '억제된 전문가' 유형이 복잡한 추론에서 더 뛰어난 성능을 보이며 언어적 특성과 성격 간의 인과적 연결을 규명하여 '성격 공학'의 길을 제시했다고 요약할 수 있습니다.
이 논문은 RGB 이미지와 텍스트 정렬에 의존하는 기존 방식의 한계를 극복하고, 깊이 정보의 고유한 특성을 활용하여 3 차원 장면 이해를 강화하기 위해 깊이 지도와 언어를 연결하는 최초의 전용 멀티모달 모델인 'DeepSight'를 제안하고 있습니다.
이 논문은 대규모 언어 모델 (LLM) 을 활용해 생략된 전제를 추론하고 이를 논리식으로 변환한 뒤 신경-심볼릭 추론기를 통해 논리적 함의를 검증하는 엔티미 (생략논증) 처리 파이프라인을 제안하고, 두 가지 데이터셋을 통해 그 유효성을 입증했습니다.