Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam
이 논문은 답변이 없는 컨텍스트를 활용해 질문을 재작성하여 모호성을 줄이는 방식이 Humanity's Last Exam 벤치마크에서 gpt-5-mini 의 정확도를 0.14 에서 0.37 로 두 배 이상 향상시킨다는 것을 보여줍니다.
1723 편의 논문
이 논문은 답변이 없는 컨텍스트를 활용해 질문을 재작성하여 모호성을 줄이는 방식이 Humanity's Last Exam 벤치마크에서 gpt-5-mini 의 정확도를 0.14 에서 0.37 로 두 배 이상 향상시킨다는 것을 보여줍니다.
이 논문은 2024 년과 2025 년의 두 시점 코퍼스 스냅샷을 비교 분석하여, 기술 도메인 정보 검색 벤치마크인 FreshStack 에서 시간적 변화가 발생하더라도 검색 모델의 성능 평가는 여전히 신뢰할 수 있음을 입증했습니다.
이 논문은 LLM 에이전트의 장기 기억 관리 문제를 해결하기 위해 미래 유용성, 사실적 신뢰도, 의미적 새로움, 시간적 최근성, 콘텐츠 유형 사전 지식 등 5 가지 해석 가능한 요소를 기반으로 한 적응형 기억 허용 제어 (A-MAC) 프레임워크를 제안하며, LoCoMo 벤치마크에서 기존 시스템 대비 정밀도 - 재현율 균형을 개선하고 지연 시간을 31% 단축하는 성과를 입증했습니다.
이 논문은 데이터 흐름과 동적 상호작용을 기반으로 스트리밍 LLM 에 대한 통합 정의를 제시하고 체계적인 분류 체계를 마련하여 기존 연구의 모호성을 해소하고, 관련 방법론과 실제 응용 사례를 분석하며 향후 연구 방향을 제시합니다.
이 논문은 대규모 언어 모델의 자연어 피드백을 활용하여 희소 보상 환경에서의 탐색 효율성을 극대화하고, 외부 비판과 그룹 내 시도를 통합하여 생성 및 정제 능력을 동시에 향상시키는 강화학습 프레임워크 'GOLF'를 제안합니다.
이 논문은 기존 벤치마크의 한계를 극복하고 AI 모델이 처음부터 끝까지 웹 애플리케이션을 개발하는 능력을 평가하기 위해 자율 브라우저 에이전트를 활용한 'Vibe Code Bench'를 제안하고, 16 개의 최첨단 모델을 평가하여 완전한 엔드 - 투 - 엔드 개발이 여전히 해결해야 할 과제임을 입증했습니다.
이 논문은 검색 단계와 생성 단계를 통합적으로 모델링하여 검색 결과와 생성 목표 간의 의미 정렬을 확보하고, 명시적 증거 제약 메커니즘을 통해 생성 내용을 증거에 기반하도록 제한함으로써 대규모 언어 모델의 사실적 신뢰성과 검증 가능성을 향상시키는 새로운 검색 증강 생성 방법을 제안합니다.
이 논문은 단일 정보 출처가 아닌 다중 소스의 증거를 통합하고 종합하는 고차원적인 정보 탐색 능력을 평가하기 위해, 실제 사용자 의도와 현실적 관심사를 반영한 동적 ODQA 벤치마크인 'iAgentBench'를 제안합니다.
이 논문은 클라우드 API 에 의존하지 않고 오픈 가중치 모델과 로컬 하드웨어만으로 구동되며, 화학공학 열역학 과정에서 학생에게는 RAG 기반의 질문 응답을, 강사에게는 강의 분석 및 교재 인덱싱을 제공하는 'Stan'이라는 양면형 AI 도구의 설계, 구현 및 배포 경험을 제시합니다.
이 논문은 GPT-4.1-nano 를 활용하여 시각화 리터러시 테스트 문항의 난이도를 예측한 결과, 텍스트와 이미지를 모두 활용한 멀티모달 접근법이 단일 모달 방식보다 가장 낮은 오차로 우수한 성능을 보임을 입증했습니다.
이 논문은 강화학습 기반의 구조화된 보상 함수와 DPO 에서 영감을 받은 '직접 일관성 최적화 (DCO)' 방법을 제안하여, 명시적 보상 모델 없이도 다양한 언어 간 지식 일관성을 크게 향상시키고 기존 방법들을 능가하는 다국어 대규모 언어 모델 최적화 솔루션을 제시합니다.
이 논문은 전 단어 목록이 지프의 법칙을 따를 때, 빈도 순위가 감소하는 힐 함수에 기반한 하위 집합 선택 모델을 통해_stopword_의 빈도 분포가 베타 순위 함수 (BRF) 로, 그리고 비-stopword 는 2 차 함수로 적합하게 설명됨을 이론적 및 실증적으로 입증합니다.
이 논문은 데이터 증강과 특징 향상 기법을 적용하여 전통적 분류기와 다양한 대규모 언어 모델을 비교 분석한 결과, 오픈소스 gpt-oss-20b 모델이 가장 높은 성능을 보였으며 데이터셋과 모델 간 상호작용이 혐오 발언 탐지 효율성에 결정적임을 규명했습니다.
이 연구는 다국어 DUTA10K 데이터셋을 기반으로 Llama 3.2 와 Gemma 3 와 같은 대규모 언어 모델 (LLM) 이 기존 머신러닝 및 BERT 모델보다 40 개 이상의 복잡한 불법 카테고리 분류에서 뛰어난 성능을 보이며 온라인 마켓플레이스의 불법 콘텐츠 탐지 및 규제에 효과적임을 입증했습니다.
이 논문은 미국 대법원 구두 변론 기록을 기반으로 AI 가 모의 재판 훈련에서 판사들의 질문을 효과적으로 시뮬레이션할 수 있는지 검증하고, 현실성과 교육적 유용성을 평가하는 새로운 프레임워크를 제시하여 AI 모델이 질문의 다양성 부족과 아첨 성향 등 여전히 해결해야 할 과제가 있음을 밝힙니다.
이 논문은 AI 모델을 생물학적 유기체와 유사하게 접근하여 15 개의 하위 분야로 구성된 분류 체계, 행동 유전학 기반의 4 껍질 모델, 신경 MRI 진단 도구, 5 층 진단 프레임워크 및 임상적 치료 체계를 포함한 '모델 의학 (Model Medicine)'이라는 새로운 연구 프로그램을 제시합니다.
이 논문은 제미니 딥 싱크 기반의 신경-심볼릭 시스템을 활용하여 우주 끈에서 방출되는 중력파의 파워 스펙트럼에 대한 새로운 정확한 해석적 해를 도출함으로써 인공지능이 이론 물리학의 미해결 문제를 자율적으로 해결하고 수학적 발견을 가속화할 수 있음을 입증합니다.
이 논문은 기존 벤치마크의 한계를 극복하고 모델의 지능을 평가하기 위해 예산 제약 하의 상호작용 과정을 통해 추론 능력을 측정하는 '인터랙티브 벤치마크' 프레임워크를 제안하고, 이를 논리·수학 증명 및 전략적 게임 환경에서 검증하여 상호작용 시나리오에서의 개선 여지가 여전히 크다는 것을 보여줍니다.
이 논문은 기존 벤치마크의 한계를 극복하고 모델 정렬에 필수적인 리스트와이즈 평가 패러다임을 도입한 포괄적인 메타 평가 벤치마크 'IF-RewardBench'를 제안하여, 현재 지시 따르기 평가용 저지 모델들의 결함을 드러내고 하류 작업 성능과의 높은 상관관계를 입증했습니다.
이 논문은 R 통계 생태계의 데이터 분포 정보를 함수 표현에 통합한 경량 검색 모델 DARE 와 이를 활용한 R 코딩 에이전트 RCodingAgent 를 제안하여, 기존 LLM 에이전트의 통계적 지식 부족과 도구 검색의 한계를 극복하고 R 패키지 검색 및 코드 생성 성능을 획기적으로 향상시켰습니다.