GEM: A Gym for Agentic LLMs
이 논문은 LLM 기반 에이전트의 경험 기반 학습을 촉진하기 위해 OpenAI-Gym 과 유사한 표준화된 프레임워크인 GEM(General Experience Maker) 을 소개하고, 다양한 환경과 도구, 그리고 PPO, GRPO, REINFORCE 등 주요 강화학습 알고리즘에 대한 벤치마킹 결과를 제공합니다.
2405 편의 논문
이 논문은 LLM 기반 에이전트의 경험 기반 학습을 촉진하기 위해 OpenAI-Gym 과 유사한 표준화된 프레임워크인 GEM(General Experience Maker) 을 소개하고, 다양한 환경과 도구, 그리고 PPO, GRPO, REINFORCE 등 주요 강화학습 알고리즘에 대한 벤치마킹 결과를 제공합니다.
이 논문은 다음 토큰 예측을 위한 사전 학습 단계에 정보 이론적 보상을 기반으로 한 강화 학습 (RLP) 을 도입하여 체인 오브 씽킹을 탐험 행동으로 활용함으로써, 별도의 검증자 없이도 대규모 언어 모델의 추론 능력을 효과적으로 향상시키는 새로운 패러다임을 제시합니다.
이 논문은 추론 경험의 정확도와 엔트로피를 가치 지표로 활용하여 온-폴리시 RLVR 의 비효율성과 불안정성을 해결하고 추론 성능을 향상시키는 새로운 프레임워크인 ExGRPO 를 제안합니다.
이 논문은 교차 엔트로피 스케일링 법칙이 대규모에서 무너지는 원인을 규명하기 위해 교차 엔트로피를 세 가지 구성 요소로 분해한 결과, 실제로는 '오류 엔트로피 (Error-Entropy)'만이 강력한 멱법칙을 따르며 모델 크기가 커질수록 그 비중이 감소한다는 사실을 발견하여 더 정확한 모델 행동 설명을 제시했습니다.
이 논문은 기존 방법론의 한계를 극복하고 조건부 의미적 텍스트 유사성 (C-STS) 작업에서 새로운 최첨단 성능을 달성하기 위해, 점별 보상으로 기초를 다진 후 병렬 슬라이스 순위 보상 (PSRR) 메커니즘을 활용한 점 - 리스트 강화 학습 (PoLi-RL) 프레임워크를 제안합니다.
본 논문은 추가 모델이나 오버헤드 없이 토큰 수준의 대비적 차이를 통해 LoRA 의 지식을 다른 백본 모델로 효과적으로 전이하는 새로운 프레임워크인 TiTok 을 제안하며, 이를 통해 기존 베이스라인 대비 평균 4~10% 의 성능 향상을 입증했습니다.
이 논문은 엔트로피 추세를 기반으로 명시적 추론과 잠재적 추론을 동적으로 전환하고 과도한 사고를 제한하는 'SwiReasoning'이라는 학습 없는 프레임워크를 제안하여, 다양한 벤치마크에서 정확도와 토큰 효율성을 동시에 크게 향상시킨다고 설명합니다.
이 논문은 다양한 추론 경로를 보존하고 전역 분기 토큰을 유도하기 위해 쌍대 매칭을 기반으로 한 집합 기반 손실 함수를 도입한 'Set Supervised Fine-Tuning (SSFT)'과 이를 활용한 'Global Forking Policy Optimization (GFPO)'을 제안하여, 수학 추론 및 코드 생성 벤치마크에서 기존 모델보다 우수한 성능을 입증했습니다.
본 논문은 LoRA 의 단일 다운프로젝션 행렬로 인한 표현 병목 현상을 해결하기 위해, 다중 전문가 엔semble 을 비대칭적으로 공유하는 'MASA(Multi-A Shared Adaptation)' 아키텍처를 제안하고, 다양한 실험을 통해 기존 LoRA 보다 우수한 성능을 입증했습니다.
이 논문은 생성형 엔진의 인용 취약성을 분석하기 위해 인용 출처의 콘텐츠 주입 장벽을 평가하는 새로운 기준을 제안하고, 이를 통해 미국과 일본의 정치 분야에서 공식 출처 인용 비율의 차이와 poisoning 공격 위험을 실증적으로 규명했습니다.
이 논문은 시각적으로 풍부한 문서의 구조적 조직과 교차 페이지 의존성을 포착하는 심볼릭 문서 그래프를 구축하고 추론 시 LLM 에이전트를 통해 적응적으로 증거를 검색하는 새로운 레이아웃 인식 동적 RAG 프레임워크인 'LAD-RAG'를 제안하여 기존 방법의 한계를 극복하고 질문 응답 정확도를 크게 향상시킨다고 설명합니다.
이 논문은 기존 학습 없이 추론 시 공간적·시간적 레이아웃과 텍스트-이미지 정렬을 개선하기 위해 테스트 시간 최적화와 매개변수 기반 기억 메커니즘을 도입한 TTOM 프레임워크를 제안하여 구성적 비디오 생성의 성능을 향상시킵니다.
이 논문은 hateful meme 탐지의 한계를 극복하고 설명 기반 탐지를 통해 성능과 해석 가능성을 동시에 향상시키기 위해, 인간 주석자의 평가 과정을 모방한 SFT 워밍업, 커리큘럼 학습이 적용된 GRPO, 그리고 추론 품질을 위한 조건부 결정 엔트로피 (CDE) 를 결합한 'ExPO-HM' 프레임워크를 제안합니다.
이 논문은 이진 행렬의 랭크를 기반으로 최소한의 오답 코드 집합을 선택하여 효율적이고 편향되지 않은 테스트 케이스 평가 벤치마크인 TC-Bench 를 구축하고, 이를 통해 최신 LLM 기반 테스트 생성 방법들의 진단 능력 한계를 규명했습니다.
이 논문은 LLM 이 생성한 자연어 수학 증명에 대한 신뢰할 수 있는 세밀한 평가가 부재하다는 문제를 해결하기 위해, 전문가가 주석한 ProofBench 데이터셋을 기반으로 ProofGrader 라는 고도화된 평가 모델을 개발하여 증명의 질을 정밀하게 측정하고 하류 작업의 성능을 크게 향상시킨다는 것을 보여줍니다.
이 논문은 소프트웨어 공학의 다형성 개념을 차용하여 에이전트의 목표와 실행 방식을 분리함으로써 웹 환경에서 재사용 가능하고 일반화되는 기술을 학습하는 새로운 프레임워크 'PolySkill'을 제안하고, 이를 통해 기존 방법 대비 성능과 적응력을 크게 향상시켰음을 보여줍니다.
이 논문은 기존 문헌에 기반하여 연구 아이디어의 타당성과 기여도를 평가하는 'ScholarEval' 프레임워크와 이를 검증하기 위해 구축된 전문가 주석 데이터셋 'ScholarIdeas'를 소개하며, 인간 전문가의 평가 기준을 더 잘 반영하고 기존 최첨단 모델보다 우수한 성능을 보임을 입증합니다.
이 논문은 강력한 대규모 언어 모델을 활용한 훈련 없는 쿼리 증강이 비용이 많이 드는 강화 학습 기반 방법과 동등하거나 더 나은 성능을 보인다는 사실을 규명하고, 이를 바탕으로 프롬프팅의 유연성과 강화 학습의 최적화 능력을 결합한 새로운 하이브리드 방법인 OPQE 를 제안하여 기존 방식들을 능가하는 성능을 입증합니다.
이 논문은 인간의 기억 모델을 영감으로 삼아 감각, 단기, 장기 기억의 3 단계 구조를 도입함으로써 LLM 의 상호작용 효율성을 극대화하고 기존 메모리 시스템 대비 성능은 유지하면서 토큰 및 API 호출 비용을 획기적으로 절감하는 경량화된 메모리 시스템 'LightMem'을 제안합니다.
이 논문은 LLM 이 초기 층에서 빈도 높은 토큰을 통계적 추측으로 제시하고 깊은 층으로 갈수록 이를 문맥에 맞게 정제하는 '추측 후 정제 (Guess-then-Refine)' 프레임워크를 제안하며, 다양한 태스크와 실험을 통해 모델이 깊이를 구조적이고 세밀하게 활용하는 방식을 규명했습니다.