Information-Consistent Language Model Recommendations through Group Relative Policy Optimization
이 논문은 그룹 상대적 정책 최적화 (GRPO) 기반의 강화학습 프레임워크를 도입하여, 의미적으로 동일한 프롬프트에 대해 정보 일관성을 보장하고 기업 환경에서의 LLM 추천 신뢰성을 향상시키는 새로운 방법을 제시합니다.
11336 편의 논문
이 논문은 그룹 상대적 정책 최적화 (GRPO) 기반의 강화학습 프레임워크를 도입하여, 의미적으로 동일한 프롬프트에 대해 정보 일관성을 보장하고 기업 환경에서의 LLM 추천 신뢰성을 향상시키는 새로운 방법을 제시합니다.
이 논문은 다양한 언어 모델로 구성된 AI 생태계의 다양성이 단일 모델의 자기 학습 과정에서 발생하는 지식 붕괴를 완화하고 장기적인 성능을 향상시키는 핵심 요소임을 실험을 통해 입증했습니다.
이 논문은 실제 금융 신용 업무의 프라이버시 준수 요구사항과 강건성 평가를 반영한 최초의 대규모 멀티모달 벤치마크인 'FCMBench'를 제안하고, 28 개의 최첨단 비전 - 언어 모델에 대한 평가 결과를 통해 해당 벤치마크가 현대 모델의 능력을 구분하는 데 유효함을 입증했습니다.
이 논문은 cVAE 기반 가창 음성 합성에서 훈련과 추론 간의 잠재 공간 불일치를 완화하여 표현력을 향상시키기 위해, 추론 시 잠재 표현을 후사분포와 유사하게 정제하는 플로우 매칭 기반의 FM-Singer 프레임워크를 제안합니다.
이 논문은 기존 LLM 이 환자별 맥락을 고려하지 못하는 문제를 해결하기 위해 훈련 없이 적용 가능한 'DeCode' 프레임워크를 제안하고, 이를 통해 OpenAI HealthBench 에서 기존 방법 대비 새로운 최첨단 성능을 달성했다고 설명합니다.
본 논문은 기존 모델이 겪는 공간 추론 및 해부학적 이해의 한계를 극복하기 위해, 해부학적 구조 식별과 특징 추출을 거쳐 다양한 하위 태스크를 수행하는 2 단계 접근법을 도입한 'AnatomiX'라는 해부학 인식 기반의 다중 모달 대규모 언어 모델을 제안하고, 이를 통해 해부학 기반 진단 및 설명 생성 등 여러 태스크에서 기존 방법 대비 25% 이상의 성능 향상을 입증했습니다.
이 논문은 키 - 값 쌍에 의존하지 않고 태스크별 프롬프트와 프로토타입을 결합하여 상호 간섭을 줄이고 확장성을 높이는 새로운 지속 학습 프레임워크인 ProP 를 제안합니다.
이 논문은 온라인 대학원생의 생성형 AI 활용 실태와 선호도를 혼합 방법론으로 분석하여, 현재 AI 기술의 기능과 학생들의 기대 수준 간의 격차를 규명하고 교육용 AI 시스템의 신뢰성 및 효과성 향상을 위한 방향을 제시합니다.
이 논문은 대규모 언어 모델 (LLM) 을 활용한 구조화된 반복적 방법론을 제시하여 수동 개발의 한계를 극복하고, 자동차 판매 도메인 사례를 통해 온톨로지 지식 베이스의 구축 속도, 일관성 및 확장성을 획기적으로 개선하는 방안을 논의합니다.
이 논문은 VAE 잠재 공간에서 이미지 재구성 및 의미 학습을 동시에 최적화하여 생성과 이해라는 두 가지 작업을 모두 효과적으로 수행하는 통합 비전 인코더 'OpenVision 3'를 제안하고, 이를 통해 생성 및 다중모달 이해 작업에서 기존 CLIP 기반 모델을 능가하거나 견줄 만한 성능을 입증합니다.
이 논문은 LLM 기반 웹 에이전트가 악성 URL 처리 시 가지는 취약점을 평가하기 위해 10 가지 실세계 시나리오와 7 가지 악성 웹사이트 카테고리를 포함한 최초의 벤치마크인 'MalURLBench'를 제안하고, 기존 모델들의 취약성을 분석하며 경량 방어 모듈인 'URLGuard'를 소개합니다.
이 논문은 기존 고차원 그래프 학습 방법의 확장성 및 장거리 의존성 모델링 한계를 극복하기 위해, 조합적 복합체 (Combinatorial Complexes) 상에서 선형 시간 복잡도로 작동하는 최초의 통합 Mamba 기반 신경망 프레임워크인 CCMamba 를 제안하고, 이를 통해 다양한 벤치마크에서 우수한 성능과 확장성을 입증했습니다.
이 논문은 비정상성 및 다양한 시간적 역학을 가진 장기 다변량 시계열 예측의 과제를 해결하기 위해, 공유 심층 컨볼루션 전문가와 라우팅 푸리에 기반 전문가를 결합한 이질적 전문가 혼합 (MoHE) 레이어와 경량 디코더를 도입한 MoHETS 모델을 제안하여 기존 최첨단 모델 대비 평균 MSE 를 12% 개선한 성능을 입증합니다.
이 논문은 선형 동역학 이론과 현대 딥러닝 예측 아키텍처를 통합하여 스펙트럼 제어와 안정성을 보장하는 학습 가능한 쿠퍼만 연산자 변형들을 제안하고, 이를 통해 다양한 시계열 예측 모델에서 우수한 성능과 해석 가능한 잠재 역학을 달성함을 보여줍니다.
본 논문은 20 개 이상의 대규모 언어 모델 (LLM) 과 인간을 비교한 결과, LLM 이 인간과 유사한 인과적 편향 (예: 약한 설명 배제) 을 보이지 않고 규칙 기반 추론을 보이지만, 추론 과정 (CoT) 을 거치면 관련 없는 맥락에 대한 강건성이 향상된다는 점을 규명하여 LLM 의 인과 추론 특성과 인간 편향의 상보적 관계를 제시합니다.
이 논문은 BM25-MonoT5 파이프라인을 통해 도메인 내 예시를 자동 구축하고, 이질적인 두 개의 LLM 이 생성한 확장어를 정제 LLM 이 통합하는 무지도 앙상블 방식을 제안하여 다양한 도메인에서 기존 방법보다 우수한 질의 확장 성능을 입증했습니다.
이 논문은 엣지 디바이스에서의 온디바이스 LLM 성능을 정량화하기 위해 지붕선 모델을 기반으로 한 벤치마크 프레임워크를 제안하고, 연산 강도와 모델 깊이에 따른 성능 한계 및 효율성 함정을 분석하여 하드웨어 - 소프트웨어 공동 설계에 대한 실행 가능한 통찰을 제공합니다.
이 논문은 2D 편집 지식을 증류하여 3D 가우스 원시 속성을 직접 예측하는 'VF-Editor'를 제안함으로써, 기존 간접 편집 방식의 한계를 극복하고 일관성 있고 유연한 3D 가우스 편집을 가능하게 합니다.
이 논문은 Mamba-2 상태 공간 모델을 TRM 의 재귀적 추론 구조에 통합하여 파라미터 수를 동등하게 유지한 결과, ARC-AGI-1 벤치마크에서 상위 K 개 정답률 (pass@K) 을 향상시키면서도 1 순위 정확도를 유지함으로써 재귀적 추론을 위한 SSM 기반 연산자의 유효성을 입증했습니다.
이 논문은 임계값 기반의 정적 캐싱 정책의 한계를 극복하기 위해, 비동기적으로 LLM 심판기를 활용해 정적 캐시 응답을 검증하고 동적 캐시로 승격시키는 'Krites' 시스템을 제안함으로써, 임계 경로 지연을 유지하면서 정적 캐시 히트율을 최대 3.9 배까지 향상시킨다고 요약할 수 있습니다.