Optimizing Language Models for Crosslingual Knowledge Consistency
이 논문은 강화학습 기반의 구조화된 보상 함수와 DPO 에서 영감을 받은 '직접 일관성 최적화 (DCO)' 방법을 제안하여, 명시적 보상 모델 없이도 다양한 언어 간 지식 일관성을 크게 향상시키고 기존 방법들을 능가하는 다국어 대규모 언어 모델 최적화 솔루션을 제시합니다.
1077 편의 논문
이 논문은 강화학습 기반의 구조화된 보상 함수와 DPO 에서 영감을 받은 '직접 일관성 최적화 (DCO)' 방법을 제안하여, 명시적 보상 모델 없이도 다양한 언어 간 지식 일관성을 크게 향상시키고 기존 방법들을 능가하는 다국어 대규모 언어 모델 최적화 솔루션을 제시합니다.
이 논문은 전 단어 목록이 지프의 법칙을 따를 때, 빈도 순위가 감소하는 힐 함수에 기반한 하위 집합 선택 모델을 통해_stopword_의 빈도 분포가 베타 순위 함수 (BRF) 로, 그리고 비-stopword 는 2 차 함수로 적합하게 설명됨을 이론적 및 실증적으로 입증합니다.
이 논문은 데이터 증강과 특징 향상 기법을 적용하여 전통적 분류기와 다양한 대규모 언어 모델을 비교 분석한 결과, 오픈소스 gpt-oss-20b 모델이 가장 높은 성능을 보였으며 데이터셋과 모델 간 상호작용이 혐오 발언 탐지 효율성에 결정적임을 규명했습니다.
이 연구는 다국어 DUTA10K 데이터셋을 기반으로 Llama 3.2 와 Gemma 3 와 같은 대규모 언어 모델 (LLM) 이 기존 머신러닝 및 BERT 모델보다 40 개 이상의 복잡한 불법 카테고리 분류에서 뛰어난 성능을 보이며 온라인 마켓플레이스의 불법 콘텐츠 탐지 및 규제에 효과적임을 입증했습니다.
이 논문은 미국 대법원 구두 변론 기록을 기반으로 AI 가 모의 재판 훈련에서 판사들의 질문을 효과적으로 시뮬레이션할 수 있는지 검증하고, 현실성과 교육적 유용성을 평가하는 새로운 프레임워크를 제시하여 AI 모델이 질문의 다양성 부족과 아첨 성향 등 여전히 해결해야 할 과제가 있음을 밝힙니다.
이 논문은 AI 모델을 생물학적 유기체와 유사하게 접근하여 15 개의 하위 분야로 구성된 분류 체계, 행동 유전학 기반의 4 껍질 모델, 신경 MRI 진단 도구, 5 층 진단 프레임워크 및 임상적 치료 체계를 포함한 '모델 의학 (Model Medicine)'이라는 새로운 연구 프로그램을 제시합니다.
이 논문은 제미니 딥 싱크 기반의 신경-심볼릭 시스템을 활용하여 우주 끈에서 방출되는 중력파의 파워 스펙트럼에 대한 새로운 정확한 해석적 해를 도출함으로써 인공지능이 이론 물리학의 미해결 문제를 자율적으로 해결하고 수학적 발견을 가속화할 수 있음을 입증합니다.
이 논문은 기존 벤치마크의 한계를 극복하고 모델의 지능을 평가하기 위해 예산 제약 하의 상호작용 과정을 통해 추론 능력을 측정하는 '인터랙티브 벤치마크' 프레임워크를 제안하고, 이를 논리·수학 증명 및 전략적 게임 환경에서 검증하여 상호작용 시나리오에서의 개선 여지가 여전히 크다는 것을 보여줍니다.
이 논문은 기존 벤치마크의 한계를 극복하고 모델 정렬에 필수적인 리스트와이즈 평가 패러다임을 도입한 포괄적인 메타 평가 벤치마크 'IF-RewardBench'를 제안하여, 현재 지시 따르기 평가용 저지 모델들의 결함을 드러내고 하류 작업 성능과의 높은 상관관계를 입증했습니다.
이 논문은 R 통계 생태계의 데이터 분포 정보를 함수 표현에 통합한 경량 검색 모델 DARE 와 이를 활용한 R 코딩 에이전트 RCodingAgent 를 제안하여, 기존 LLM 에이전트의 통계적 지식 부족과 도구 검색의 한계를 극복하고 R 패키지 검색 및 코드 생성 성능을 획기적으로 향상시켰습니다.
이 논문은 예산과 다양성 같은 제약 조건을 가진 장거리 여행 계획 문제를 해결하기 위해, 전략적 조정과 병렬 실행을 결합하고 거래형 모니터링 및 협상 프로토콜을 통해 제약 준수를 보장하는 계층적 다중 에이전트 프레임워크 'HiMAP-Travel'을 제안하며, TravelPlanner 벤치마크에서 기존 Sequential 기반 방법론들을 크게 능가하는 성능을 입증합니다.
이 논문은 동일한 LLM 레이어를 기반으로 하단 모델이 긴 입력을 다중 그레인 표현으로 압축하고 상단 모델이 이를 복원하는 '자기 주입 (self-injection)' 아키텍처를 제안함으로써, 기존 모델의 제한된 컨텍스트 창을 효율적으로 확장하면서도 메모리 사용량과 추론 지연을 획기적으로 줄이는 방법을 제시합니다.
이 논문은 Mixture-of-Experts(MoE) 와 Low-Rank Adaptation(LoRA) 을 결합하고 전문가 인식 부정 샘플링 (EANS) 전략을 도입하여 작업 간 충돌을 해소하고 범용 멀티모달 임베딩의 태스크 스케일링을 가능하게 하는 TSEmbed 프레임워크를 제안하며, 이를 통해 MMEB 벤치마크 및 실제 산업 데이터에서 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 AI Flow 패러다임과 엣지 - 클라우드 협업 아키텍처를 활용하여 원본 이미지의 수학적 복원을 방지하면서도 동적 윤곽 시각 언어를 통해 의미 있는 행동 인식과 시각적 참조를 가능하게 하는 새로운 프라이버시 보호 감시 프레임워크를 제안합니다.
이 논문은 다중 턱 상호작용에서 이전 추론에 과도하게 집착하는 '맥락 관성' 문제를 해결하기 위해, 모델의 단일 턱 능력을 안정적 기준점으로 활용하는 강화 학습 기법인 RLSTA 를 제안하여 다양한 도메인에서 성능을 획기적으로 개선함을 보여줍니다.
이 논문은 대규모 언어 모델 (LLM) 을 활용한 의미 필터링의 선형적 호출 한계를 극복하기 위해, 튜플을 의미 클러스터로 그룹화하고 샘플링 및 투표 전략을 통해 LLM 호출 횟수를 부분 선형 복잡도로 획기적으로 줄이면서도 정확도를 유지하는 '클러스터링 - 샘플링 - 투표 (CSV)' 프레임워크를 제안합니다.
이 논문은 대규모 언어 모델의 위치 인코딩을 의미 임베딩과 분리하여 '주의 중력장 (AGF)' 개념을 도입함으로써 뉴턴의 만유인력 법칙과 일치하는 이론적 틀을 제시하고 모델 최적화 및 해석 가능성 향상을 도모합니다.
이 논문은 장문맥 LLM 과 사실 기반 메모리 시스템 (Mem0) 을 정확도와 비용 측면에서 비교 분석하여, 대화 길이가 길어질수록 메모리 시스템이 비용 효율성이 높아진다는 결론을 도출하고 생산 환경에서의 최적 아키텍처 선택 기준을 제시합니다.
이 논문은 890 개의 결과를 메타 분석하여 단답형 채점에서 LLM 의 성능이 인간 전문가의 난이도 인식과 무관하며, 디코더 전용 아키텍처가 인코더보다 현저히 낮고 토크나이저 어휘 크기 증가에도 한계가 있으며, 고위험 교육 맥락에서 인종 차별적 편향이 발생할 수 있음을 규명했습니다.
이 논문은 사전 학습 데이터의 학습 과정에서 나타나는 경사도 변화 패턴 (크기, 위치, 활성화 집중도) 을 분석하여 저작권 문제와 벤치마크 오염을 해결하는 새로운 데이터 탐지 방법인 GDS 를 제안하고, 기존 방법보다 뛰어난 성능과 전이성을 입증합니다.