MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining
이 논문은 영어 데이터의 품질 신호를 17 개 언어로 확장하여 다국어 대규모 언어 모델의 사전 학습을 위한 고품질 데이터를 선별하는 확장 가능한 프레임워크인 'MuRating'을 제안하고, 이를 통해 영어 및 다국어 벤치마크에서 성능을 크게 향상시킨다는 것을 보여줍니다.
1077 편의 논문
이 논문은 영어 데이터의 품질 신호를 17 개 언어로 확장하여 다국어 대규모 언어 모델의 사전 학습을 위한 고품질 데이터를 선별하는 확장 가능한 프레임워크인 'MuRating'을 제안하고, 이를 통해 영어 및 다국어 벤치마크에서 성능을 크게 향상시킨다는 것을 보여줍니다.
이 논문은 저자원 다국어 환경에서 다양한 모델과 태스크를 포괄적으로 평가할 수 있는 오픈소스 통합 프레임워크인 'Eka-Eval'을 제안하며, 기존 벤치마크 대비 2 배 이상의 사용성 향상과 높은 사용자 만족도를 입증합니다.
이 논문은 복잡한 시각적 추론 능력을 평가하기 위한 'TreeBench' 벤치마크와 강화 학습 기반의 'TreeVGR' 학습 패러다임을 제안하여, 추적 가능한 증거를 통한 시각적 추론의 정확성과 설명 가능성을 크게 향상시켰음을 보여줍니다.
이 논문은 말과 노래 음성을 통합적으로 생성하고 제어할 수 있는 'Vevo2' 프레임워크를 제안하며, 두 가지 통합 오디오 토크나이저와 새로운 학습 전략을 통해 데이터 부족 문제를 해결하고 다양한 음성 생성 및 편집 작업에서 뛰어난 일반화 능력을 입증했습니다.
이 논문은 양자화가 모델의 독성 감소에는 기여하지만, 특히 공격적인 압축 시 편견과 불공정성을 약간 증가시킬 수 있음을 다양한 벤치마크와 하위 그룹을 통해 분석하며, 효율성과 윤리적 고려 사항 간의 균형을 강조합니다.
이 논문은 자동 음성 인식 (ASR) 에서 지식 전이를 위해 음향 및 언어 표현 간의 정렬을 검출 문제로 재해석하고, 불균형 최적 수송을 기반으로 한 새로운 정렬 모델을 제안하여 구조적 비대칭성과 불일치를 효과적으로 처리함으로써 ASR 성능을 향상시킨다는 것을 보여줍니다.
이 논문은 제한된 컴퓨팅 자원으로도 베트남어-영어 코드스위칭 음성 인식 성능을 획기적으로 향상시키는 효율적인 2 단계 음소 중심 아키텍처 (TSPC) 를 제안하고, 기존 베이스라인 대비 낮은 단어 오류율을 달성했음을 입증합니다.
이 연구는 소셜 미디어 데이터를 활용해 양극성 장애 환자의 진단 시점과 관련된 광범위한 언어적 변화를 분석하고, 진단 후 기분 증상의 12 개월 주기적 변동을 규명함으로써 전통적인 정신의학 코호트 연구를 보완할 수 있음을 보여줍니다.
이 논문은 RVQ 기반 오디오 토큰을 단일 시퀀스로 평탄화하여 단일 트랜스포머 디코더로 모델링하는 'Llama-Mimi'를 제안함으로써, 계층적 아키텍처보다 대부분의 작업에서 우수한 성능과 최고의 음향 일관성을 달성했음을 보여줍니다.
이 논문은 대화형 음성 입력의 불유창성을 처리하는 과정에서 기존 LLM 기반 SpeechLLM 이 구조적 충실도보다 의미 추상화를 선호하여 성능이 저하됨을 규명하고, 미세조정만으로는 일반화 한계가 있음을 보여줍니다.
이 논문은 훈련 데이터 오염 문제를 해결하고 언어 모델의 진정한 추론 능력을 평가하기 위해, 10^15 개 이상의 고유한 알고리즘 문제 인스턴스를 동적으로 생성하여 검증 가능한 해답을 제공하는 'BeyondBench' 평가 프레임워크를 제안하고 다양한 모델에 대한 실험 결과를 제시합니다.
이 논문은 무작위 하다마드 변환, 2 차원 양자화, 확률적 반올림, 선택적 고정밀 계층 등을 결합한 새로운 NVFP4 기반 학습 기법을 제안하여, 120 억 파라미터 모델을 10 조 개의 토큰으로 학습시켜 FP8 기준과 비교 가능한 성능을 달성하면서도 4 비트 정밀도 학습의 안정성과 효율성을 입증했습니다.
이 논문은 사용자 선호도를 사전에 알 수 없는 상황에서 LLM 이 능동적으로 질문을 통해 개인적 맥락을 파악하고 추론을 조정하는 '개인화 추론'의 중요성을 강조하며, 이를 평가하기 위한 새로운 벤치마크 'PrefDisco'와 정렬 지표 'PrefAlign'을 제안하고, 기존 모델들이 이러한 능력을 자연스럽게 습득하지 못한다는 사실을 규명했습니다.
이 논문은 LLM 의 환각 문제와 데이터 관계 모델링 부재를 해결하기 위해 지식 그래프 기반의 구조화된 작업 공간을 활용하여 일관성과 해결 가능성이 높은 멀티모달 에이전트 평가 태스크를 자동 생성하는 'Graph2Eval' 프레임워크와 이를 검증한 벤치마크를 제안합니다.
이 논문은 기존 접두사 기반 방식의 한계를 극복하고, 지식 그래프의 구조를 명시적인 메모리 토큰으로 인코딩하여 LLM 의 여러 레이어에 심층적으로 융합하는 '그래프-메모리 튜닝 (GMT)'을 제안함으로써 지식 그래프 완성을 위한 추론 능력을 획기적으로 향상시킵니다.
이 논문은 기존 벤치마크의 한계를 극복하기 위해 실제 LLM-사용자 대화에서 추출한 최초의 허위 정보 탐지 벤치마크 'AuthenHallu'를 소개하고, 실제 대화에서 허위 정보가 빈번하게 발생하며 기존 LLM 기반 탐지기의 성능이 아직 부족함을 규명합니다.
이 논문은 좁은 도메인 파인튜닝이 LLM 의 활성화에 해당 도메인의 특성을 명확히 반영하는 편향을 남기며, 이를 분석하면 파인튜닝된 내용을 복원하거나 모델을 이해하는 데 활용할 수 있음을 다양한 아키텍처와 규모에서 입증하고, 이러한 현상이 AI 안전 및 해석 가능성 연구에 중요한 시사점을 준다고 주장합니다.
이 논문은 전역적 맥락과 객체 간 상호작용을 고려하여 정밀한 영역 이해와 복합적 추론을 가능하게 하는 'Grasp Any Region(GAR)' 모델과 이를 평가하는 벤치마크를 제안하며, 기존 모델들을 능가하는 성능을 입증합니다.
본 논문은 언어적 내용과 비언어적 음성 단서를 통합적으로 이해하고 공감하는 능력을 평가하기 위해 고안된 최초의 다단계 벤치마크 'EchoMind'를 제안하고, 이를 통해 최신 음성 언어 모델들이 여전히 높은 표현력의 음성 단서를 처리하고 공감적 응답을 생성하는 데 어려움을 겪고 있음을 규명합니다.
이 논문은 7 세기부터 2025 년까지 1,300 년의 역사와 6 개 언어를 아우르는 1770 만 건의 공개 도메인 텍스트로 구성된 '오픈 한국어 역사 코퍼스 (Open Korean Historical Corpus)'를 소개하고, 이를 통해 한국어의 문자 체계 변화와 어휘적 분화 등 주요 언어학적 변천을 정량적으로 분석하여 대규모 언어 모델 학습을 위한 기초 자원을 마련했다는 점을 강조합니다.