MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining
本論文は、高品質な英語データの評価信号を単一の評価器に統合し翻訳を通じて多言語データに転送する「MuRating」フレームワークを提案し、これにより多言語大規模言語モデルの事前学習におけるデータ選択の精度と性能を大幅に向上させることを示しています。
1077 件の論文
本論文は、高品質な英語データの評価信号を単一の評価器に統合し翻訳を通じて多言語データに転送する「MuRating」フレームワークを提案し、これにより多言語大規模言語モデルの事前学習におけるデータ選択の精度と性能を大幅に向上させることを示しています。
本論文は、低リソース言語を含む多言語大規模言語モデルの評価を可能にする、モジュール式でオープンソースの包括的なフレームワーク「EKA-EVAL」を提案し、既存の手法と比較して優れた使いやすさと再現性を示したことを述べています。
本論文は、複雑な視覚的推論を包括的に評価する新たなベンチマーク「TreeBench」を提案し、その課題を克服するために強化学習を用いて局所化と推論を同時に監督するトレーニング手法「TreeVGR」を開発し、最先端モデルの性能向上を実証しています。
この論文は、話者と歌唱の両方に対応し、プロソディやスタイル、音色を柔軟に制御可能な音声生成のための統合フレームワーク「Vevo2」を提案し、その有効性と汎用性を示したものである。
本論文は、大規模言語モデルの量子化が効率化と倫理的配慮のバランスをどう左右するかを多角的に検証し、毒性の低減やセンチメントへの影響のなさといった利点がある一方で、特に激しい圧縮下ではステレオタイプや不公平性がわずかに増大する傾向があることを明らかにしています。
本論文は、音声認識における知識転移の課題である音響表現と言語表現の非対称なアライメントを「検出問題」として捉え、分布の不一致と構造的な非対称性を明示的に処理する非平衡最適輸送に基づくアライメントモデルを提案し、CTC ベースのシステムにおける性能向上を実証したものである。
本論文は、限られた計算資源下でもベトナム語と英語のコードスイッチング音声認識において、PhoWhisper-base などの既存手法を上回る Word Error Rate 19.06% を達成する、拡張ベトナム語音素セットを中間表現とする効率的な 2 段階音素中心アーキテクチャ「TSPC」を提案するものである。
この論文は、ソーシャルメディアの言語データを用いた大規模な縦断研究により、双極性障害の診断前後における言語的変化や季節的な気分変動の周期性を明らかにし、これが従来の精神科コホート研究を補完する価値があることを示しています。
本論文は、Mimi 音声コーデックが生成する多レベルの RVQ トークンを単一シーケンスに平坦化し、単一のトランスフォーマーで自己回帰的にモデル化する「Llama-Mimi」を提案し、階層的モデルを上回る性能と優れた音響的一貫性を達成したことを示しています。
本研究は、LLM を基盤とする音声モデルが自然な会話の流暢性を欠く入力に対して構造的忠実度よりも意味の抽象化を優先する傾向があり、特に推論モデルが過剰な削除を行うことを示し、音声に対する頑健性が特定の学習目的によって形成されることを明らかにしています。
この論文は、トレーニングデータによる汚染を防ぎつつ言語モデルの推論能力を公平に評価するため、アルゴリズム的に動的に生成される数学的基盤を持つ問題セット「BeyondBench」を提案し、101 種類のモデルを対象とした評価を通じて複雑度の上昇に伴う推論能力の限界とツールの有用性を明らかにしたものである。
本論文は、ランダム・アダマール変換や確率的丸めなどの手法を組み合わせることで、120 億パラメータモデルを 10 兆トークンで NVFP4 精度で安定して学習させ、FP8 ベースラインと同等の性能を達成する新しいアプローチを提案し、大規模言語モデルの学習効率向上に貢献することを示しています。
本論文は、LLM がユーザーの個人差や文脈を自発的に特定し、それに応じて推論プロセスを適応させる「パーソナライズド推論」の必要性を指摘し、心理学的根拠に基づくペルソナを用いた対話型評価手法「PrefDisco」と、それに基づく微細なアライメント指標「PrefAlign」を提案することで、教育や医療など個人化が不可欠な分野におけるシステム開発の基盤を提供するものです。
本論文は、大規模言語モデルのハルシネーションやデータ間の関係性の欠如といった課題を解決するため、外部データソースから構築した知識グラフを活用して、意味的一貫性と解決可能性に優れたマルチモーダルエージェントタスクを自動生成するフレームワーク「Graph2Eval」およびその評価ベンチマーク「Graph2Eval-Bench」を提案し、既存手法よりもタスクの質とエージェント性能の識別力を大幅に向上させることを示しています。
本論文は、知識グラフを大規模言語モデルに統合する際、従来のプレフィックス結合の限界を克服し、局所的なグラフ構造を明示的な「グラフメモリ」として表現し、トランスフォーマー層におけるクロスアテンションを通じて生成時に微細な証拠を動的に検索可能にする「Graph-as-Memory Tuning (GMT)」という新しいパラダイムを提案し、知識グラフ補完タスクにおいて顕著な性能向上を実現したことを示しています。
本論文は、医療や法分野など実世界での利用が増える大規模言語モデル(LLM)の幻覚を検出するため、人工的なベンチマークではなく実際の LLM と人間の対話から構築された初のベンチマーク「AuthenHallu」を提案し、その中で幻覚が 31.4%(数学分野では 60.0%)発生していることと、既存の LLM による検出が実用レベルに達していないことを明らかにしています。
本論文は、狭いドメインでのファインチューニングがモデルの活性化値に明確なバイアスを残し、これを用いてファインチューニングの内容を解釈できることを示すとともに、そのバイアスが過学習に起因する可能性や、AI 安全性研究における狭いドメインモデルの代理利用の限界を指摘しています。
本論文は、従来の領域理解が欠落していたグローバルな文脈と複数領域間の相互作用を統合し、任意の領域に対する精密な知覚と高度な推論を可能にする「Grasp Any Region (GAR)」モデルと、その評価ベンチマーク「GAR-Bench」を提案し、小規模モデルでも大規模モデルや動画領域に特化したモデルを上回る性能を実証したものである。
本論文は、言語内容と非言語的な音声手掛かりの統合を評価する初の多段階ベンチマーク「EchoMind」を提案し、最先端の音声言語モデルが高度な表現力を持つ音声手掛かりの理解や共感的な応答生成において依然として課題を抱えていることを明らかにしています。
本論文は、7 世紀から 2025 年までの 1,300 年間にわたる 6 言語・19 種類のソースからなる大規模な公開ドメインテキスト「Open Korean Historical Corpus」を構築し、これを用いてハングルへの移行や北朝鮮の語彙の分岐など、韓国語の歴史的変遷を定量的に分析するとともに、大規模言語モデルの事前学習に資する基盤リソースを提供するものである。