Optimizing Language Models for Crosslingual Knowledge Consistency
本論文は、強化学習に基づく新しい手法「Direct Consistency Optimization(DCO)」を提案し、報酬モデルを必要とせずに大規模言語モデルの多言語間における知識の一貫性を大幅に向上させることを示しています。
1111 件の論文
本論文は、強化学習に基づく新しい手法「Direct Consistency Optimization(DCO)」を提案し、報酬モデルを必要とせずに大規模言語モデルの多言語間における知識の一貫性を大幅に向上させることを示しています。
この論文は、ストップワードの頻度分布が Zipf の法則ではなく Beta ランク関数に従うことを発見し、順位に基づく確率的な選択モデルを提案することで、ストップワードの分布特性と非ストップワードの二次関数的な適合性を理論的に説明しています。
この論文は、データ拡張や特徴量強化の手法を従来の分類器や大規模言語モデルに適用してヘイトスピーチ検出を評価し、特にオープンソースの gpt-oss-20b が最高性能を示す一方で、手法の効果がデータセットやモデルとの相互作用に依存し、暗黙的なヘイトスピーチの検出がより困難であることを明らかにしています。
本論文は、大規模言語モデル(LLM)が、特に複雑な多クラス分類タスクにおいて、従来の機械学習手法やBERTを上回る性能でオンライン市場の違法コンテンツ検出に有効であることを、DUTA10Kデータセットを用いた実験を通じて実証している。
この論文は、米国最高裁の口頭弁論記録を用いて、AI モデルが模擬裁判における裁判官の質問をシミュレーションできるかを検証し、人間評価と代理指標を組み合わせた二層評価フレームワークにより、生成された質問は現実的かつ実質的な法的論点を捉える一方で、多様性の欠如や同調性といった課題が残っていることを明らかにしています。
この論文は、AI モデルを生物学的な有機体と見なし、その構造や動態を医学的アプローチで理解・診断・治療する新たな研究分野「モデル・メディシン」を提唱し、そのための体系的分類、行動遺伝学モデル、診断ツール、および臨床フレームワークを包括的に提示しています。
本論文は、Gemini Deep Think と木探索フレームワークを統合したニューロシンボリックシステムを用いて、宇宙ひもからの重力放射のパワースペクトルに関する未解決問題に対し、数値的フィードバックを駆使して Gegenbauer 多項式展開による厳密な解析解を導出したことを報告するものである。
この論文は、飽和や主観性などの問題を抱える従来のベンチマークに代わり、予算制約下での対話的プロセスを通じてモデルの推論能力を評価する「Interactive Benchmarks」という新たな枠組みを提案し、論理・数学の証明や戦略的ゲームにおける実験を通じて、対話的シナリオにおけるモデルの知能評価の重要性と改善余地を明らかにしています。
この論文は、既存の評価手法の限界を克服し、複数の回答をリスト形式で評価する新たなメタ評価ベンチマーク「IF-RewardBench」を提案し、それが下流タスクのパフォーマンスとより強い相関を示すことを実証しています。
この論文は、統計的データ分布情報を関数メタデータと融合させる軽量な検索モデル「DARE」と大規模な R パッケージ知識ベース「RPKB」を提案し、R 生態系における LLM エージェントのコード生成精度と統計分析タスクの成功率を大幅に向上させることを示しています。
本論文は、長期的な旅行計画における制約条件の遵守と並列実行を可能にする階層型マルチエージェントフレームワーク「HiMAP-Travel」を提案し、TravelPlanner ベンチマークにおいて既存の手法を大幅に上回る性能を達成したことを示しています。
本論文は、単一の LLM レイヤーを圧縮器とデコーダーとしてスタックし、マルチスケールの自己注入と木構造に基づく効率的な情報取得を実現することで、8K トークンの学習データから 128K トークンを超える長文脈を高精度かつ高効率に処理する新たなフレームワーク「SharedLLM」を提案しています。
本論文は、マルチモーダル大規模言語モデルを汎用埋め込みモデルへ適応させる際に生じるタスク間の競合を、専門家の混合(MoE)と低ランク適応(LoRA)の組み合わせ、および専門家の活性化パターンを利用した新しい負のサンプリング手法(EANS)によって解決し、MMEB ベンチマークおよび実世界の産業データセットにおいて最先端の性能を達成する TSEmbed というフレームワークを提案しています。
本論文は、エッジデバイスで生画像を数学的に不可逆な抽象特徴ベクトルに変換し、クラウドで動的輪郭言語を用いて行動認識と意味的再構成を行う「AI Flow」パラダイムに基づく新たなプライバシー保護知覚フレームワーク「Privacy-Aware Camera 2.0」を提案し、プライバシー保護と証拠能力の両立を実現するものである。
本論文は、LLM が多ターン対話で過去の推論に固執する「文脈的慣性」の問題を、単一ターンでの優れた推論能力を報酬の基準(アンカー)として活用する強化学習手法「RLSTA」により解決し、外部検証器なしでも安定した対話と分野横断的な汎化性能を実現することを提案しています。
本論文は、大規模言語モデル(LLM)を用いた意味フィルタリングにおける逐次評価の非効率性を克服するため、クラスタリング・サンプリング・投票(CSV)という新しいフレームワークを提案し、LLM 呼び出し回数を部分線形に削減しながら高い精度を維持する手法を確立したものである。
本論文は、大規模言語モデルにおける位置関係の符号化とセマンティック埋め込みを分離し、ニュートンの万有引力の法則と実証的に整合する「アテンション重力場(AGF)」という概念を導入することで、モデルの最適化と解釈可能性の向上を実現したことを示しています。
本論文は、長文脈 LLM と Mem0 などの事実ベースの記憶システムを比較し、長文脈モデルは事実想起で優位だが、記憶システムはペルソナ一貫性で競争力があり、かつ対話回数が一定を超えるとコスト面で優位になるという精度とコストのトレードオフを明らかにした。
本論文は、890 の研究結果をメタ分析し、自動短回答採点における LLM の限界(難易度との非相関、デコーダ型とエンコーダ型の性能差、トークナイザーの限界、および教育現場における人種的バイアスなど)を明らかにし、より適切なシステム設計の必要性を提言するものである。
本論文は、LLM の学習過程における「未知から既知」への遷移に伴う勾配挙動の系統的差異に着目し、FFN や Attention モジュールにおける勾配プロファイルに基づく軽量分類器「GDS」を提案することで、既存手法の限界を克服し、高い転移性と性能を実現する事前学習データ検出手法を開発した。