ConLID: Supervised Contrastive Learning for Low-Resource Language Identification
この論文は、単一ドメインデータに依存する低資源言語の言語識別性能を向上させるため、ドメイン不変な表現を学習する教師付き対照学習アプローチ「ConLID」を提案し、低資源言語におけるアウトオブドメインデータでの性能を 3.2 ポイント向上させたことを示しています。
2137 件の論文
この論文は、単一ドメインデータに依存する低資源言語の言語識別性能を向上させるため、ドメイン不変な表現を学習する教師付き対照学習アプローチ「ConLID」を提案し、低資源言語におけるアウトオブドメインデータでの性能を 3.2 ポイント向上させたことを示しています。
この論文は、結晶学における質問応答タスクにおいて、LLM および MLLM が専門的な文脈情報をどのように活用するかを評価するための包括的なベンチマークフレームワーク「OPENXRD」を提案し、中規模モデルが文脈情報から最も恩恵を受けること、また AI 生成ではなく専門家による高品質な資料が性能向上に不可欠であることを実証しています。
この論文は、数学的発見の本質を既存の語彙内での探索ではなく「明示的概念の創出」に求め、現在の AI が達成した暗黙的概念形成の限界を指摘しつつ、機械による明示的概念の創出がもたらす可能性と人間との計算的トレードオフによる数学スタイルの差異を論じています。
この論文は、ロボットや人間など異なるエンボディメントからのデータを光フローを用いて事前学習した世界モデルと価値関数を活用し、ターゲットとなるロボットの実証データのみで微調整を行う「潜在ポリシー・ステアリング(LPS)」手法を提案し、低データ量環境でもビヘイビア・クローンベースの視覚運動ポリシーを大幅に改善することを示しています。
この論文は、視覚的シーングラフとテキスト知識グラフをスペクトラルクラスタリングを用いた「SpecLink」で統合し、複雑なマルチモーダル環境におけるエンティティ整合を目的とした「CMEL」データセットを公開することで、大規模言語モデルの幻覚を軽減し最先端のパフォーマンスを実現する「MMGraphRAG」という新しいフレームワークを提案しています。
この論文は、LLM エージェントを用いて米中間の世論形成をシミュレーションし、事実の抽出、対立視点の提示、反事実的曝露という 3 つのバイアス除去メカニズムを評価した結果、対立視点の提示が最も効果的であり、モデルの地理的起源に依存する内在的バイアスが確認されたことを示しています。
この論文は、ソースデータや画像合成を必要とせず、中立表情のみを含むターゲットデータを用いて事前学習済みモデルを個人ごとに適応させる軽量な潜在空間ベースの手法「SFDA-PFT」を提案し、プライバシーに配慮した表情認識タスクにおいて最先端の性能を達成することを示しています。
本論文は、日常活動に限定された既存のベンチマークの限界を克服し、手術、産業、極限スポーツ、動物視点など多様なドメインにまたがる egocentric 動画の質問応答におけるマルチモーダル大規模言語モデルのドメイン横断一般化能力を評価するための包括的なベンチマーク「EgoCross」を提案し、既存モデルの限界と改善の可能性を示したものです。
この論文は、テキスト形式のシラバスが学生に十分に理解されないという課題に対し、AI 生成音楽と仮想アバターを用いてシラバスを歌って提示する新しい手法を提案し、学生の関心と情報定着率を向上させたことを報告しています。
本論文は、BERT ベースのモデルの推論能力の限界と大規模言語モデル(LLM)の実用課題を克服するため、CoT による推論の注入、DPO による生成品質の向上、GRPO による幻覚の抑制、および効率的なオンライン展開を可能にする 3 段階のフレームワーク「TaoSR1」を提案し、EC 検索における商品関連性予測の性能を大幅に向上させたことを示しています。
この論文は、生成エージェントと仮想民族誌的手法を統合し、研究者を外部操作者から没入型参加者へと転換させることで、複雑な社会現象のシミュレーションと因果的な介入分析を可能にする計算的多エージェント社会実験フレームワーク「CMASE」を提案しています。
この論文は、大規模なドメイン固有データへの依存を大幅に削減しつつ、クロスモーダル知識グラフと専用物体検出モデルを統合することで、Minecraft 環境における高品質なエージェント構築を実現するコスト効率の高いフレームワーク「VistaWise」を提案しています。
この論文は、推論コストの増大や精度低下を招く過剰な Chain-of-Thought を回避するため、事前出力に基づいて動的に閾値を調整し推論を圧縮する適応型フレームワーク「SEER」を提案し、コード生成や数学タスクにおいて推論効率と精度の両立を実現することを示しています。
本論文は、ビデオ条件付き音声生成(Video-to-Sound)と視覚テキスト音声合成(VisualTTS)という従来別個のタスクを、ディテトランス(DiT)アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。
この論文は、多様な歪みから 48kHz の高品質な音声を一ステップで復元する汎用音声復元モデル「VoiceBridge」を提案し、エネルギー保存型 VAE、結合型ニューラル事前分布、および生成器への転換を可能にする橋渡し学習手法によって、蒸留なしで高性能な音声復元を実現することを示しています。
本論文は、視覚的手がかりと環境音の両方を用いた動画のユーモア理解を評価するための新しいベンチマーク「v-HUB」を提案し、マルチモーダル大規模言語モデルの現状の課題と音声モダリティの重要性を実証しています。
音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。
本論文は、複雑な問題解決における推論能力の限界と検証の信頼性という 2 つのボトルネックを解決するため、構造化されたツール呼び出し、ターンレベルの強化学習、そして検証と長期記憶を組み合わせた進化ループを統合した「AlphaApollo」という自律的推論システムを提案し、複数の数学推論ベンチマークで顕著な性能向上を実証しています。
本論文は、ナビゲーションエージェントの空間知能を体系的に評価する新しいベンチマーク「NavSpace」と、それにおいて既存モデルを上回る性能を示す新しいナビゲーションモデル「SNav」を提案するものである。
本論文は、視覚的推論を検証可能な記号問題へと変換し、チャートや図表などの構造化された視覚データに対する推論精度を飛躍的に向上させるために、視覚を可実行コードへ逆変換する「デレンダリング」を活用した新しいエージェントフレームワーク「RECODE」を提案するものです。