Latent Speech-Text Transformer
音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。
2316 件の論文
音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。
本論文は、複雑な問題解決における推論能力の限界と検証の信頼性という 2 つのボトルネックを解決するため、構造化されたツール呼び出し、ターンレベルの強化学習、そして検証と長期記憶を組み合わせた進化ループを統合した「AlphaApollo」という自律的推論システムを提案し、複数の数学推論ベンチマークで顕著な性能向上を実証しています。
本論文は、LiDAR 3D セマンティックセグメンテーションにおけるドメイン一般化と不完全ラベルという未解決課題に焦点を当て、既存手法の限界を克服し、信頼性に基づく双視点フレームワーク「DuNe」を提案することで、複数のデータセットにおいて最先端の性能を達成したことを報告しています。
本論文は、視覚的推論を検証可能な記号問題へと変換し、チャートや図表などの構造化された視覚データに対する推論精度を飛躍的に向上させるために、視覚を可実行コードへ逆変換する「デレンダリング」を活用した新しいエージェントフレームワーク「RECODE」を提案するものです。
本論文は、生成タスクにおいて従来のエキスパートマージ手法よりも優位性を示し、ルーターゲート値とエキスパート活性化ノルムを考慮した新たな剪定基準「REAP」を提案することで、大規模なSMoEモデルの50% 剪定においてもコード生成などのタスクでほぼ損失のない圧縮を実現することを明らかにしています。
本論文は、拡散ビジョモーターポリシーを基盤とした実世界強化学習フレームワーク「RL-100」を提案し、模倣学習と強化学習を統合して 1000 回の試行で 100% の成功率を達成し、人間を超える性能と高い汎用性・頑健性を示したことを報告しています。
この論文は、検証可能な答えを持たないタスクにおける推論過程を潜在変数として扱うことで Bradley-Terry 尤度の構造が変化するという課題を解決し、一貫性のあるモンテカルロ推定量を用いた Bradley-Terry 方策最適化(BTPO)を提案することで、連鎖思考(CoT)を含む生成型選好モデルの安定した学習を実現したことを示しています。
この論文は、エージェント間の異質性レベルを事前に知らずに、環境や目的関数の多様性に応じて協調学習の利点を自動的に調整し、独立学習に対して最大で線形加速を実現する新しいパーソナライズド協調学習フレームワーク「AffPCL」を提案し、その理論的保証を示すものである。
本論文は、2D エンコーダの限界を克服し、RGB 画像から強力な 3D 幾何学的事前知識を抽出してアクションヘッドに注入する新たなパラダイム「FALCON」を提案し、シミュレーションおよび実世界タスクにおいて最先端の性能と高い汎用性を達成したことを報告しています。
この論文は、グラフ基礎モデルの発展に伴い未探索であったグラフドメイン逐次学習(Domain-IL)における catastrophic forgetting を、埋め込みのシフトと決定境界の逸脱を防ぐための知識の解離と保存を可能にする「GraphKeeper」を提案し、既存手法を大幅に上回る性能で達成したことを示しています。
この論文は、構造化正則化、ロバストな前処理、効率的な最適化を通じて過学習を抑制し、多クラス分類におけるロジスティック回帰に基づく再較正手法のバイアス・バリアンスのトレードオフを効果的に管理することで、既存の手法よりも大幅な精度向上を実現する手法を提案し、オープンソース実装を提供しています。
本論文は、時間系列基盤モデルのデータ価値評価において、従来の手法が抱える計算コストと時系列依存性の課題を解決するため、コンテキスト微調整と時間ブロック集約を活用した軽量かつ高精度な評価手法「LTSV」を提案し、その有効性を検証したものである。
この論文は、事前学習済み時系列基盤モデル(TSFM)のインコンテキスト学習を活用し、微調整や従来の分類モデルの学習なしにサーボプレスモータのベアリング振動データを健康状態ごとに分類する手法を提案し、従来のカスタム AI 解決策を超えたスケーラブルな予知保全システムの実現可能性を示しています。
この論文は、推論と学習を分離し、オフポリシーバイアスなしで同期 RL と等価な非同期パイプラインを実現する「Periodic Asynchrony」を提案し、NPU 環境において既存フレームワークの 3〜5 倍のトレーニングスループット向上を達成したことを示しています。
本論文は、EFISH 法に基づく放電中の電界プロファイル再構成のために、従来の ANN や CNN を凌駕する汎用性と精度を有し、不完全な入力データにも頑健な新しい「デコーダー型 DeepONet(DDON)」という解釈可能なオペレーター学習モデルを提案し、その有効性をシミュレーションおよび実験データで実証したものである。
この論文は、教育分野の専門用語の曖昧さを解消し事実性を高めるため、エンティティリンキングとハイブリッド再ランク付けを統合した「ELERAG」と呼ばれる新しい RAG アーキテクチャを提案し、ドメイン固有のデータセットにおいて従来の手法を上回る性能を実証したものである。
本論文は、階層的構造セマンティクスの不足を解消し、ドメインノイズや敵対的攻撃に対する堅牢性を向上させるため、構造認識セマンティック拡張、情報ボトルネック、およびエキスパート適応ルーティングを組み合わせた新しいグラフ基礎モデル「SA²GFM」を提案し、ノードおよびグラフ分類タスクにおいて既存の最先端手法を上回る性能を実証しています。
本論文は、RL におけるサンプルの難易度事前分布を活用してヒントの比率を適応的に調整し、勾配変調とロールアウト難易度事後分布に基づく優位性推定を導入することで、探索と模倣のバランスを最適化し、推論能力と分布外汎化性能を大幅に向上させる「ADHint」という新しい手法を提案しています。
この論文は、埋め込みノルムの膨張が複雑なプロンプトの失敗原因であることを特定し、方向のみを最適化する「方向性テキスト反転(DTI)」を提案することで、テキスト忠実性と被写体類似性を両立させ、学習済み概念間の滑らかな補間を可能にする個人化テキスト生成手法を開発したことを示しています。
本研究は、高密度筋電図を用いた多自由度指運動の連続解読において、空間記述子に基づく手法が従来の時間領域特徴量と比べて統計的に有意な精度向上をもたらさなかったものの、次元削減手法より優れており、高密度筋電図の空間分解能を維持することが重要であることを示した。