Pure Exploration with Infinite Answers
この論文は、正解の集合が無限になり得る純粋探索問題に対して、既存手法の限界を明らかにし、漸近最適性を保証する新たなフレームワーク「Sticky-Sequence Track-and-Stop」を提案するものである。
4885 件の論文
この論文は、正解の集合が無限になり得る純粋探索問題に対して、既存手法の限界を明らかにし、漸近最適性を保証する新たなフレームワーク「Sticky-Sequence Track-and-Stop」を提案するものである。
この論文は、大規模言語モデル(LLM)の事前学習で得られた知識を活用し、メタ学習と signSGD を組み合わせて多様なドメインにまたがる時系列データの品質を効率的かつ高精度に評価する新しいフレームワーク「TSRating」を提案し、その有効性を検証したものです。
本論文は、協力型マルチエージェント強化学習におけるクレジット割り当て問題に対し、協力ゲーム理論の「コア」に基づく利得配分手法 CORA を提案し、エージェント間の連合貢献を適切に評価することで協調的な最適行動を促進し、既存手法を上回る性能を実現することを示しています。
この論文は、単一エージェントおよび連合強化学習において、線形なバーンインコストと対数的なポリシー切り替え・通信コストを達成しつつ、既知のモデルフリー手法の中で最良に近い最適後悔を達成する、2 つの新しいモデルフリーアルゴリズム(Q-EarlySettled-LowCost および FedQ-EarlySettled-LowCost)を提案し、その理論的保証を示すものである。
この論文は、現実世界の多変量時系列データが抱えるチャネル間の依存関係、非同期サンプリング、欠損値という 3 つの課題を同時に解決し、堅牢な予測を実現するために、Transformer ベースの「ChannelTokenFormer」という新しいフレームワークを提案し、その有効性を実証したものである。
この論文は、Wavelet 散乱変換またはフーリエ変換を用いてローカルで計算された圧縮表現に基づき、トレーニング前に悪意のあるクライアントを検出する「WAFFLE」というアルゴリズムを提案し、既存の手法を上回る検出精度と下流タスクの性能向上を実証しています。
この論文は、情報カスケードとユーザーの行動を同時にモデル化する「混合相互作用カスケード(MIC)」という新しい手法を提案し、既存の手法よりも優れた情報拡散の予測性能と、学習されたパラメータを用いた社会ネットワーク活動の二層構造可視化を実現することを示しています。
この論文は、単一ドメインデータに依存する低資源言語の言語識別性能を向上させるため、ドメイン不変な表現を学習する教師付き対照学習アプローチ「ConLID」を提案し、低資源言語におけるアウトオブドメインデータでの性能を 3.2 ポイント向上させたことを示しています。
この論文は、動的平滑化正則化を備えた反復重み付き最小二乗法(IRLS)のバリアントが、任意の初期化から線形収束して真の部分空間を復元することを示し、アフィン部分空間推定への拡張や低次元ニューラルネットワーク訓練への応用を通じて、ロバスト部分空間復元および非凸 Riemann 多様体上の IRLS に対する初のグローバル収束保証を提供するものである。
この論文は、小規模セルネットワークにおけるサービス配置問題を線形バンドット問題として定式化し、分散型最適腕識別アルゴリズムを提案することで、複数の小基地局が協調してユーザーの遅延を最小化する最適なエッジサービスを見出し、学習効率を向上させる手法を提示しています。
この論文は、離散グロンワールの不等式のみを用いて、凸または非凸な目的関数における確率的勾配降下法(SGD)および確率的ヘビーボール法(SHB)の最終反復の収束率を、-Hölder 連続な勾配を持つ一般的な設定で導出・再証明したものである。
この論文は、地盤沈下問題に対して物理情報を枝網ではなく幹網に組み込んだ改良型 DeepONet(モデル 3)とフーリエ特徴量強化版(モデル 4)を提案・評価し、特に 3 次元問題において従来のソルバーに比べ最大 1,000 倍の高速化を実現し、地盤工学における不確実性定量化の加速への可能性を示したものである。
本論文は、慣性や減衰などの物理的プリアと局所結合発振器ネットワークを潜在空間のランジュバン流に組み込むことで、神経集団の複雑な動的構造と外部影響を高精度にモデル化し、合成データおよび実神経データにおいて既存手法を上回る性能を示した「LangevinFlow」と呼ばれる逐次変分オートエンコーダを提案しています。
この論文は、ロボットや人間など異なるエンボディメントからのデータを光フローを用いて事前学習した世界モデルと価値関数を活用し、ターゲットとなるロボットの実証データのみで微調整を行う「潜在ポリシー・ステアリング(LPS)」手法を提案し、低データ量環境でもビヘイビア・クローンベースの視覚運動ポリシーを大幅に改善することを示しています。
この論文は、深層強化学習の透明性と検証可能性を高めるため、マルチモーダル大規模言語モデルと進化探索を組み合わせ、視覚フィードバックに基づく失敗パターン分析を用いて人間に理解可能なプログラム制御方策を自動生成する手法「MLES」を提案し、標準的な制御タスクにおいて PPO と同等の性能を達成しつつ、透明な制御ロジックとスケーラビリティを実現したことを示しています。
この論文は、多数の異なるソース(特にサンプル数が少ない場合)からなるデータにおける分布のシフトとサンプルサイズの変動に対処し、全体の精度とソースごとの異質性の両方を維持する予測を実現するために、クロスドメイン残差学習と適応的クラスタリングを組み合わせるメタ学習手法「CTRL」を提案し、スイスの難民雇用予測など実世界データを用いた評価で既存手法を上回る性能を実証しています。
この論文は、テキスト形式のシラバスが学生に十分に理解されないという課題に対し、AI 生成音楽と仮想アバターを用いてシラバスを歌って提示する新しい手法を提案し、学生の関心と情報定着率を向上させたことを報告しています。
本論文は、複数の建物の物理的詳細を忠実に再現し、強化学習エージェントの公平なベンチマークを可能にするスケーラブルなオープンソースプラットフォーム「MuFlex」を開発し、その有効性と拡張性を示したものである。
この論文は、RFIC ドメイン知識を活用した特徴量インデックスとトランジスタレベルのグラフ抽象化を組み合わせた軽量なグラフニューラルネットワークを提案し、既存手法に比べて大幅に高い精度とデータ効率で多様な能動 RF 回路の性能を予測可能にするものです。
本論文は、非標準的な代数タスクにおける LLM の推論能力を向上させるため、テストデータ分布に合致する複雑な例よりも単純な例を反復的に選択・最適化する「反復的インコンテキスト学習」手法を提案し、その有効性を示したものです。