Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback
本論文は、指数級数の候補スレートから単一の二値報酬のみが観測されるロジスティック文脈スレートバンドット問題に対し、局所計画と大域的学習を組み合わせることで、低計算コストかつ低後悔を実現する効率的なアルゴリズムを提案し、理論的保証と実証実験、ならびに言語モデルの文脈例選択への応用を通じてその有効性を示しています。
11158 件の論文
本論文は、指数級数の候補スレートから単一の二値報酬のみが観測されるロジスティック文脈スレートバンドット問題に対し、局所計画と大域的学習を組み合わせることで、低計算コストかつ低後悔を実現する効率的なアルゴリズムを提案し、理論的保証と実証実験、ならびに言語モデルの文脈例選択への応用を通じてその有効性を示しています。
本論文は、シャープネス感知最小化(SAM)の機械的忘却への適用を分析し、忘却信号と保持信号の競合を解決する新たな手法「Sharp MinMax」を提案することで、忘却性能の向上とモデルの堅牢性を同時に達成することを示しています。
この論文は、Kolmogorov-Arnold 表現定理に基づく新しい生成モデル「KAEM」を提案し、逆変換法による高速かつ正確な推論と、重要性サンプリングやアンニリング戦略を用いた効率的な事後推論を通じて、VAE の効率性と拡散モデルの表現力を両立させつつ、潜在空間の解釈可能性を向上させることを示しています。
この論文は、農業分野における密集・自己遮蔽物体のインスタンスセグメンテーション課題を解決するため、最小限の人手注釈で形状やテクスチャに焦点を当てた「GLMask」を用いた半自己教師あり学習アプローチを提案し、小麦の穂の検出で mAP@50 98.5% の最高精度を達成したことを報告しています。
本論文は、大規模言語モデルの学習状態に応じてバッチごとに訓練サンプルを動的に選択する新しいアルゴリズム「SamS」を提案し、DPO のコアアルゴリズムを変更することなく、計算コストを最小限に抑えつつモデルの汎化性能を大幅に向上させることを示しています。
この論文は、事前学習された拡散方策と運動学的リターゲティングを活用し、タスク固有の学習や人間とロボットの対データなしで、単一の人間のデモンストレーションからロボットが操作タスクを成功させることを可能にする「DemoDiffusion」を提案しています。
この論文は、人間の視覚発達の過程(視力やコントラスト感度など)を模倣した「発達的視覚食」を導入することで、AI がテクスチャ依存から脱却し、形状に基づく頑健で人間に近い視覚能力を獲得できることを実証しています。
この論文は、ノイズを含むデータを用いた物理情報ニューラルネットワーク(PINN)の学習において、誤差をノイズ分散以下に抑えるためにはネットワーク規模が一定の閾値を超えて大きくする必要があることを、ハミルトン・ヤコビ・ベルマン方程式などを用いた理論的解析と実験で実証しています。
本論文は、大規模言語モデルを用いて表データに実在の誤りを生成するフレームワーク「TableEG」を提案し、これにより合成データと実世界データの誤り分布のギャップを埋め、データクレンジング手法の信頼性あるベンチマーク確立を実現したことを示しています。
本論文は、センサー故障やプライバシー保護により生じる不完全なマルチモーダルデータの問題に対処するため、モダリティ組合せごとの共有情報と固有特徴を分離し、表現空間の分離性に基づいて動的に学習比率を調整する新しいパラメータ効率型学習フレームワーク「MCULoRA」を提案し、感情認識タスクにおいて既存手法を上回る性能を達成したことを示しています。
本論文は、マルチモーダル大規模言語モデル(MLLM)がエージェントの行動を過剰に肯定する「同意バイアス」を特定し、自己生成された事前知識に基づいて検証を行う軽量手法「SGV」を提案することで、タスク完了率や精度を大幅に向上させることを示しています。
この論文は、生物学的配列モデリング、分子生成・設計、ペプチドおよびタンパク質生成の 3 つの主要分野におけるフローマッチングの基礎、応用、データセット、ツール、および将来の展望を網羅的に調査した初の包括的なサーベイである。
この論文は、弱モデルが生成した成功だけでなく失敗の軌跡も活用し、木構造とモンテカルロ木探索を組み合わせて強化学習を行うことで、複雑な意思決定タスクにおける弱モデルから強モデルへの一般化性能を飛躍的に向上させる新たな手法を提案しています。
この論文は、EU AI 法などの規制下におけるバイアス監査の脆弱性を示し、不公正なデータ分布から公平性を満たすかのように見せかける操作可能なサンプルを構築する攻撃手法を定式化し、その検出を強化するための統計的テストと実用的なガイドラインを提案するものである。
本論文は、静的ベンチマークが臨床現場での信頼性を過大評価する「ベンチマークギャップ」を明らかにし、医療用大規模言語モデルの安全性を評価するために、頑健性、プライバシー、公平性、幻覚の 4 つの軸で動的かつ自動的なレッドチームングを行う「DAS」フレームワークを提案しています。
本論文は、ガウス過程カーネルの合成と構造的因果モデルを組み合わせることで多様かつ因果的に整合した合成時系列データを生成する「CauKer」を提案し、これにより大規模な実データに依存せず、スケーラブルかつ効率的に時系列基礎モデルを事前学習可能であることを示しています。
この論文は、グラフの抽象的な構造に依存する不変量(グラフ不変量)の予測を通じて構造一般化を強化し、その表現を位置符号として活用してドメイン横断的なグラフ基礎モデル(GFM)を構築する「GraphProp」を提案し、特にノード属性がないグラフにおける分類や少数ショット学習において優れた性能を示すことを示しています。
本論文は、RNN のゲーティング機構が状態空間の時間スケールとパラメータ更新を結合させ、固定の学習率であってもデータ駆動型の適応的学習率や勾配の異方性を生み出し、最適化の事前条件付けとして機能することを理論的・実験的に示したものである。
任意のサンプリングレートと可変長の信号に対応し、帯域分割アーキテクチャと周波数位置エンコーディングを統合した新しい基盤モデル「ECHO」を提案し、機械信号の異常検出や故障分類において最先端の性能を実現したことを報告する論文です。
この論文は、複数のエージェント間の局所ナッシュ均衡のデモンストレーションデータから混合整数線形計画(MILP)を用いてパラメトリックな制約を学習し、理論的な保証のもとで安全・危険領域の内側近似を導出するとともに、非線形ダイナミクスを持つエージェントの安全な運動計画を設計する手法を提案しています。