Meta-RL Induces Exploration in Language Agents
本論文は、エピソード横断的なトレーニングとリフレクションによるコンテキスト内方策適応という 2 つの主要な構成要素を備えたメタ強化学習フレームワーク「LaMer」を提案し、これにより言語エージェントが環境からのフィードバックに基づいて能動的に探索し、従来の強化学習ベースラインよりも Sokoban や Webshop などのタスクで顕著な性能向上と汎化能力を実現することを示しています。
8570 件の論文
本論文は、エピソード横断的なトレーニングとリフレクションによるコンテキスト内方策適応という 2 つの主要な構成要素を備えたメタ強化学習フレームワーク「LaMer」を提案し、これにより言語エージェントが環境からのフィードバックに基づいて能動的に探索し、従来の強化学習ベースラインよりも Sokoban や Webshop などのタスクで顕著な性能向上と汎化能力を実現することを示しています。
本論文は、拡散モデルの事前知識と形状からの陰影(SfS)の手がかりを組み合わせ、推論時に自己教師ありで再照明を行う「Re-Depth Anything」を提案し、Depth Anything V2 や V3 の推定深度をラベルなしで高精度かつリアルに洗練させる手法を提示するものである。
本論文は、逐次的な制約により並列化が困難だったニュートン・カチャルツ法に基づくコルモゴロフ・アルノルドネットワークの学習アルゴリズムに対し、事前学習、データ分割によるモデル統合、およびFPGA実装という3つの戦略を提案することで、並列処理による大幅な高速化を実現したことを示しています。
この論文は、高次元の表形式データにおける分布外(OOD)異常検出の一般化崩壊問題を解決するため、トポロジカルな多様体構造の明示的な整形と確率的密度推定を分離する階層的な「Latent Sculpting」手法を提案し、ゼロショット設定で未知のサイバー攻撃に対する高い検出性能を実証しています。
本論文は、垂直フェデレーティングラーニングにおける「忘れられる権利」に対応するため、特定のサンプルやラベルの影響を効率的に除去し、再学習と同等の性能を低コストで実現する新たなプリマル・デュアル最適化手法「FedORA」を提案し、その理論的保証と実証的有効性を示したものである。
本論文は、オンラインゲームのネットワークトラフィックをプロセスマイニングを用いて分析し、非教師ありで状態を特定し、解釈可能なペトリネットとして符号化するとともに、異なるゲームの分類精度を向上させる手法を、Clash Royale と Rocket League のデータを用いた UPSIDE ケーススタディで実証したものである。
本論文は、空間グラフのトポロジカル特徴を保持しつつノード数を削減するパラメータ不要の手法を提案し、三角形を考慮した新しいフィルトレーションに基づく永続的図の適応と、回転・並進・スケーリングに対する等変性を保証する理論的性質を特徴とする。
この論文は、高次元かつスパースなマルコフ決定過程におけるオフライン強化学習において、従来の手法では困難だった単一方策集中性条件下での汚染耐性を持つ Actor-Critic 法を提案し、汚染データが存在する状況でも近最適方策の学習を保証する初の非自明な理論的保証を提供するものである。
この論文は、非可換群に対する群畳み込みニューラルネットワークにおいて、非コンパクトな安定化群を持つ群作用との互換性を解決し、非推移的な作用や非ユニモジュラーな群にも一般化された、より弱い制約を持つフィルタを提案し、必要なノード数を削減する手法を確立するものである。
本論文は、電力系統の安全に不可欠な負荷予測において、従来の精度指標では捉えきれない過小予測リスクを定量化する新たな評価枠組みを提案し、気象情報の統合と制約付き最適化によって、過剰な予備容量を招く「偽の安全性」を排除しつつ信頼性の高い予測を実現する手法を確立したものである。
本論文は、生物学や物流などの多様なドメインにおけるグラフ構造データに対して、置換不変性を備えた要約ネットワークと事後推定ネットワークを組み合わせることで、ノード・エッジ・グラフレベルのパラメータに対する迅速かつ校正されたベイズ推論を可能にする、アモルタイズドベイズ推論の新しい枠組みを提案し、その有効性を検証したものである。
DevBench は、開発者のテレメトリデータに基づき 6 つのプログラミング言語と 6 つのタスクカテゴリで構成された大規模言語モデルのコード生成能力を、機能性や実用性などの多角的な観点から評価する、生態学的妥当性と詳細な診断機能を備えた新しいベンチマークです。
この論文は、大規模言語モデル(LLM)と多腕バンディット(MAB)アルゴリズムが、コンポーネントレベルで双方向的に相互作用し、それぞれが他方の課題を解決または能力を向上させる可能性を初めて体系的に調査した包括的なレビューである。
この論文は、リソース制約のあるエッジ環境における大規模言語モデル(LLM)の分散ファインチューニング課題に対処するため、スプリット学習と階層型フェデレーテッド学習を統合し、クライアントクラスタリング、動的モデル分割、軽量通信スキームを備えた「ELSA」と呼ばれるプライバシー保護型の効率的なフレームワークを提案するものです。
この論文は、畳み込みニューラルネットワーク(CNN)のプーリング層やストライドが 1 より大きい層におけるデータ量減少によるハードウェア利用率の低下を解消し、信号のインターリーブやハードウェアユニットの共有、適切な並列化によって MobileNet などの複雑な CNN を単一の FPGA 上で高スループットかつ高効率に推論できる、データレートに配慮した連続フロー型アーキテクチャを提案するものである。
本論文は、瞬間速度ではなく平均速度の視点を導入し、キャッシュされたヤコビ行列 - ベクトル積を活用して局所誤差の蓄積を抑制するトレーニング不要の「MeanCache」フレームワークを提案し、FLUX.1 や HunyuanVideo などの大規模生成モデルにおいて、画質を維持しつつ最大 4.56 倍の推論高速化を実現することを示しています。
PASS は、ペアワイズ制約付き k-means クラスタリングの最適化を小規模な部分集合に集中させることで、大規模問題や量子・ハイブリッドアプローチにおける計算コストを削減し、制約違反をリスト彩色問題として形式化して修復可能にするスケーラブルなフレームワークです。
この論文は、システム方程式へのアクセスなしにデータのみから学習するモデルフリーのニューラルネットワーク(特に状態空間モデル)が、非線形ダイナミクスにおける状態推定において、古典的なフィルタに匹敵する性能を発揮しながらも、はるかに高い推論スループットを実現することを示す体系的な実証比較を行っている。
この論文は、時系列データの各時間区間の寄与を線形に符号化する新しい解釈可能深層学習フレームワーク「TimeSliver」を提案し、合成および実世界の多変量時系列データセットにおいて既存の時間的帰属手法を大幅に上回る説明性能と、最先端の予測精度を両立させることを示しています。
この論文は、因果不変性を活用してドメインやタスクを超えて転送可能なグラフデータ凝縮手法「TGCC」を提案し、既存手法よりも優れた性能を実現することを示しています。