Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment
この論文は、CityLearn 環境を用いて都市エネルギー制御におけるマルチエージェント強化学習(MARL)を多角的な KPI で評価し、分散学習分散実行(DTDE)が集中学習分散実行(CTDE)よりも優れており、時間依存性の学習がバッテリー寿命などの持続可能性指標の改善に寄与することを示しています。
8581 件の論文
この論文は、CityLearn 環境を用いて都市エネルギー制御におけるマルチエージェント強化学習(MARL)を多角的な KPI で評価し、分散学習分散実行(DTDE)が集中学習分散実行(CTDE)よりも優れており、時間依存性の学習がバッテリー寿命などの持続可能性指標の改善に寄与することを示しています。
本論文は、分散型取引所の流動性プロバイダーが手数料収益とリバランスコストのトレードオフを最適化するため、平均回帰市場における最適インパルス制御問題を定式化し、深層強化学習を用いた「RAmmStein」手法を提案することで、過剰なリバランスを抑制しつつ資本効率を大幅に向上させることを示しています。
本論文は、分子グラフニューラルネットワーク(GNN)と分子フィンガープリントを融合したフレームワークが単独モデルよりも優れた性能を示すことを実証し、CKA 解析を通じて GNN とフィンガープリントが独立した潜在空間を形成し、異なる GNN アーキテクチャ間には高い表現の類似性があることを明らかにした。
ModernBERT 基盤の多言語エンコーダ「MrBERT」は、35 言語とコードの事前学習、Matryoshka 表現学習による柔軟な次元適応、および特定ドメインへの最適化を通じて、地域言語の卓越性と専門分野での高性能、そして推論・保存コストの削減を同時に実現するモデルファミリーを提案し、Hugging Face でオープンソース化されています。
本論文は、EEG 信号と画像表現の整合を学習し、VQ-VAE とトランスフォーマーを用いた「次スケール予測」に基づく自己回帰的生成フレームワーク「AVDE」を提案し、既存の拡散モデルよりもはるかに軽量でありながら、画像復元や検索タスクにおいて最先端の性能を達成し、人間の視覚知覚の階層性を反映する解釈可能な脳コンピュータインターフェースを実現したことを示しています。
CeRA は、SiLU ゲーティングと構造的ドロップアウトを併用して多様体を拡張し、低ランク適応(LoRA)が抱える線形性の限界を打破し、複雑な推論タスクにおいて極めて高いスペクトル効率を実現するパラメータ効率型ファインチューニング手法です。
App Store の検索ランキングにおいて、LLM を活用して生成したテキスト関連性ラベルを行動データと組み合わせることで、オフライン評価指標の改善と、特にロングテールクエリにおけるコンバージョン率の統計的有意な向上(+0.24%)を実現した。
この論文は、光粒子検出器のシミュレーション、較正、再構成を単一の微分可能フレームワークで統合し、勾配ベースの最適化を通じて従来の手法を凌駕する精度と効率で粒子特性を推定する初のエンドツーエンド微分可能シミュレーターを提案しています。
本論文は、FP4 精度の注意機構における訓練の不安定さを解消し、アウトライヤー対策なしに品質を回復しながら RTX 5090 で最大 1.5 倍の高速化を実現する、初の体系的な量子化感知学習(QAT)手法「Attn-QAT」を提案するものです。
この論文は、古典的なジッタードサンプリングよりも低い期待スター・ディスクリパンシーを達成する新たな非等体積分割に基づく層化サンプリング手法を提案し、その理論的優位性と既存の上限値の改善を示すものです。
本論文は、心電図信号におけるマルチモーダルモデルの推論能力を評価するため、信号パターンの正確な識別(知覚)と臨床知識の論理的適用(推論)を分離し、それぞれをコード生成による実証的検証と構造化臨床基準との照合によって評価する、スケーラブルで再現性のあるフレームワークを提案しています。
2026 年の F1 新規定における不完全観測条件下でのエネルギー戦略最適化のため、競合他車の隠れた状態を隠れマルコフモデルで推論し、その推論結果を Deep Q-Network に投入して意思決定を行う 2 層フレームワークを提案し、敵の欺瞞的な「カウンターハーベスト」戦略の検出や ERS 状態の高精度推定を実現する手法を示しています。
DISPLACE-M チャレンジの Track 1(話者分離)において、TCG CREST チームは WavLM ベースのハイブリッド型エンドツーエンドシステム「Diarizen」と高度なクラスタリング手法を組み合わせることで、従来の SpeechBrain ベースラインを大幅に上回る性能(評価セットで DER 9.21%)を達成し、11 チーム中 6 位に入賞したことを報告しています。
この論文は、局所化器とセグメンテーション器を統合し、時間的一貫性ラッパーを備えた検出ゲート型パイプラインを提案することで、高速度ビデオエンドスコピーにおける喉頭領域波形の抽出精度と臨床的病理評価のための生体マーカーの一般化性を飛躍的に向上させたことを報告しています。
本論文は、メコンデルタの無形文化遺産画像分類におけるデータ不足と過学習の問題に対し、CoAtNet 構造とモデルスープ(モデルの重み平均化)を組み合わせることで、分散を低減し、既存の強固なベースラインを凌ぐ最先端の精度を達成したことを示しています。
この論文は、異なる環境で動作する複数のエージェントが共有線形表現と未知の線形部分空間を仮定して協調的に学習する個人化平均報酬TD学習の収束性を解析し、矛盾する信号の影響を軽減して線形スケーリングを実現することを示しています。
この論文は、正則化によるスパースな時系列構造の解釈性を維持しつつ、畳み込みオートエンコーダとベクトル自己回帰(VAR)モデルを埋め込むことで、細胞イメージングデータから動的な要因を特定し、時系列比較や空間的寄与の可視化を可能にする新しい手法を提案しています。
本論文は、勾配計算やパラメータ更新を必要とせず、GramCol と運動特徴選択アルゴリズムを導入することで、動画生成モデル(Video DiT)における運動概念の空間的・時間的な局所化を可能にする解釈可能な運動注意マップ(IMAP)を提案し、運動および非運動概念の両方に対して優れた局所化性能と可視化を実現するものです。
本論文は、GUI アプリケーションの頻繁な更新に伴う継続学習の課題に対し、SFT と強化学習の相乗効果を動的に調整し、勾配干渉を解消する「CGL」フレームワークと、その評価用ベンチマーク「AndroidControl-CL」を提案し、既存タスクの忘却を防ぎつつ新たなタスクへの適応を可能にする手法を開発したことを示しています。
この論文は、古典的な有界分散モデルにおいて、停止時間とマルチンゲール解析を用いて、信頼パラメータに対する依存度がAdamはであるのに対しSGDは少なくともを必要とするという、両者の高確率収束挙動における理論的な分離を初めて証明し、Adamの第二モーメント正規化がより鋭い尾部をもたらすことを示しています。