Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

本論文は、意思決定に重要な領域におけるシミュレーションの誤差を敵対的較正で補正し、グループ相対摂動により方策学習を安定化させる「Sim2Act」というフレームワークを提案することで、ノイズやバイアスを含む実世界データから学習されたシミュレータを用いた堅牢な意思決定学習を実現するものである。

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie Fu2026-03-11🤖 cs.AI

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

本論文は、ロボット学習におけるデータキュレーションの課題を解決するため、検証データへの損失削減への寄与を定量化するインフルエンス関数を用いて高品質なデモンストレーションを自動選別する「Quality over Quantity(QoQ)」という手法を提案し、シミュレーションおよび実世界での実験によりその有効性を示しています。

Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin Lee2026-03-11🤖 cs.LG

Adaptive Active Learning for Online Reliability Prediction of Satellite Electronics

本論文は、データ不足や個体差といった課題を克服するため、ウィーナー過程に基づく劣化モデルと、空間配置やモデル不確実性を考慮した適応的能動学習を組み合わせた新たな衛星電子機器のオンライン信頼性予測枠組みを提案し、天宮宇宙ステーションの実用例を通じてその有効性を示しています。

Shixiang Li, Yubin Tian, Dianpeng Wang, Piao Chen, Mengying Ren2026-03-11🤖 cs.LG

Dynamic Multi-period Experts for Online Time Series Forecasting

この論文は、概念ドリフトを「再発ドリフト」と「新興ドリフト」に分類し、それぞれに対応する専門家の動的な組み合わせと不安定時の一般専門家への移行を通じて、オンライン時系列予測の適応性と精度を大幅に向上させる新しいハイブリッド枠組み「DynaME」を提案しています。

Seungha Hong, Sukang Chae, Suyeon Kim, Sanghwan Jang, Hwanjo Yu2026-03-11🤖 cs.LG

Learning Adaptive LLM Decoding

この論文は、推論時の計算リソースやタスクの難易度に応じてサンプリング戦略を動的に選択する軽量な適応デコーディングアダプタを強化学習で導入し、固定されたデコーディング手法よりも数学やコーディングタスクにおける精度とコストのトレードオフを大幅に改善することを提案しています。

Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya Ghai2026-03-11🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

この論文は、コンタント・アシュビーの良き調節器定理、情報幾何学、およびアマリの定理といった確立された定理を用いて、ワルフラムの超グラフ物理学とバンチュリンの神経網宇宙論を統合し、因果不変な超グラフ基盤における持続的観測者が自然勾配学習に従うことを示し、観測者がフィッシャー計量の固有方向ごとに異なるバンチュリンのレジームに同時に存在し得ることを明らかにしています。

Max Zhuravlev2026-03-11🤖 cs.LG

PPO-Based Hybrid Optimization for RIS-Assisted Semantic Vehicular Edge Computing

本論文は、動的な車載環境における遅延低減を目的として、再構成可能インテリジェント表面(RIS)と意味通信を統合し、近接方策最適化(PPO)と線形計画法(LP)を組み合わせたハイブリッド最適化手法を提案し、既存手法と比較してエンドツーエンドの遅延を約 40〜50% 削減できることを示しています。

Wei Feng, Jingbo Zhang, Qiong Wu, Pingyi Fan, Qiang Fan2026-03-11🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

この論文は、Qwen3 微調整モデルを用いて英語と中国語のニュースから抽出したセンチメントデータを、LSTM モデルに統合することで、特に市場変動が激しい時期においてアルミニウム価格の予測精度と経済的有用性が大幅に向上することを示しています。

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

本論文は、状態依存の無効アクションをマスクせずに学習する際、訪問済み状態での勾配共有により未訪問状態での有効アクションが指数関数的に抑制されるという新たな失敗モードを理論的に証明し、その解決策としてフェイザビリティ分類を用いた実装の有効性を示しています。

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

この論文は、シリコン含有グラファイト負極を備えた電気自動車バッテリーの電圧ヒステリシス要因を、不確実性を考慮しつつ計算効率よく確率的に予測するためのデータ駆動型アプローチとデータ調和フレームワークを提案し、状態充電量(SoC)推定の精度向上と高度なバッテリー技術の普及を支援するものである。

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

この論文は、検証可能な報酬を用いた強化学習(RLVR)において生じる精度最大化と較正誤差最小化の間の根本的な勾配競合を理論的に示し、推論と較正の目的を体系的に分離する新たなフレームワーク「DCPO」を提案することで、GRPO と同等の精度を維持しつつ過剰な自信(オーバーコンフィデンス)を大幅に軽減し、LLM の信頼性を向上させることを実証しています。

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

この論文は、クラスインクリメンタル学習における特徴の衝突を因果的観点から解決するため、内タスクおよび間タスクの因果的完全性と分離性を定量化する拡張 PNS(CPNS)に基づく正則化手法を提案し、双方向のカウンターファクトル生成器を用いて特徴の衝突を効果的に抑制することを示しています。

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap は、LLM が作成した評価基準(ルブリック)に基づいて報酬信号を生成する強化学習フレームワークを導入し、高密度画像キャプション生成において既存の教師あり蒸留や RL 手法、さらには人間専門家やプロプライエタリモデルを上回る性能と効率を実現しました。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

本論文は、機能的に不完全でも構造的なパターンが機能意図を反映する LLM 生成 RTL を活用して合成ネットリストの表現学習を行う新たなフレームワークを提案し、実世界の回路設計におけるデータ不足というボトルネックを解消することを示しています。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

この論文は、計画能力に優れた離散拡散言語モデルと流暢なテキスト生成が得意な自己回帰モデルを潜在空間で連携させる「Latent-DARM」を提案し、多様な推論タスクにおいて既存のテキストベースのインターフェースを凌駕する精度向上と、最先端の推論モデルに匹敵する性能を極めて少ないトークン数で実現することを示しています。

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI