To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

本論文は、数学やコーディングなど複数のドメインにおける大規模言語モデルの強化学習(RLVR)において、混合マルチタスク学習と個別学習後のモデル結合の 2 つの手法を比較・分析し、ドメイン間の干渉が少なく相乗効果が得られることを示すとともに、その内部メカニズムを多角的に解明した研究です。

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

本論文は、LLM エージェントの推論時に知識を付与する「スキル」の効果を測定する新しいベンチマーク「SkillsBench」を提案し、手動で選定されたスキルがタスクの成功率を大幅に向上させる一方で、モデルが自律的に生成したスキルは平均的に効果がないことを示した。

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

この論文は、Muon 系オプティマイザの更新方向の直交化に伴う不安定性を、大域 RMS 較正とエネルギーに基づく信頼領域クリッピングを組み合わせることで解決し、ウォームアップなしでも Adam 系手法を上回る安定性と収束速度を実現する「TrasMuon」という新しい最適化手法を提案しています。

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

この論文は、引用に基づく検証に最適化された軽量な自動化 AI パイプラインが、ICC M や未発表の研究課題など、高度な研究レベルの数学問題の解決に成功したことを示しています。

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

この論文は、瞬間速度制約を付与することで表現力と計算効率を両立し、ロボット操作タスクにおいて最先端の成功率と高速な推論を実現する、一歩でアクションを生成する新しい生成方策「平均速度方策(MVP)」を提案するものです。

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

本論文は、構造化された領域(有界な物理パラメータや離散 - 連続ハイブリッド変数など)に制約されるシミュレーションに基づく推論(SBI)の問題に対し、幾何学的制約と離散潜在構造の両方を統合的に扱える新しい変分フローマッチングフレームワーク「Pawsterior」を提案し、従来の手法では困難だったより広範な SBI 課題への適用を可能にするものです。

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

本論文は、LLM の微調整データセットにおけるトークンレベルのノイズを「推論の重要性」「知識の新規性」「タスクの関連性」という 3 つの属性に分解して評価し、ノイズとなるトークンの勾配をマスクすることで微調整後のモデル性能を最大 13.7% 向上させる、説明可能なトークンレベルノイズフィルタリングフレームワーク「XTF」を提案しています。

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren2026-03-10💬 cs.CL

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

本論文は、数時間にわたる音声データを構造化されたイベント記録に変換し、SQL データベースから関連するイベントを検索して大規模言語モデルの回答を支援するハイブリッド型フレームワーク「LongAudio-RAG」を提案し、その精度向上とエッジ - クラウド環境での実用性を示したものである。

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

この論文は、人間のエピソード記憶メカニズムに着想を得て、意味の要約(Semantic Gist)の抽出と進化、多次元知識グラフ、および拡散型検索を組み合わせた新しい RAG フレームワーク「CogitoRAG」を提案し、複雑な知識統合や推論において既存の最先端手法を上回る性能を実証したものである。

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

本論文は、患者の条件に依存する臨床推論を評価する初のベンチマーク「CondMedQA」を提案し、クエリの条件に基づいて知識グラフの推論経路を選択的に活性化・剪定する「条件ゲート型推論(CGR)」フレームワークを開発することで、医療QAにおける条件依存性の明示的なモデル化の重要性を実証しています。

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

ABD: Default Exception Abduction in Finite First Order Worlds

この論文は、有限一階世界におけるデフォルトと例外の帰納推論(ABD)を評価する新しいベンチマークを提案し、SMT 検証を用いた厳密な評価を通じて、最先端の LLM が妥当性は高いものの例外のスパース性(簡潔性)において課題を抱え、観察 regimes によって異なる一般化の失敗モードを示すことを明らかにしています。

Serafim Batzoglou2026-03-10✓ Author reviewed 💻 cs

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

この論文は、CityLearn 環境を用いて都市エネルギー制御におけるマルチエージェント強化学習(MARL)を多角的な KPI で評価し、分散学習分散実行(DTDE)が集中学習分散実行(CTDE)よりも優れており、時間依存性の学習がバッテリー寿命などの持続可能性指標の改善に寄与することを示しています。

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

ModernBERT 基盤の多言語エンコーダ「MrBERT」は、35 言語とコードの事前学習、Matryoshka 表現学習による柔軟な次元適応、および特定ドメインへの最適化を通じて、地域言語の卓越性と専門分野での高性能、そして推論・保存コストの削減を同時に実現するモデルファミリーを提案し、Hugging Face でオープンソース化されています。

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

本論文では、不安定な学習が課題である自律型強化学習(ARL)の安定性を制御された環境で分析するフレームワーク「ARLArena」を提案し、その知見に基づいて安定した学習を実現する手法「SAMPO」を開発し、多様なタスクで安定した学習と高い性能を達成することを示しています。

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

本論文は、従来の手法に比べて計算コストが低く手動調整が不要な、Cryo-EM 密度マップ制約を組み込んだワンステップ拡散モデル「CryoNet.Refine」を開発し、タンパク質複合体や DNA/RNA-タンパク質複合体の構造精密化を大幅に高速化・自動化する手法を提案しています。

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

A Mathematical Theory of Agency and Intelligence

この論文は、古典系における「二重予測可能性(bipredictability)」の上限が 0.5 以下であることを理論的に証明し、現在の AI は予測に基づく「主体性(agency)」は持っても学習の自己監視と適応を欠くため真の「知能(intelligence)」ではないと定義し、生物の視床 - 皮質調節に着想を得た新たなフィードバック機構を提案しています。

Wael Hafez, Chenan Wei, Rodrigo Pena, Amir Nazeri, Cameron Reid2026-03-10🔢 math