Resource-constrained Amazons chess decision framework integrating large language models and graph attention

本論文は、大規模言語モデルの生成能力とグラフ注意メカニズムを統合した軽量ハイブリッド枠組みを提案し、限られた計算資源下でも「アマゾンズ」ゲームにおいて教師モデルを上回る高性能な意思決定を実現することを示しています。

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

この論文は、LLM における指示階層(IH)の堅牢性を向上させるための強化学習用データセット「IH-Challenge」を提案し、GPT-5-Mini への適用により安全性と有用性を大幅に改善しつつ能力の低下を最小限に抑えたことを報告しています。

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

この論文は、部分的に観測可能なマルコフ決定過程(POMDP)として定式化した医療物資の時間的制約付き配送問題を、近接方策最適化(PPO)を用いたマルチエージェント強化学習フレームワークで解決し、実世界の地理データに基づく実験により古典的 PPO が非同期学習よりも優れた協調性能を示すことを実証しています。

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

この論文は、骨やインプラントのセグメンテーションタスクにおいて、11 種類のプロンプタブル基盤モデルを評価した結果、モデルやプロンプト戦略によって性能が大きく異なり、特に人間のプロンプトを使用すると性能が低下し、モデルがプロンプトのばらつきに敏感であることを示し、人間主導の環境での最適なモデル選出の難しさを浮き彫りにしました。

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

この論文は、事前学習済みマルチモーダルモデルと軽量アダプターを活用し、大規模な訓練データなしで炭素繊維強化プラスチックの欠陥をゼロショットで検出・可視化する新しい言語誘導型フレームワークを提案し、従来の手法を大幅に上回る性能を実証したものである。

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

Adaptive RAN Slicing Control via Reward-Free Self-Finetuning Agents

この論文は、報酬信号を必要とせず、双方向的な反射メカニズムによる言語フィードバックで長期的な経験をモデルパラメータに定着させる自己微調整フレームワークを提案し、動的な RAN スライシング制御において従来の強化学習や LLM エージェントを上回る性能を実証しています。

Yuanhao Li, Haozhe Wang, Geyong Min, Nektarios Georgalas, Wang Miao2026-03-12🤖 cs.AI

CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

本論文は、自律型コンピュータ操作エージェント(CUA)の評価にビジョン・言語モデル(VLM)を監査者として用いる手法を大規模に検証し、複雑な環境では精度が低下しモデル間での判断に不一致が生じるなど、現在のモデルベース監査アプローチには根本的な限界があることを明らかにしています。

Marta Sumyk, Oleksandr Kosovan2026-03-12🤖 cs.AI

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

本論文は、道徳的推論におけるアライメントタスクが本質的に多様性を必要とするという仮説を否定し、数学的推論と同様に報酬最大化型の強化学習(RLVR)が効果的であることを、高報酬応答の分布が集中しているという実証的発見を通じて明らかにしています。

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences

この論文は、カーネル密度推定に基づく発散のワッサーシュタイン勾配流として「Drifting Model」を数学的に定式化し、モード崩壊とモードのぼやけを同時に回避する混合発散戦略や多様体への拡張を含む新しい生成モデルの枠組み「Gradient Flow Drifting」を提案し、その理論的根拠と有効性を示しています。

Jiarui Cao, Zixuan Wei, Yuxin Liu2026-03-12🤖 cs.LG

Recover to Predict: Progressive Retrospective Learning for Variable-Length Trajectory Prediction

この論文は、不完全な観測データから完全な軌跡特徴を段階的に復元・学習する「プログレッシブ・リトロスペクティブ・フレームワーク(PRF)」を提案し、変長軌跡予測の課題を解決するとともに、Argoverse データセットでの実験によりその有効性を実証したものです。

Hao Zhou, Lu Qi, Jason Li, Jie Zhang, Yi Liu, Xu Yang, Mingyu Fan, Fei Luo2026-03-12🤖 cs.AI

Reinforcement Learning with Conditional Expectation Reward

この論文は、数学や一般分野など多様な推論タスクにおいて、手動で設計された検証ルールに依存せず、大規模言語モデル自体を暗黙の検証器として利用し、生成された回答の条件付き期待尤度を報酬信号とする「条件付き期待報酬(CER)」を提案し、自由形式の回答にも柔軟に対応できる汎用的な強化学習手法を確立したことを示しています。

Changyi Xiao, Caijun Xu, Yixin Cao2026-03-12🤖 cs.LG

Detecting and Eliminating Neural Network Backdoors Through Active Paths with Application to Intrusion Detection

この論文は、ニューラルネットワーク内の「アクティブパス」に基づいた新規かつ説明可能な手法を提案し、侵入検知システムにおける機械学習モデルのバックドアトリガーを検出・除去する有効性を示す実験結果を報告しています。

Eirik Høyheim, Magnus Wiik Eckhoff, Gudmund Grov, Robert Flood, David Aspinall2026-03-12🤖 cs.AI

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

この論文は、タスクとモーションプランニングを統合し、モーションプランナから得られる記号的なフィードバックを用いてスケジューラを反復的に学習させることで、共有作業空間における複数オブジェクトのナビゲーション問題を解決する新規フレームワークを提案し、その有効性を検証したものである。

Elisa Tosello, Arthur Bit-Monnot, Davide Lusuardi, Alessandro Valentini, Andrea Micheli2026-03-12🤖 cs.AI

Are Video Reasoning Models Ready to Go Outside?

この論文は、現実世界の摂動下で視覚言語モデルの推論能力が低下する課題に対処するため、適応的な難易度制御と頑健性意識の一貫性報酬を用いたトレーニングフレームワーク「ROVA」と、実世界摂動を注入した新しいベンチマーク「PVRBench」を提案し、既存モデルの性能を大幅に向上させることを示しています。

Yangfan He, Changgyu Boo, Jaehong Yoon2026-03-12🤖 cs.AI

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

臨床診断の複雑な認知プロセスを模倣し、対話的な深層臨床研究ワークフローを通じて検査を自律的に要請し経験を学習資産として外部化することで、診断精度を大幅に向上させつつ責任ある継続的進化を実現する「DxEvolve」という自己進化型診断エージェントが開発されました。

Ruiyang Ren, Yuhao Wang, Yunsen Liang, Lan Luo, Jing Liu, Haifeng Wang, Cong Feng, Yinan Zhang, Chunyan Miao, Ji-Rong Wen, Wayne Xin Zhao2026-03-12🤖 cs.AI

A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction

本論文は、OpenBCI Galea ヘッドセットと SuperTux を活用し、AI モデルや行動推論を埋め込まずに生体信号とインタラクションを構造化された観測データとして分離・表現することで、再現性と拡張性に優れたプラットフォーム非依存のデジタルヒューマンモデリングフレームワークを提案するものである。

Daniel J. Buxton, Mufti Mahmud, Jordan J. Bird, Thomas Hughes-Roberts, David J. Brown2026-03-12🤖 cs.AI