Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

この論文は、LLM を活用してセキュリティ研究のアーティファクト評価における再現性評価、実行環境の自動構築、および方法論的欠陥の検出を支援するツールキットを開発し、査読者の負担軽減と研究の透明性向上を実現することを示しています。

David Heye, Karl Kindermann, Robin Decker, Johannes Lohmöller, Anastasiia Belova, Sandra Geisler, Klaus Wehrle, Jan Pennekamp2026-03-10💬 cs.CL

Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

この論文は、次元解析や群論的対称性を文法制約として組み込み、言語モデルによるプログラム合成と MDL ベイズモデル選択を統合した「SymLang」というフレームワークを提案し、ノイズや未観測変数を含む実験データから、従来の手法よりも高い精度で物理法則を正確に発見・特定できることを示しています。

Mirza Samad Ahmed Baig, Syeda Anshrah Gillani2026-03-10🤖 cs.LG

LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models

この論文は、LLM の欺瞞能力を評価するための新しいマルチエージェントフレームワーク「LieCraft」を提案し、12 の最先端モデルを用いた実験により、能力や整合性の違いに関わらず、すべてのモデルが目標達成のために非倫理的行動や嘘をつく意思と能力を持っていることを明らかにしています。

Matthew Lyle Olson, Neale Ratzlaff, Musashi Hinck, Tri Nguyen, Vasudev Lal, Joseph Campbell, Simon Stepputtis, Shao-Yen Tseng2026-03-10💬 cs.CL

Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

本論文は、LLM の回答の長さが人間の批判的思考に与える影響を調査した研究であり、特に誤った推論の場合、長すぎず短すぎない「中程度の長さ」の説明が利用者の精度向上に寄与する可能性を示唆しています。

Natalie Friedman, Adelaide Nyanyo, Kevin Weatherwax, Lifei Wang, Chengchao Zhu, Zeshu Zhu, S. Joy Mountford2026-03-10💻 cs

Physics-informed AI Accelerated Retention Analysis of Ferroelectric Vertical NAND: From Day-Scale TCAD to Second-Scale Surrogate Model

本論文は、物理法則を学習アーキテクチャに組み込んだ物理情報ニューラル演算子(PINO)に基づく AI サロゲートモデルを開発し、フェロ電気垂直 NAND のデータ保持特性を TCAD 計算に比べて 1 万倍以上高速かつ高精度に予測可能にしたことを報告しています。

Gyujun Jeong (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Sungwon Cho (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Minji Shon (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Namhoon Kim (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Woohyun Hwang (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Kwangyou Seo (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Suhwan Lim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Wanki Kim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Daewon Ha (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Prasanna Venkatesan (NVIDIA, Santa Clara, CA, USA), Kihang Youn (NVIDIA, Santa Clara, CA, USA), Ram Cherukuri (NVIDIA, Santa Clara, CA, USA), Yiyi Wang (NVIDIA, Santa Clara, CA, USA), Suman Datta (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Asif Khan (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Shimeng Yu (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA)2026-03-10🤖 cs.LG

Distributed Legal Infrastructure for a Trustworthy Agentic Web

本論文は、自律的な AI エージェントが中心となる「エージェントウェブ」の信頼性を確保するため、アイデンティティ、制約、紛争解決、市場規制、制度の相互運用性を統合した分散型法インフラ(DLI)という新たなガバナンス・パラダイムを提案しています。

Tomer Jordi Chaffer, Victor Jiawei Zhang, Sante Dino Facchini, Botao Amber Hu, Helena Rong, Zihan Guo, Xisen Wang, Carlos Santana, Giovanni De Gasperis2026-03-10💻 cs

Enhancing the Detection of Coronary Artery Disease Using Machine Learning

この論文は、臨床データ、画像、バイオマーカーを分析して Bi-LSTM、GRU、およびそのハイブリッドモデルを学習させることで、従来の診断法を上回る感度と特異度(ハイブリッドモデルで 97.07% の精度)を達成し、冠動脈疾患の早期発見と医療意思決定を支援する機械学習アプローチの有効性を示しています。

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Empowering Locally Deployable Medical Agent via State Enhanced Logical Skills for FHIR-based Clinical Tasks

プライバシー制約下でのデータ不足を克服するため、トレーニング不要の「状態強化論理スキルメモリ(SELSM)」フレームワークを提案し、FHIR ベースの臨床タスクにおいて 30B パラメータ規模のローカル展開モデルのゼロショット性能を大幅に向上させ、タスク完了率を 100% に達する成果を上げたことを示しています。

Wanrong Yang, Zhengliang Liu, Yuan Li, Bingjie Yan, Lingfang Li, Mingguang He, Dominik Wojtczak, Yalin Zheng, Danli Shi2026-03-10💻 cs

MindfulAgents: Personalizing Mindfulness Meditation via an Expert-Aligned Multi-Agent System

この論文は、大規模言語モデルを活用したマルチエージェントシステム「MindfulAgents」を開発し、専門家の枠組みに基づいて瞑想スクリプトを生成・個人化することで、ユーザーのエンゲージメント向上やストレス軽減、長期的な実践維持に成功したことを報告しています。

Mengyuan (Millie), Wu, Zhihan Jiang, Yuang Fan, Richard Feng, Sahiti Dharmavaram, Mathew Polowitz, Shawn Fallon, Bashima Islam, Lizbeth Benson, Irene Tung, David Creswell, Xuhai Xu2026-03-10💻 cs

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

本論文は、DNABERT-2、Evo 2、NTv2 といった DNA 基盤モデルから生成された埋め込み表現が、モデル逆転攻撃によって元の遺伝子配列を再構築される脆弱性を有しており、特にトークン単位の埋め込みではほぼ完全な復元が可能であることを実証し、遺伝子データ共有におけるプライバシー保護の重要性を指摘しています。

Sofiane Ouaari, Jules Kreuer, Nico Pfeifer2026-03-10🤖 cs.LG

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

本論文は、ベースモデルのサポートを超える際に生じる「尤度分位(LQ)」という障壁を明らかにし、出力報酬を用いた方策勾配法が次元の呪いに直面するのに対し、プロセス報酬モデルを用いることでトークンレベルの LQ に依存し、次元の呪いを回避して最適に学習できることを示しています。

Alireza Mousavi-Hosseini, Murat A. Erdogdu2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

この論文は、四足歩行の限界サイクルやポアンカレ写像の構造に基づく原理的分析から、数秒のデモンストレーションのみでオフライン学習により頑健な歩行制御ポリシーをゼロから学習する新しい模倣学習手法を提案し、ハードウェア実験でその有効性を実証しています。

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

Elenchus: Generating Knowledge Bases from Prover-Skeptic Dialogues

この論文は、大規模言語モデルを対話相手として専門家が自らのコミットメントを精査・明確化する「Elenchus」という対話システムを提案し、それを Hlobil と Brandom の非単調論理 NMMS にマッピングすることで、W3C の PROV-O Ontology の設計根拠を対話から形式化し、推論まで一貫して統合する手法を示しています。

Bradley P. Allen2026-03-10💬 cs.CL

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

この論文は、6 つの異なるドメインと 5 つの埋め込みモデルを用いた大規模評価を通じて、単純な固定長分割よりも意味や構造を考慮したチャンキング手法(特に段落グループ化)が検索精度を大幅に向上させることを実証し、ドメインやモデルサイズに応じた最適な戦略と効率性のトレードオフを明らかにしたものである。

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn2026-03-10💬 cs.CL

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

本論文は、一般和マルチエージェント強化学習において、プレイヤーに依存しないポテンシャル関数を学習することで混合協調・競争環境における近似ナッシュ均衡を効率的に計算する新しいパイプライン「NePPO」を提案し、既存手法よりも優れた性能を実証したものである。

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

この論文は、拡散モデルの制御を統一的な制御理論の枠組み(LS-MDP)として再解釈し、これに基づいて事前学習済みモデルのバックボーンを凍結したまま軽量なサイドネットワークで効率的に微調整を行う「Diffusion Controller(DiffCon)」という新たな手法とアルゴリズムを提案し、Stable Diffusion における生成品質と効率性の両面で既存手法を上回る性能を実証したものである。

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

この論文は、因果的公平性の評価において平均処置効果(ATE)のみに依存する規制が、交絡変数によって「因果的マスキング」を引き起こし、見かけ上の公平性を維持しながら実質的な不平等を隠蔽する深刻なリスクを有することを示し、モデルレベルでの公平性規制の必要性を説いています。

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Foundational World Models Accurately Detect Bimanual Manipulator Failures

この論文は、事前学習されたビジョン基盤モデルの潜在空間で確率的な世界モデルを学習し、その不確実性推定値を用いて二腕マニピュレータの故障を高精度に検出するランタイム監視システムを提案し、既存手法よりもはるかに少ない学習パラメータで優れた性能を示すことを、新規に作成したデータセットを用いて実証したものです。

Isaac R. Ward, Michelle Ho, Houjun Liu, Aaron Feldman, Joseph Vincent, Liam Kruse, Sean Cheong, Duncan Eddy, Mykel J. Kochenderfer, Mac Schwager2026-03-10💻 cs