AI Act Evaluation Benchmark: An Open, Transparent, and Reproducible Evaluation Dataset for NLP and RAG Systems

この論文は、EU 人工知能法への準拠評価を支援するため、大規模言語モデルとドメイン知識を組み合わせることで作成された、リスク分類や義務生成などのタスクを含むオープンで再現性の高いデータセットと評価手法を提案するものです。

Athanasios Davvetas, Michael Papademas, Xenia Ziouvelou, Vangelis Karkaletsis2026-03-11🤖 cs.AI

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

この論文は、臨床ガイドラインの更新に柔軟に対応し、再学習なしでゼロショットで放射線治療の標的体積を自動描画する新しい AI エージェント「OncoAgent」を提案し、その性能が教師ありモデルと同等でありながら医師からの評価も高いことを示しています。

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

この論文は、大規模な基礎モデルにおける不確実性の定量化と計算コストの両立を実現するため、混合専門家(MoE)層のルーティング段階にベイズ推論を限定した「変分混合専門家ルーティング(VMoER)」を提案し、較正誤差の大幅な削減と分布外データに対する性能向上を、計算コストの増加を最小限に抑えながら達成することを示しています。

Albus Yizhuo Li, Matthew Wicker2026-03-11🤖 cs.AI

An Empirical Study and Theoretical Explanation on Task-Level Model-Merging Collapse

本論文は、異なるタスクに特化したモデルを結合する際に生じる「結合崩壊」現象を特定し、パラメータ空間の競合ではなく表現の非互換性がその主因であることを実証的に示すとともに、レート歪み理論を用いてタスクの結合可能性に本質的な限界があることを理論的に説明するものである。

Yuan Cao, Dezhi Ran, Yuzhe Guo, Mengzhou Wu, Simin Chen, Linyi Li, Wei Yang, Tao Xie2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

本論文は、視覚エンコーダの解凍による知覚性能の低下と長期計画における不安定性という課題を解決するため、自己アンカー型知覚制約とオラクル指導軌道最適化を統合した新しい協調的知覚・計画蒸留フレームワーク「EvoDriveVLA」を提案し、オープンループおよびクローズドループ評価の両方で最先端の性能を達成したことを報告しています。

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

この論文は、大規模言語モデルを活用した進化アルゴリズムを用いて PDDL で記述された古典的計画タスク向けの汎用的なプランナーを自動生成する「GenePlan」という新しいフレームワークを提案し、既存の最先端プランナーと同等の性能を発揮しながら、他の LLM ベースの手法を大幅に上回る結果を示したことを報告しています。

Andrew Murray, Danial Dervovic, Alberto Pozanco, Michael Cashmore2026-03-11🤖 cs.AI

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

この論文は、過去の観測値に基づいて正常な時系列データの確率分布を正確にモデル化し、低確率事象を検出することで多変量時系列の異常検知を可能にする「時系列条件付き正規化フロー(tcNF)」という新しい枠組みを提案し、その有効性を検証したものである。

David Baumgartner, Helge Langseth, Kenth Engø-Monsen, Heri Ramampiaro2026-03-11🤖 cs.AI

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

本論文は、特定ドメインでファインチューニングされたターゲットモデルに対するスペキュレイティブデコーディングの性能低下を、パラメータとデータの両面で効率的にドラフトモデルを適応させる新フレームワーク「EDA」により解決し、再学習コストを大幅に削減しながら平均受入長を向上させることを提案しています。

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

この論文は、ビッグファイブの性格特性に基づいて大規模言語モデル(LLM)にパーソナライズされたデマ訂正メッセージを生成させる手法を提案し、同様に性格特性をシミュレートした別の LLM を評価者として用いることで、パーソナライズされたメッセージが一般のメッセージよりも説得力が高いことを実証するとともに、その技術的有用性と倫理的課題を明らかにしています。

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. Passaro2026-03-11🤖 cs.AI

Compiler-First State Space Duality and Portable O(1)O(1) Autoregressive Caching for Inference

本論文は、Mamba-2 の状態空間双対性アルゴリズムを XLA の最適化パスに直接マッピングすることで、CUDA 固有のカーネルに依存せず CPU、NVIDIA GPU、Google Cloud TPU 単一ソースから実行可能なポータブルかつ O(1)O(1) のオートレグレイシブキャッシングを実現し、TPU 上で高い性能と精度を確認したことを報告しています。

Cosmo Santoni2026-03-11🤖 cs.AI

Routing without Forgetting

本論文は、オンライン継続学習の課題に対処するため、現代ホップフィールドネットワークに着想を得たエネルギーベースの連想検索層をトランスフォーマーに統合し、反復的な勾配最適化なしに動的にタスク固有の表現部分空間を選択する「Routing without Forgetting(RwF)」という新しいアーキテクチャを提案し、クラス増加ベンチマークにおいて既存のプロンプトベース手法を大幅に上回る性能を示したことを報告しています。

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto Spampinato2026-03-11🤖 cs.AI

A Variational Latent Equilibrium for Learning in Cortex

この論文は、エネルギー保存と作用の極値の原理に基づき、時間連続的な神経ネットワークにおける誤差伝播を生物学的に妥当な局所学習則として導出する「変分潜在平衡」の一般形式を提案し、逆伝播法(BPTT)の生物学的実装と物理回路の設計指針を提供するものである。

Simon Brandt, Paul Haider, Walter Senn, Federico Benitez, Mihai A. Petrovici2026-03-11🤖 cs.AI

Context Engineering: From Prompts to Corporate Multi-Agent Architecture

この論文は、単なるプロンプト設計を超えて、エージェントの意思決定環境を設計・管理する「コンテキストエンジニアリング」を中核とし、意図設計や仕様設計と統合した新たな成熟度モデルを提案し、大規模マルチエージェントシステムの展開における課題を解決する枠組みを提示しています。

Vera V. Vishnyakova2026-03-11🤖 cs.AI

Grounding Synthetic Data Generation With Vision and Language Models

本論文は、リモートセンシング分野における合成データの解釈可能な生成と評価を可能にするビジョン・言語統合フレームワークを提案し、実画像と合成画像、セグメンテーションマップ、説明文を含む大規模データセット「ARAS400k」を構築することで、合成データを用いた拡張学習が実データのみを用いた学習よりも高い性能を発揮することを示しました。

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

LLM エージェントが知識の検索劣化やルール合成の困難さ、古くなった知識の検出に直面する課題に対し、確定的なルール検索、ベイズ推論に基づく矛盾認識メモリ、そしてパレート最適化を用いたプロンプト進化ループ「COMPASS」を統合した PRECEPT 枠組みが、テスト時適応において大幅な性能向上と頑健性を達成することを示しています。

Arash Shahmansoori2026-03-11🤖 cs.AI

MM-tau-p2^2: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

本論文は、顧客体験管理におけるパーソナ適応を考慮した双制御環境下でのマルチモーダルエージェントの堅牢性を評価するため、FOCAL の成果を踏まえて 12 の新規指標を提案し、GPT-5 や GPT-4.1 などの最先端モデルを用いた電信・小売分野での評価結果を示す MM-tau-p2^2ベンチマークを提案するものです。

Anupam Purwar, Aditya Choudhary2026-03-11🤖 cs.AI