Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

この論文は、大規模言語モデルを用いた自律型 AI 分析者が人間と同様に多様な分析結果を生み出すことを実証し、AI による科学的研究における結果のばらつきを可視化し、透明性を高めるための新たな規範(多宇宙報告とプロンプトの開示)の必要性を提唱しています。

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

この論文は、擬似異常のみで学習し、マルチモーダル大規模言語モデル(MLLM)と逆注意に基づくトークン圧縮を統合したゼロショット動画異常検出フレームワーク「LAVIDA」を提案し、複数のベンチマークデータセットにおいて最先端の性能を達成することを示しています。

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao2026-03-12🤖 cs.AI

PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for Low-dose CT imaging

この論文は、低線量 CT 画像のノイズ除去において、従来の深層学習モデルよりもはるかに軽量かつエネルギー効率に優れながら、解剖学的な詳細を保持しつつ画質を向上させる新しいマルチスケールパッチ学習フレームワーク「PatchDenoiser」を提案し、その有効性を示したものです。

Jitindra Fartiyal, Pedro Freire, Sergei K. Turitsyn, Sergei G. Solovski2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

本論文は、参照画像セグメンテーションの学習において、テキストと視覚の整合性が低い領域を適応的にマスクして除外する「整合性認識マスク学習(AML)」を提案し、アーキテクチャの変更や推論時のオーバーヘッドなしに、すべてのデータセットで最先端の性能と高い頑健性を実現したことを示しています。

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

A Minimal Agent for Automated Theorem Proving

この論文は、反復的な証明の洗練、ライブラリ検索、コンテキスト管理といった主要機能を備えた最小限の自律エージェントを提案し、その単純なアーキテクチャが最先端の手法と競合する性能を示すとともに、サンプル効率とコスト効率の面で単発生成よりも優れていることを実証しています。

Borja Requena, Austin Letson, Krystian Nowakowski, Izan Beltran Ferreiro, Leopoldo Sarra2026-03-12🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

この論文は、サイバーセキュリティにおける正当な防御タスクであっても、攻撃的な内容と類似した用語が含まれると、安全調整された大規模言語モデルが過剰に拒絶する「防衛的拒絶バイアス」が存在し、特にシステム強化やマルウェア解析などの重要な作業において深刻な影響を及ぼしていることを実証的に示しています。

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight2026-03-12🤖 cs.AI

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

本論文は、臨床的な説明責任を高めるため、画像の特定領域を専門モデルで抽出し、それを証拠として活用して推論を行う「CARE」という、臨床ワークフローを模倣したマルチモーダル医療推論のためのエージェンティックフレームワークを提案し、既存の最先端モデルを上回る精度と信頼性を達成したことを示しています。

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

この論文は、ドローンなどの自律システムの倫理的評価における課題を解決するため、ドメイン固有の客観的評価と利害関係者の主観的価値判断を階層ガウス過程でモデル化し、効率的なテスト候補を生成するベイズ実験設計フレームワーク「SEED-SET」を提案し、その有効性を検証したものである。

Anjali Parashar, Yingke Li, Eric Yang Yu, Fei Chen, James Neidhoefer, Devesh Upadhyay, Chuchu Fan2026-03-12📊 stat

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

この論文は、テキストから動画を生成する際に広告ブランドを自然に埋め込むという新たな課題に対し、オフラインでブランド知識ベースを構築し、オンラインで複数のエージェントが協調してプロンプトを反復的に洗練させる「BrandFusion」というマルチエージェントフレームワークを提案し、その有効性を示すものです。

Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu2026-03-12🤖 cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

本論文は、コード分析タスクにおけるマルチタスク学習とパラメータ効率型微調整(PEFT)を統合した初の包括的評価を行い、単一の共有 PEFT モジュールがフル微調整に匹敵する性能を発揮しつつ、ストレージや計算コストを大幅に削減できることを示し、さらにタスクの組み合わせやモデル構造が成功に与える影響を明らかにした。

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

本論文は、既存のアンラーニング手法が抱える汎用能力の低下や知識の不完全な削除といった課題を解決するため、推論能力を活用して特定の知識を正確に除去しつつ他の能力を維持する「Targeted Reasoning Unlearning(TRU)」という新たなアプローチを提案し、その有効性を示したものです。

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

本論文は、アラビア語向けに ModernBERT アーキテクチャを適応させ、トランストークン化による初期化と最大 8,192 トークンの長文脈モデリングの導入が、言語モデル性能の劇的な向上と多様な下流タスクへの強力な転移を可能にすることを示しています。

Omar Elshehy, Omer Nacar, Abdelbasset Djamai, Muhammed Ragab, Khloud Al Jallad, Mona Abdelazim2026-03-12💬 cs.CL

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

本論文は、エッジ環境における MoE モデルの推論を効率化するため、スペキュレイティブデコーディングをメモリ管理の指標として活用し、専門家の需要予測や非同期実行エンジンなどを統合した新しいフレームワーク「MoE-SpAc」を提案し、既存手法を大幅に上回る性能向上を実現したことを示しています。

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

この論文は、大規模言語モデル(LLM)が人間の認知バイアスである「ダニング=クルーガー効果」と類似したパターンを示し、特に性能の低いモデルが過剰な自信を持つ傾向があることを、主要な 4 種類のモデルを用いた大規模な実証研究で明らかにしたものである。

Sudipta Ghosh, Mrityunjoy Panday2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

この論文は、強化学習で探索された高パフォーマンスな変換軌跡をライブラリ化し、多様性を考慮してコンテキストを動的に最適化する連鎖思考フレームワークを提案することで、大規模言語モデルを用いた特徴変換の精度と安定性を向上させる手法を提示しています。

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

この論文は、活性化パッチングを用いて因果的に重要なアテンションヘッドを特定し、回路レベルの分析を自然言語の説明に橋渡しするパイプラインを提案し、GPT-2 Small における間接的対象識別タスクにおいて、LLM 生成の説明がテンプレートベースの手法を上回る品質を持つことを実証するとともに、モデルの自信と説明の忠実性の間に相関がないことを明らかにしています。

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

この論文は、大規模言語モデルの幻覚に関連する行動をユーザー視点で迅速かつ解釈可能に評価するための軽量な測定ツール「システム幻覚尺度(SHS)」を提案し、210 名の参加者による実証評価を通じてその妥当性と実用性を立証したものである。

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL