BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

この論文は、大規模言語モデル(LLM)のツール選択における提供者偏りを特定し、その原因を分析した上で、関連ツールのフィルタリングと均一サンプリングによる偏り低減手法を提案するベンチマーク「BiasBusters」を提示するものである。

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

本論文は、採掘現場の監視映像から安全違反を直接検出する新しいビジョン・言語フレームワーク「MonitorVLM」を提案し、ドメイン固有のデータセット、条項フィルタ、行動拡大モジュールの導入により、既存の基盤モデルを大幅に上回る精度で安全監視の自動化を実現したことを示しています。

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

この論文は、ウェアラブル EEG による睡眠ステージ分類において、ラベル不足を克服し臨床レベルの精度を達成するために、教師なし学習(SSL)を体系的に評価し、汎用モデルを上回るドメイン特化型パイプラインの有効性を実証したものである。

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

この論文は、標準的な音声活動検出(VAD)モデルの特定の層に対してハイパーネットワークを用いてパーソナライズされた重みを生成する「HyWA」という手法を提案し、既存の条件付け手法と比較して精度の向上とアーキテクチャの再利用による展開の容易さを両立させることを示しています。

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

本論文は、クロスモーダル注意機構、Grad-CAM++ による帰属分析、および「提示 - 修正」フィードバックループを統合した説明可能なバイアス意識生成フレームワークを提案し、マルチモーダル MNIST やファッション MNIST などのベンチマークにおいて、高い精度、ロバスト性、公平性を達成したことを示しています。

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12🤖 cs.LG

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

本論文は、大規模データに依存せず多視点生成とカスタマイズ忠実性を両立させるため、幾何学的潜在レンダリングと補完技術を採用した新しい拡散モデル「MVCustom」を提案し、カメラポーズ制御とプロンプトベースのカスタマイズを幾何学的整合性を持って実現する手法を提示しています。

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

この論文は、実世界のデータセットにおけるカーネル回帰の学習曲線を、データ共分散行列と目標関数の多項式分解という 2 つの統計量のみから予測する「エルミート固有構造仮説(HEA)」を提案し、その有効性を理論的・実験的に実証するとともに、MLP の学習過程における Hermite 多項式の獲得にも言及しています。

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

KV Cache Transform Coding for Compact Storage in LLM Inference

この論文は、LLM 推論における KV キャッシュの効率的な管理を実現するため、PCA による特徴量非相関化、適応量子化、エントロピー符号化を組み合わせた軽量な変換符号化器「KVTC」を提案し、推論精度を維持しつつ最大 20 倍(特定用途では 40 倍以上)の圧縮率を達成し、既存の手法を上回るメモリ効率化を実現することを示しています。

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Expert Evaluation of LLM World Models: A High-TcT_c Superconductivity Case Study

この論文は、高温超伝導の分野における専門家の知識を評価基準として、6 つの LLM システムを比較検証し、キュレーテッド文献に基づく RAG 方式のシステムが既存のクローズドモデルを上回る包括的かつ証拠に裏打ちされた回答を提供できることを示しています。

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

本論文は、外部ツールの活用を促すために冷間起動と強化学習の 2 段階トレーニングを採用し、実世界のマルチモーダル推論を評価する RealX-Bench を導入することで、ツールを状況に応じて適応的に選択・組み合わせる自律型マルチモーダルモデル「DeepEyesV2」の構築とその有効性を示しています。

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

この論文は、条件付けされた変数の情報を明示的に除去する潜在フローマッチングに基づく「What We Don't C」という手法を提案し、生成モデルを用いて学習表現から捕捉されていない要因を解離・発見する新たなアプローチを示しています。

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

本論文は、自動車テレメトリデータに見られる「緩やかなドリフト」と「急激なスパイク」という異なる時間スケールの動的特性を、双経路エンコーダとデコーダを用いて明示的に分離することで、既存手法よりも頑健な異常検知を実現する「STREAM-VAE」を提案しています。

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

遠隔 sensing 分野において、散在するドキュメントや複雑な制約条件による基盤モデルの選定課題を解決するため、160 以上のモデルを網羅する構造化データベース「RS-FMD」を構築し、自然言語クエリから制約条件を考慮して最適なモデルを自動選定・説明するエージェント「REMSA」を提案し、専門家の評価によるベンチマークでその有効性を実証した論文です。

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

本論文は、医療データにおけるプライバシー漏洩リスクに対処するため、医療概念の階層構造と幾何学的制約を統合し、特定知識の効率的な忘却と汎用医療能力の維持を両立させる階層的二重戦略のアンラーニング手法を提案し、MedMCQA や MHQA などのデータセットで高い忘却率と知識保持率を達成したことを示しています。

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

この論文は、SEC 提出書類や傷害報告などの業界標準データを Isaac Sim の物理シミュレーションと統合し、タスク成功だけでなく実世界の経済的採算性を評価する初の物理ベースのベンチマーク「CostNav」を提案し、既存の 7 つのナビゲーション手法がいずれも経済的に成立していないことを示しています。

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

インドの数学オリンピック問題を対象とした、AI と人間の協働パイプラインにより構築され、312 件の人間検証済み Lean 4 定理を含む新しいベンチマーク「IndiMathBench」を提案し、大規模言語モデルにおける自動形式化の現状と課題を明らかにした。

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

この論文は、生成された動画フレームの各領域における不確実性を高密度に推定し、物理的現実と一致しない「幻覚」を検知・可視化することで、ロボット制御などのタスクにおける信頼性を向上させる新しい不確実性定量化手法「C3」を提案するものです。

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

この論文は、フラグメントベースの言語モデル、強化学習、モンテカルロ木探索を統合した「Trio」というフレームワークを提案し、既存の手法を凌駕する結合親和性、薬物様性、合成容易性、および分子多様性を備えた解釈可能な閉ループ型分子発見を実現することを示しています。

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

この論文は、異なる環境間で最大リスクを最小化する(MaxRM)という原則に基づき、平均二乗誤差、負の報酬、後悔の 3 つのリスク指標に対応するランダムフォレストの新しい変種を提案し、その計算効率性、統計的整合性、および未見のテスト分布に対する保証を実証しています。

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat