GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration

この論文は、複数の地域とサンプリング条件を網羅するオープンソースのベンチマークデータセット「GeoChemAD」と、自己教師あり学習を活用したトランスフォーマーベースの枠組み「GeoChemFormer」を提案し、既存の手法を上回る汎用性と精度で鉱物探査における地球化学的異常検出を可能にするものです。

Yihao Ding, Yiran Zhang, Chris Gonzalez, Eun-Jung Holden, Wei Liu2026-03-16🤖 cs.LG

Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation

本論文は、多モーダル推論の中間ステップの検証可能性に焦点を当てた新たなベンチマーク「CRYSTAL」を提案し、既存の精度指標では見逃される推論の欠陥を可視化するとともに、ステップ整合性を因果的に報酬化する「Causal Process Reward (CPR)」と段階的学習法「CPR-Curriculum」により、人手による注釈なしで推論能力を大幅に向上させる手法を確立した。

Wayner Barrios, SouYoung Jin2026-03-16🤖 cs.AI

Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

本論文は、ロボット運動における空間推論能力を評価し、Qwen2.5-VL などの視覚言語モデル(VLM)がゼロショットまたは微調整により高い精度でユーザーの運動制約を解釈できることを示すことで、ロボット運動計画パイプラインへの VLM 統合の可能性を明らかにしています。

Wenxi Wu, Jingjing Zhang, Martim Brandão2026-03-16🤖 cs.AI

BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning

この論文は、大規模な深層学習におけるアクティブラーニングの課題を解決し、既存のオラクル戦略や最先端の手法を上回る性能を持つ「Best-of-Strategy Selector (BoSS)」という、複数の選択戦略のアンサンブルから最適なバッチを選ぶスケーラブルなオラクル手法を提案しています。

Denis Huseljic, Paul Hahn, Marek Herde, Christoph Sandrock, Bernhard Sick2026-03-16🤖 cs.LG

Developing the PsyCogMetrics AI Lab to Evaluate Large Language Models and Advance Cognitive Science -- A Three-Cycle Action Design Science Study

本論文は、ポパーの反証可能性や古典的テスト理論などの核となる理論に基づき、3 つのサイクルからなる行動デザイン科学研究として、大規模言語モデルの評価を目的としたクラウドベースのプラットフォーム「PsyCogMetrics AI Lab」の開発と検証を報告しています。

Zhiye Jin (Nancy), Yibai Li (Nancy), K. D. Joshi (Nancy), Xuefei (Nancy), Deng (Emily), Xiaobing (Emily), Li2026-03-16🧬 q-bio

Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation

Steve-Evolving は、オープンワールド環境における長期的タスクを解決するために、実行の細粒度診断と二重トラックの知識蒸留を密接に連携させる非パラメトリックな自己進化フレームワークであり、経験の構造化、スキルの一般化、失敗からのガードレール生成を通じてモデルパラメータの更新なしにエージェントの能力を継続的に向上させます。

Zhengwei Xie, Zhisheng Chen, Ziyan Weng, Tingyu Wu, Chenglong Li, Vireo Zhang, Kun Wang2026-03-16🤖 cs.AI

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

この論文は、大規模言語モデルによる ESG 報告書の分析におけるハルシネーション(幻覚)を軽減し、信頼性の高い評価を可能にするため、実世界の ESG 報告書に基づいた人間による注釈付き QA データセット「ESG-Bench」を提案し、Chain-of-Thought 推論を用いたファインチューニングがハルシネーションの削減と汎用性の向上に有効であることを示しています。

Siqi Sun, Ben Peng Wu, Mali Jin, Peizhen Bai, Hanpei Zhang, Xingyi Song2026-03-16💬 cs.CL

Developing and evaluating a chatbot to support maternal health care

インドの産科医療向けに、多言語・低リソース環境での信頼性確保を目的としたハイブリッド型チャットボットを開発し、専門家による厳格な評価フローを通じて、高リスクケースの検出と適切な情報提供の両立を実証した。

Smriti Jha, Vidhi Jain, Jianyu Xu, Grace Liu, Sowmya Ramesh, Jitender Nagpal, Gretchen Chapman, Benjamin Bellows, Siddhartha Goyal, Aarti Singh, Bryan Wilder2026-03-16🤖 cs.AI

Semantic Invariance in Agentic AI

この論文は、LLM エージェントの推論が意味的に等価な入力変化に対して安定しているかどうかを評価するためのメタモルフィックテストフレームワークを提案し、モデルの規模が頑健性を予測できないこと(特に小規模な Qwen3-30B-A3B が最も高い安定性を示した)を実証しています。

I. de Zarzà, J. de Curtò, Jordi Cabot, Pietro Manzoni, Carlos T. Calafate2026-03-16🤖 cs.AI

Clustering Astronomical Orbital Synthetic Data Using Advanced Feature Extraction and Dimensionality Reduction Techniques

本論文は、ミニロケット(MiniRocket)などの高度な特徴抽出および次元削減手法を用いた機械学習パイプラインを構築し、約 22,300 個の土星の衛星軌道のシミュレーションデータを効率的にクラスタリングすることで、軌道安定性や共鳴構造などの新たな知見をもたらすことを提案しています。

Eraldo Pereira Marinho, Nelson Callegari Junior, Fabricio Aparecido Breve, Caetano Mazzoni Ranieri2026-03-16🔭 astro-ph

MXNorm: Reusing MXFP block scales for efficient tensor normalisation

本論文は、MXFP8 形式のブロックスケールを再利用して RMSNorm を置き換える「MXNorm」を提案し、正規化に必要なリダクション演算を 32 倍削減するとともに、Llama 3 モデルの学習精度を維持しつつ最大 2.4 倍のカーネル高速化を実現することを示しています。

Callum McLean, Luke Y. Prince, Alexandre Payot, Paul Balança, Carlo Luschi2026-03-16🤖 cs.LG

Learnability and Privacy Vulnerability are Entangled in a Few Critical Weights

この論文は、プライバシー脆弱性と学習性が少数の重みで密接に関連しているという洞察に基づき、重みの値ではなく位置に基づいて重要度を評価し、特定の重みだけをリワインドして微調整する手法を提案することで、メンバーシップ推論攻撃に対する耐性を高めつつモデルの有用性を維持することを示しています。

Xingli Fang, Jung-Eun Kim2026-03-16🤖 cs.LG

LLM Constitutional Multi-Agent Governance

この論文は、LLM による多エージェント間の協力誘導が自律性や公平性を損なう操作に陥るリスクを指摘し、憲法的制約とペナルティ付き最適化を組み合わせた「憲法的多エージェントガバナンス(CMAG)」フレームワークを提案することで、操作を伴わない倫理的に安定した協力を達成できることを示しています。

J. de Curtò, I. de ZarzÃ2026-03-16🤖 cs.AI

From Experiments to Expertise: Scientific Knowledge Consolidation for AI-Driven Computational Research

LLM を活用した計算材料科学において、個々の計算を孤立させずに知識を蓄積・統合するオープンソースプラットフォーム「QMatSuite」を提案し、これにより推論コストを大幅に削減するとともに、文献値からの誤差を劇的に改善し未知の材料への適用でも高い精度を達成することを示しました。

Haonan Huang2026-03-16🔬 cond-mat.mtrl-sci

Visual-ERM: Reward Modeling for Visual Equivalence

本論文は、視覚的忠実度を評価するための微細な報酬信号を提供するマルチモーダル生成報酬モデル「Visual-ERM」を提案し、これにより視覚からコードへの変換タスクにおける強化学習の性能を大幅に向上させ、構造化視覚データの詳細な差異を判定する新たなベンチマーク「VC-RewardBench」も導入したものである。

Ziyu Liu, Shengyuan Ding, Xinyu Fang + 7 more2026-03-16🤖 cs.AI

Multi-objective optimization determines when, which and how to fuse deep networks: an application to predict COVID-19 outcomes

この論文は、パレート多目的最適化を用いて深層学習モデルの融合タイミング・対象・方法を決定する新たな手法を提案し、AIforCOVID データセットにおける COVID-19 重症化予測の精度向上とモデルの信頼性向上を実現したことを報告しています。

Valerio Guarrasi, Paolo Soda2026-03-13🤖 cs.AI