A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

この論文は、機械学習のバイナリ分類評価における決定論的視点の重要性を説き、適切なスコアリング則(ブライアースコアなど)の活用を提唱するとともに、実務との乖離を埋めるための理論的枠組み、クリップド・ブライアースコアの導出、および実用的な Python パッケージ「briertools」の提供を通じて、臨床的有用性を含む評価手法の改善を提案しています。

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson2026-03-11🤖 cs.AI

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

本論文は、リソース制約のある環境でも利用可能で、Docker 隔離などの多段階セキュリティを実装した軽量な RESTful プロキシ「MCP Bridge」を提案し、さらに強化学習手法を用いて MCPToolBench++ ベンチマークで 70B 級モデルと競合する性能を達成した Qwen3 系列モデルを開発したことを報告しています。

Arash Ahmadi, Sarah Sharif, Yaser M. Banad2026-03-11🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

本論文は、GRPO における「すべてが不正解なグループ」からの学習欠如を解消するため、ステップごとの評価モデルを用いて回答の多様性を確保し、誤った推論からも学習可能にする「Stepwise Guided Policy Optimization(SGPO)」を提案し、その有効性を理論的および実証的に検証したものです。

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

Let's Verify Math Questions Step by Step

この論文は、数学的問題の形式、論理的一貫性、完全性を段階的に検証する新しいパイプライン「MathQ-Verify」を提案し、既存のベンチマークで最先端の性能を達成して信頼性の高い数学データセットの構築を可能にすることを示しています。

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao Zhang2026-03-11🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

本論文は、従来の手法に比べて高速かつ低リソースで、200 万回以上の編集を可能にする「UltraEdit」という新しいモデル編集手法と、それを評価するための大規模ベンチマーク「UltraEditBench」を提案し、大規模言語モデルの安全でスケーラブルな生涯学習の実現に向けた重要な一歩を踏み出したことを示しています。

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

この論文は、スケーラビリティ、検証可能性、難易度の制御という既存の強化学習タスクの課題を解決するため、充足可能性問題(SAT)に基づき段階的な難易度制御とルールベースの検証を実現する強化学習フレームワーク「SATURN」を提案し、これにより大規模言語モデルの推論能力を大幅に向上させることを示しています。

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

本論文は、クロスモーダルな時間的推論を明示的に必要とするオーディオ・ビジュアル QA ベンチマーク「Daily-Omni」を提案し、多数の基盤モデルを評価することで、現在のマルチモーダル大規模言語モデルがモダリティ間の時間的整合性の確立において依然として課題を抱えていることを明らかにしています。

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang Jiang2026-03-11🤖 cs.AI

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

本論文は、大規模言語モデルなどの基盤モデルを統合したモバイルサービスロボットにおける「具現化された AI」の現状を体系的にレビューし、技術的課題、実世界応用、倫理的側面を分析するとともに、信頼性と適応性を備えた将来の研究方向性を提示するものである。

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

この論文は、大規模言語モデル(LLM)の事前学習で得られた知識を活用し、メタ学習と signSGD を組み合わせて多様なドメインにまたがる時系列データの品質を効率的かつ高精度に評価する新しいフレームワーク「TSRating」を提案し、その有効性を検証したものです。

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong Ng2026-03-11🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

本論文は、協力型マルチエージェント強化学習におけるクレジット割り当て問題に対し、協力ゲーム理論の「コア」に基づく利得配分手法 CORA を提案し、エージェント間の連合貢献を適切に評価することで協調的な最適行動を促進し、既存手法を上回る性能を実現することを示しています。

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

この論文は、現実世界の多変量時系列データが抱えるチャネル間の依存関係、非同期サンプリング、欠損値という 3 つの課題を同時に解決し、堅牢な予測を実現するために、Transformer ベースの「ChannelTokenFormer」という新しいフレームワークを提案し、その有効性を実証したものである。

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

この論文は、単一ドメインデータに依存する低資源言語の言語識別性能を向上させるため、ドメイン不変な表現を学習する教師付き対照学習アプローチ「ConLID」を提案し、低資源言語におけるアウトオブドメインデータでの性能を 3.2 ポイント向上させたことを示しています。

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine Bosselut2026-03-11🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

この論文は、結晶学における質問応答タスクにおいて、LLM および MLLM が専門的な文脈情報をどのように活用するかを評価するための包括的なベンチマークフレームワーク「OPENXRD」を提案し、中規模モデルが文脈情報から最も恩恵を受けること、また AI 生成ではなく専門家による高品質な資料が性能向上に不可欠であることを実証しています。

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim2026-03-11🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

この論文は、ロボットや人間など異なるエンボディメントからのデータを光フローを用いて事前学習した世界モデルと価値関数を活用し、ターゲットとなるロボットの実証データのみで微調整を行う「潜在ポリシー・ステアリング(LPS)」手法を提案し、低データ量環境でもビヘイビア・クローンベースの視覚運動ポリシーを大幅に改善することを示しています。

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

この論文は、視覚的シーングラフとテキスト知識グラフをスペクトラルクラスタリングを用いた「SpecLink」で統合し、複雑なマルチモーダル環境におけるエンティティ整合を目的とした「CMEL」データセットを公開することで、大規模言語モデルの幻覚を軽減し最先端のパフォーマンスを実現する「MMGraphRAG」という新しいフレームワークを提案しています。

Xueyao Wan, Hang Yu2026-03-11🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

この論文は、LLM エージェントを用いて米中間の世論形成をシミュレーションし、事実の抽出、対立視点の提示、反事実的曝露という 3 つのバイアス除去メカニズムを評価した結果、対立視点の提示が最も効果的であり、モデルの地理的起源に依存する内在的バイアスが確認されたことを示しています。

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong Li2026-03-11🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

この論文は、ソースデータや画像合成を必要とせず、中立表情のみを含むターゲットデータを用いて事前学習済みモデルを個人ごとに適応させる軽量な潜在空間ベースの手法「SFDA-PFT」を提案し、プライバシーに配慮した表情認識タスクにおいて最先端の性能を達成することを示しています。

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

AI Blob! LLM-Driven Recontextualization of Italian Television Archives

本論文は、イタリアのテレビ番組『Blob』の手法に触発され、音声認識、意味的埋め込み、検索拡張生成(RAG)技術を統合してアーカイブ映像を自動で再文脈化し、新たな物語的モンタージュを生成する実験システム「AI Blob!」の設計と、メディア史研究および AI 駆動型アーカイブ研究への貢献を提示しています。

Roberto Balestri2026-03-11💬 cs.CL