cs.AI 件の論文 | Gist.Science

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

本論文は、自然言語と実行可能コードの間の推論ギャップを解決し、自動車ソフトウェアリリース分析において既存手法を上回る精度と高速性を達成する、関係代数を中間表現として活用した新しい LLM エージェント「GateLens」を提案し、その有効性を実証したものである。

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan Yu2026-03-11🤖 cs.AI

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

この論文は、機械学習のバイナリ分類評価における決定論的視点の重要性を説き、適切なスコアリング則（ブライアースコアなど）の活用を提唱するとともに、実務との乖離を埋めるための理論的枠組み、クリップド・ブライアースコアの導出、および実用的な Python パッケージ「briertools」の提供を通じて、臨床的有用性を含む評価手法の改善を提案しています。

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson2026-03-11🤖 cs.AI

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

本論文は、リソース制約のある環境でも利用可能で、Docker 隔離などの多段階セキュリティを実装した軽量な RESTful プロキシ「MCP Bridge」を提案し、さらに強化学習手法を用いて MCPToolBench++ ベンチマークで 70B 級モデルと競合する性能を達成した Qwen3 系列モデルを開発したことを報告しています。

Arash Ahmadi, Sarah Sharif, Yaser M. Banad2026-03-11🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

本論文は、GRPO における「すべてが不正解なグループ」からの学習欠如を解消するため、ステップごとの評価モデルを用いて回答の多様性を確保し、誤った推論からも学習可能にする「Stepwise Guided Policy Optimization（SGPO）」を提案し、その有効性を理論的および実証的に検証したものです。

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

Let's Verify Math Questions Step by Step

この論文は、数学的問題の形式、論理的一貫性、完全性を段階的に検証する新しいパイプライン「MathQ-Verify」を提案し、既存のベンチマークで最先端の性能を達成して信頼性の高い数学データセットの構築を可能にすることを示しています。

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao Zhang2026-03-11🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

本論文は、従来の手法に比べて高速かつ低リソースで、200 万回以上の編集を可能にする「UltraEdit」という新しいモデル編集手法と、それを評価するための大規模ベンチマーク「UltraEditBench」を提案し、大規模言語モデルの安全でスケーラブルな生涯学習の実現に向けた重要な一歩を踏み出したことを示しています。

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

この論文は、スケーラビリティ、検証可能性、難易度の制御という既存の強化学習タスクの課題を解決するため、充足可能性問題（SAT）に基づき段階的な難易度制御とルールベースの検証を実現する強化学習フレームワーク「SATURN」を提案し、これにより大規模言語モデルの推論能力を大幅に向上させることを示しています。

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

本論文は、クロスモーダルな時間的推論を明示的に必要とするオーディオ・ビジュアル QA ベンチマーク「Daily-Omni」を提案し、多数の基盤モデルを評価することで、現在のマルチモーダル大規模言語モデルがモダリティ間の時間的整合性の確立において依然として課題を抱えていることを明らかにしています。

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang Jiang2026-03-11🤖 cs.AI

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

本論文は、大規模言語モデルなどの基盤モデルを統合したモバイルサービスロボットにおける「具現化された AI」の現状を体系的にレビューし、技術的課題、実世界応用、倫理的側面を分析するとともに、信頼性と適応性を備えた将来の研究方向性を提示するものである。

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

この論文は、大規模言語モデル（LLM）の事前学習で得られた知識を活用し、メタ学習と signSGD を組み合わせて多様なドメインにまたがる時系列データの品質を効率的かつ高精度に評価する新しいフレームワーク「TSRating」を提案し、その有効性を検証したものです。

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong Ng2026-03-11🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

本論文は、協力型マルチエージェント強化学習におけるクレジット割り当て問題に対し、協力ゲーム理論の「コア」に基づく利得配分手法 CORA を提案し、エージェント間の連合貢献を適切に評価することで協調的な最適行動を促進し、既存手法を上回る性能を実現することを示しています。

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

この論文は、現実世界の多変量時系列データが抱えるチャネル間の依存関係、非同期サンプリング、欠損値という 3 つの課題を同時に解決し、堅牢な予測を実現するために、Transformer ベースの「ChannelTokenFormer」という新しいフレームワークを提案し、その有効性を実証したものである。

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

← 前へ次へ →

cs.AI

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Let's Verify Math Questions Step by Step

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

On the mechanical creation of mathematical concepts

QSpark: Towards Reliable Qiskit Code Generation

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method