Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

本論文は、大規模言語モデルによる自然言語からソルバ実行可能な産業最適化モデルへの自動変換において、構造化された知識グラフに基づくタイプ認識型検索拡張生成と最小依存閉包の導入により、既存手法では解決できなかった構造的誤りやコンパイル失敗を克服し、実用的な産業ケースで高い実行可能性と一般化性能を実証したことを示しています。

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

本論文は、オムニマルチモーダル大規模言語モデルにおけるクロスモーダルの幻覚を軽減するため、無関係なモダリティのノイズへの不変性と関連モダリティの変化への感応性を強制し、テキスト依存を抑制する「モダリティ分離型直接選好最適化(MoD-DPO)」を提案し、複数のベンチマークで既存手法を上回る性能を実証したものである。

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

既存のコードエージェント評価が単一リポジトリのバグ修正に偏っている現状を踏まえ、本論文はより現実的な課題を網羅する新しいベンチマーク「BeyondSWE」と検索機能統合フレームワーク「SearchSWE」を提案し、最先端モデルでさえ複雑なタスクにおいて性能が頭打ちになることや、検索による性能向上が一貫しないという課題を明らかにしている。

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

本論文は、自律走行、ロボティクス、ドローンなど多様な物理的実体における汎用性を可能にする共通基盤として「空間知能」に着目し、共有基盤の構築、専門化、そしてモデル統合を行う SSR パラダイムと GRPO を採用した汎用型基盤脳「ACE-Brain-0」を提案し、24 のベンチマークで最先端の性能を達成したことを報告しています。

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

本論文は、マルチステップのツール使用における安全な意思決定を可能にするため、明示的な安全性推論と拒否を第一級の行動として組み込み、ペアワイズな軌道比較に基づく強化学習を用いてエージェントを安全に整列させる新しいポストトレーニングフレームワーク「MOSAIC」を提案し、その有効性を複数のモデルと多様なベンチマークで実証したものである。

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals

この論文は、明示的な評価ラベルを必要とせず、コミュニティがコンテンツに対して示す受容行動(エンゲージメントや維持)から誘発される表現空間の幾何学的構造(高密度領域)を「密度誘導型応答最適化(DGRO)」として活用し、多様なオンラインコミュニティの規範に言語モデルを自動的に適合させる手法を提案しています。

Patrick Gerard, Svitlana Volkova2026-03-04💬 cs.CL

AStar: Boosting Multimodal Reasoning with Automated Structured Thinking

本論文は、計算コストの高い探索や大規模な事後学習を不要とし、事前学習済みモデルに「思考カード」と呼ばれる軽量な推論パターンを動的に適用することで、マルチモーダル推論の精度と効率を大幅に向上させるトレーニング不要のフレームワーク「AStar」を提案するものである。

Jinyang Wu, Mingkuan Feng, Guocheng Zhai + 7 more2026-03-03💬 cs.CL

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

本論文は、2011 年から 2024 年の ICPC ワールドファイナル問題 166 問を用いた新規評価手法「LLM-ProS」により、最先端の LLM 5 種類の推論能力や効率性をベンチマークし、学習手法やデータ汚染の影響を含めたモデルの強みと限界を明らかにしたものである。

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin + 1 more2026-03-03💬 cs.CL