CONCUR: Benchmarking LLMs for Concurrent Code Generation

既存のベンチマークが逐次コードに焦点を当てているのに対し、デッドロックや競合状態などの並行性特有の課題を評価できるよう、教科書由来の43問題と72のバリエーションから構成される新しいベンチマーク「CONCUR」を提案し、大規模言語モデルの並行コード生成能力を評価した。

Jue Huang, Tarek Mahmud, Corina Pasareanu + 1 more2026-03-05🤖 cs.LG

Order Is Not Layout: Order-to-Space Bias in Image Generation

この論文は、画像生成モデルにおけるテキストの記述順序が空間配置や役割の紐付けに誤った影響を与える「順序から空間へのバイアス(OTS)」を特定し、その原因がデータ駆動型であることを示すとともに、初期段階での介入や微調整によってこのバイアスを大幅に低減できることを実証しています。

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement

本論文は、大規模言語モデルによる SQL 生成における構文・意味エラーを明示的にモデル化する専用フレームワーク「ErrorLLM」を提案し、構造的特徴と専用エラートークンを用いた高精度なエラー検出と SQL 修正により、既存手法の限界を克服し生成精度を大幅に向上させることを示しています。

Zijin Hong, Hao Chen, Zheng Yuan + 6 more2026-03-05💬 cs.CL

Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

大規模言語モデル(LLM)と小規模言語モデル(SLM)を連携させることで、推論コストを大幅に削減しつつ精度を維持する「COREA」というシステムを提案し、強化学習による自信スコアの較正により、LLM 単独利用に比べて数学および非数学タスクでそれぞれ 21.5% と 16.8% のコスト削減を実現しつつ、精度低下を 2% 以内に抑えることを実証しました。

Chuang Zhang, Zizhen Zhu, Yihao Wei + 5 more2026-03-05🤖 cs.AI

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

既存の科学発見における LLM の直接学習が抱える組み合わせ爆発という数学的困難を、分解されたタスク学習、動機付け階層探索、および有界合成という 3 つの手法により対数複雑性にまで削減し、MOOSE-Star というフレームワークと大規模データセット TOMATO-Star を提案することで、実用的な訓練とスケーラブルな推論を可能にした。

Zonglin Yang, Lidong Bing2026-03-05🤖 cs.LG

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

この論文は、テキストを構造化して推論を支援するプロンプト手法「Structure of Thought(SoT)」を提案し、その評価と改善を目的とした初のベンチマーク「T2S-Bench」を構築することで、大規模言語モデルのテキスト処理能力を大幅に向上させることを示しています。

Qinsi Wang, Hancheng Ye, Jinhee Kim + 12 more2026-03-05🤖 cs.AI

Semantic Bridging Domains: Pseudo-Source as Test-Time Connector

この論文は、トレーニングデータとテストデータの分布シフトに対処するため、疑似ソースドメインを単なる代替ではなくソースとターゲットを繋ぐ「意味的ブリッジ」として位置づけ、それを汎用的な意味情報で修正する段階的意味アライメント(SSA)手法を提案し、ソースドメインやターゲットのラベルが未知の状況でも高精度な適応を実現するものです。

Xizhong Yang, Huiming Wang, Ning Xu + 1 more2026-03-05💬 cs.CL

Benchmarking Motivational Interviewing Competence of Large Language Models

本論文は、大規模言語モデルが実世界の臨床対話において動機付け面接(MI)の能力を評価する MITI 枠組みを用いて検証した結果、特定のモデルが人間の専門家と同等かそれ以上の能力を示し、専門家による識別も困難であったことから、低リソース環境における MI カウンセリングの拡大にオープンソースモデルを含む大規模言語モデルが有効であることを示唆しています。

Aishwariya Jha, Prakrithi Shivaprakash, Lekhansh Shukla + 3 more2026-03-05💬 cs.CL

Coupling Local Context and Global Semantic Prototypes via a Hierarchical Architecture for Rhetorical Roles Labeling

この論文は、法廷文書などのドキュメント内の文の修辞的役割を特定するタスクにおいて、局所的な文脈と大域的な意味プロトタイプを階層的に結合する手法を提案し、新たに作成した米国最高裁判決のデータセットを用いた実験で既存手法を上回る性能を示したことを報告しています。

Anas Belfathi, Nicolas Hernandez, Laura Monceaux + 4 more2026-03-05💬 cs.CL

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

この論文は、サイバー脅威インテリジェンス報告書からハイパーニム・ヒポニム関係を用いて情報を抽出し、神経記号アプローチに基づくマルチエージェントシステムが CLIPS コードを生成して専門システムを構築し、ファイアウォールルールを自動作成することで、脅威への迅速かつ信頼性の高い対応を実現することを提案し、その有効性を実験的に示しています。

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero + 1 more2026-03-05🤖 cs.AI

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

本論文は、フランス語の医療分野におけるオープンエンド型質問応答の評価において、ドメイン適応や軽量モデルの微調整が専門家アノテーションとの整合性を高め、生成モデルに依存しないスケーラブルな評価を可能にすることを示しています。

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils + 2 more2026-03-05💬 cs.CL

Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

本論文は、大規模言語モデル(LLM)の導入が機械翻訳の品質予測パラダイムに与える影響を、多候補のポストエディットデータを用いた事後実験を通じて検証し、LLM の台頭が既存の予測手法の信頼性を変化させつつドキュメントレベル翻訳の課題を緩和することを明らかにしました。

Malik Marmonier, Benoît Sagot, Rachel Bawden2026-03-05💬 cs.CL