cs.CL 件の論文 | Gist.Science

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

この論文は、アラビア語の感情分析における解釈の曖昧さやラベル不足の課題に対処するため、マルチエージェント LLM による信頼性評価を QUBO 最適化と組み合わせることで、高品質なデータサブセットを自動選択し、ドメイン外タスクでも有効なフレーム検出を実現する新しい弱教師あり学習フレームワークを提案するものである。

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

本論文は、RAG 環境における実用的な質問応答ペアを用いた大規模なモデル比較を通じて、LLM を評価者として活用する際、同一入力に対してもモデルや温度設定によってスコアに大きなばらつきが生じることを実証し、生産環境での信頼性確保には監視やハイブリッド評価戦略の必要性を指摘しています。

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

大規模な計算実験により、視覚言語モデル（VLM）が文脈に依存して機能（アフォードアンス）を算出する現象（文脈による意味の大幅な変動）を明らかにし、ロボット工学において静的な世界モデルではなく、動的なオンタロジー投影の必要性を提唱しました。

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

異なるベンダーの LLM を組み合わせたマルチエージェントシステムは、単一ベンダーのチームや単一モデルよりも補完的な推論バイアスを活用して臨床診断の精度を向上させるため、医療診断システムの設計においてベンダーの多様性が重要な原則であることが示されました。

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

本論文は、海上安全における VHF 無線の誤解を軽減するため、IMO の標準海事通話語句（SMCP）に準拠し、26 段階の検証パイプラインと LoRA 技術を活用して高品質な合成対話データを生成する自律的指示手法を提案し、その有効性を評価したものである。

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

この論文は、主観的な数値評価の代わりに「何が不足しているか」という自然言語フィードバックに基づいてモデル出力を評価する「What Is Missing (WIM)」という新しい評価システムを提案し、これにより学習信号の質を向上させつつ、評価の根拠となるテキストを確認可能にする解釈性を付与することを示しています。

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

本論文は、複数の独立して訓練された大規模言語モデル（LLM）間の動的なルーティングとカスケード手法を体系的に分析し、クエリ特性に応じた最適なモデル選択による効率性と性能の両立を可能にする概念枠組みを提示するとともに、今後の課題を明らかにする調査研究である。

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

本論文は、AI エージェントが過去の経験を体系的に蓄積・再利用し、タスク実行の効率と安全性を大幅に向上させるために、20 万を超えるスキルを管理・評価・接続する大規模インフラ「SkillNet」を提案し、その有効性を複数のベンチマークで実証したものである。

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

本研究は、20 万を超える査読論文や 40 万行の CFD コードから構築された大規模知識ベースと、RAG から知識グラフ、継続的事前学習へと進む 3 段階の知識注入パイプラインを用いて、燃焼科学分野に特化した大規模言語モデルの開発と評価を可能にする初の包括的フレームワークを提案し、単純な RAG には性能の上限があることを実証しています。

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

本論文は、推論段階での数値的不安定性を最大化する損失関数を最適化することで、入力画像のわずかな変更のみで最先端のマルチモーダル大規模言語モデルの性能を著しく低下させる新たな攻撃手法を提案し、既存の敵対的摂動とは異なる故障モードを実証したものである。

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

この論文は、回答を含まない文脈情報を用いて質問の曖昧さを解消する書き換え手法を提案し、 Humanity's Last Exam ベンチマークにおいて、従来のプロンプト手法を凌駕する大幅な精度向上（0.14 から 0.37）を実現したことを示しています。

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

本論文は、技術ドメインの検索ベンチマーク「FreshStack」を対象に、2024 年と 2025 年のコーパスの時間的変化を分析し、ドキュメントの移行が起きても検索モデルの評価順位は高い相関を保つことから、時間的に変化するコーパスを用いた再評価でもベンチマークの信頼性が維持されることを示しています。

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

LLM エージェントの長期記憶管理における課題を解決するため、5 つの解釈可能な要因に基づき透明性と効率性を両立する適応型記憶承認制御フレームワーク「A-MAC」を提案し、LoCoMo ベンチマークにおいて最先端のシステムを上回る精度と低遅延を実現したことを示しています。

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

本論文は、動的な対話におけるストリーミング大規模言語モデル（LLM）の定義を統一し、既存の概念の混同を解消する体系的な分類法を提案するとともに、その手法、応用、今後の研究展望を包括的に概説するものである。

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

この論文は、外部の批判とグループ内の試行という二つの自然言語フィードバック源を集約して目標指向の探索を導き、スパースな報酬環境におけるサンプル効率を大幅に向上させる強化学習フレームワーク「GOLF」を提案しています。

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

本論文は、AI モデルによるゼロから完結する Web アプリケーション開発を評価する新たなベンチマーク「Vibe Code Bench」を提案し、最先端モデル 16 社によるテストで最高精度が 58.0% に留まったことを明らかにするとともに、自己テストの実施が性能予測に有効であることや評価者の選定が結果に大きく影響することを示しています。

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

本論文は、検索段階と生成段階を協調的にモデル化し、クエリと証拠の意味的整合性を確保するとともに、生成プロセスに証拠を明示的な制約として組み込むことで、事実の信頼性と検証可能性を向上させる新規の検索拡張生成手法を提案しています。

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

この論文は、単一の情報源からの抽出ではなく複数のソースからの証拠統合や因果関係の追跡といった高次な意味理解能力を評価するため、実世界の注目を反映した動的な質問応答ベンチマーク「iAgentBench」を提案し、検索能力だけでなく証拠の統合・活用能力の重要性を実証しています。

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

本論文は、学生向けに教科書に基づいた回答を提供し、教員向けに講義の分析と振り返りを支援する双方向の AI ツール「Stan」を、クラウドに依存せずオープンウェイトモデルとローカルハードウェアのみで構築・実装し、その設計と課題解決について記述したものである。

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

本論文は、GPT-4.1-nano を用いてデータ可視化リテラシーテストの項目難易度を予測する研究において、視覚とテキストの両方の特徴を組み合わせたマルチモーダル手法が、単一のモダリティを用いる手法よりも高い精度を達成し、LLM の心理計測分析および自動項目作成への可能性を実証したことを報告しています。

Samin Khan2026-03-06💻 cs

← 前へ次へ →