Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

この論文は、アラビア語の感情分析における解釈の曖昧さやラベル不足の課題に対処するため、マルチエージェント LLM による信頼性評価を QUBO 最適化と組み合わせることで、高品質なデータサブセットを自動選択し、ドメイン外タスクでも有効なフレーム検出を実現する新しい弱教師あり学習フレームワークを提案するものである。

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

本論文は、RAG 環境における実用的な質問応答ペアを用いた大規模なモデル比較を通じて、LLM を評価者として活用する際、同一入力に対してもモデルや温度設定によってスコアに大きなばらつきが生じることを実証し、生産環境での信頼性確保には監視やハイブリッド評価戦略の必要性を指摘しています。

Fiona Lau2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

異なるベンダーの LLM を組み合わせたマルチエージェントシステムは、単一ベンダーのチームや単一モデルよりも補完的な推論バイアスを活用して臨床診断の精度を向上させるため、医療診断システムの設計においてベンダーの多様性が重要な原則であることが示されました。

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

本論文は、海上安全における VHF 無線の誤解を軽減するため、IMO の標準海事通話語句(SMCP)に準拠し、26 段階の検証パイプラインと LoRA 技術を活用して高品質な合成対話データを生成する自律的指示手法を提案し、その有効性を評価したものである。

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

この論文は、主観的な数値評価の代わりに「何が不足しているか」という自然言語フィードバックに基づいてモデル出力を評価する「What Is Missing (WIM)」という新しい評価システムを提案し、これにより学習信号の質を向上させつつ、評価の根拠となるテキストを確認可能にする解釈性を付与することを示しています。

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

本研究は、20 万を超える査読論文や 40 万行の CFD コードから構築された大規模知識ベースと、RAG から知識グラフ、継続的事前学習へと進む 3 段階の知識注入パイプラインを用いて、燃焼科学分野に特化した大規模言語モデルの開発と評価を可能にする初の包括的フレームワークを提案し、単純な RAG には性能の上限があることを実証しています。

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

本論文は、推論段階での数値的不安定性を最大化する損失関数を最適化することで、入力画像のわずかな変更のみで最先端のマルチモーダル大規模言語モデルの性能を著しく低下させる新たな攻撃手法を提案し、既存の敵対的摂動とは異なる故障モードを実証したものである。

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

本論文は、技術ドメインの検索ベンチマーク「FreshStack」を対象に、2024 年と 2025 年のコーパスの時間的変化を分析し、ドキュメントの移行が起きても検索モデルの評価順位は高い相関を保つことから、時間的に変化するコーパスを用いた再評価でもベンチマークの信頼性が維持されることを示しています。

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

本論文は、AI モデルによるゼロから完結する Web アプリケーション開発を評価する新たなベンチマーク「Vibe Code Bench」を提案し、最先端モデル 16 社によるテストで最高精度が 58.0% に留まったことを明らかにするとともに、自己テストの実施が性能予測に有効であることや評価者の選定が結果に大きく影響することを示しています。

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

本論文は、検索段階と生成段階を協調的にモデル化し、クエリと証拠の意味的整合性を確保するとともに、生成プロセスに証拠を明示的な制約として組み込むことで、事実の信頼性と検証可能性を向上させる新規の検索拡張生成手法を提案しています。

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

この論文は、単一の情報源からの抽出ではなく複数のソースからの証拠統合や因果関係の追跡といった高次な意味理解能力を評価するため、実世界の注目を反映した動的な質問応答ベンチマーク「iAgentBench」を提案し、検索能力だけでなく証拠の統合・活用能力の重要性を実証しています。

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

本論文は、GPT-4.1-nano を用いてデータ可視化リテラシーテストの項目難易度を予測する研究において、視覚とテキストの両方の特徴を組み合わせたマルチモーダル手法が、単一のモダリティを用いる手法よりも高い精度を達成し、LLM の心理計測分析および自動項目作成への可能性を実証したことを報告しています。

Samin Khan2026-03-06💻 cs