Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

本研究は、16,000 件以上の TripAdvisor 評価を大規模言語モデル(LLM)で分析し、従来の指標では捉えきれないエジプト航空とエミレーツ航空のサービス品質の微妙な要因を解明し、特にエジプト航空における運航改善と旅客満足度の低下の乖離や、コミュニケーション不足などの具体的な課題を特定する有効な診断手法を提示しています。

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

この論文は、LLM を「ミーム(文化的遺伝子)」の集合体と捉え、モデルとデータの相互作用を記述する「知覚行列」に基づく「ミーム探査」パラダイムを提案することで、従来の評価手法では見逃されていたモデルの多様な振る舞いや隠れた能力構造を解明し、LLM の集団ベースの評価を可能にするものである。

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

この論文は、2 万 3 千人以上の多様なデモグラフィック層から収集された自然な会話データを用いた「HUMAINE」フレームワークを提案し、LLM の評価において年齢による選好の顕著な差異や評価次元ごとの判別力の格差を明らかにするとともに、Google の Gemini 2.5 Pro が最も高評価を得たことを示しています。

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

本論文は、大規模言語モデルの複雑な依存関係を N 次加法的マルコフ連鎖で近似し、高次マルコフ過程に伴う組み合わせ爆発を抑制する手法を提案するとともに、加法的 N 次マルコフ連鎖と段階的メモリ関数を持つ連鎖の等価性を確立し、情報温度の概念を拡張したことを示しています。

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

本論文は、LLM による要約の「意味」を評価する新たな定性的指標「ICR(帰納的概念的評価)」を提案し、従来の語彙類似度指標では捉えきれない文脈に根ざした意味の正確性を、人間による解釈的アプローチを用いて検証したものである。

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

本論文は、構造化されたオントロジー知識をグラフ畳み込みネットワークと統合し、RoBERTa の注意機構を強化した「RoBERTa-OTA」を提案することで、多様な人口統計カテゴリーにおける多クラスヘイトスピーチ検出の精度を大幅に向上させ、計算効率も維持したことを示しています。

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

本論文は、マルチモーダルタスクにおける推論の有用性を定量化し、「思考境界」を確立することで、すべてのタスクに推論を適用するパラダイムを見直し、リソース効率のよい適応型システムの開発を促す「Dual Tuning」というフレームワークを提案しています。

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

この論文は、アラビア語の感情分析における解釈の曖昧さやラベル不足の課題に対処するため、マルチエージェント LLM による信頼性評価を QUBO 最適化と組み合わせることで、高品質なデータサブセットを自動選択し、ドメイン外タスクでも有効なフレーム検出を実現する新しい弱教師あり学習フレームワークを提案するものである。

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

本論文は、RAG 環境における実用的な質問応答ペアを用いた大規模なモデル比較を通じて、LLM を評価者として活用する際、同一入力に対してもモデルや温度設定によってスコアに大きなばらつきが生じることを実証し、生産環境での信頼性確保には監視やハイブリッド評価戦略の必要性を指摘しています。

Fiona Lau2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

異なるベンダーの LLM を組み合わせたマルチエージェントシステムは、単一ベンダーのチームや単一モデルよりも補完的な推論バイアスを活用して臨床診断の精度を向上させるため、医療診断システムの設計においてベンダーの多様性が重要な原則であることが示されました。

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

本論文は、海上安全における VHF 無線の誤解を軽減するため、IMO の標準海事通話語句(SMCP)に準拠し、26 段階の検証パイプラインと LoRA 技術を活用して高品質な合成対話データを生成する自律的指示手法を提案し、その有効性を評価したものである。

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

この論文は、主観的な数値評価の代わりに「何が不足しているか」という自然言語フィードバックに基づいてモデル出力を評価する「What Is Missing (WIM)」という新しい評価システムを提案し、これにより学習信号の質を向上させつつ、評価の根拠となるテキストを確認可能にする解釈性を付与することを示しています。

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

本研究は、20 万を超える査読論文や 40 万行の CFD コードから構築された大規模知識ベースと、RAG から知識グラフ、継続的事前学習へと進む 3 段階の知識注入パイプラインを用いて、燃焼科学分野に特化した大規模言語モデルの開発と評価を可能にする初の包括的フレームワークを提案し、単純な RAG には性能の上限があることを実証しています。

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs