cs.CL 件の論文 | Gist.Science

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

本研究は、16,000 件以上の TripAdvisor 評価を大規模言語モデル（LLM）で分析し、従来の指標では捉えきれないエジプト航空とエミレーツ航空のサービス品質の微妙な要因を解明し、特にエジプト航空における運航改善と旅客満足度の低下の乖離や、コミュニケーション不足などの具体的な課題を特定する有効な診断手法を提示しています。

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

本論文は、外部報酬の限界や自己評価に伴うハルシネーション蓄積の問題を解決するため、支持証拠の有無に基づく対照尤度報酬（CLR）を導入し、文脈への忠実性を高める新たなハイブリッド報酬枠組み「CTRL-RAG」を提案するものです。

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

有益なデータとの対比なしに有害なデータのみで微調整を行っても、文脈的なトリガーが意味的に誤整合を隔離する性質を自発的に生じさせることが示され、これは標準的な評価では見落とされやすい重大な安全上の欠陥であることを明らかにした。

Rohan Saxena2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

この論文は、LLM を「ミーム（文化的遺伝子）」の集合体と捉え、モデルとデータの相互作用を記述する「知覚行列」に基づく「ミーム探査」パラダイムを提案することで、従来の評価手法では見逃されていたモデルの多様な振る舞いや隠れた能力構造を解明し、LLM の集団ベースの評価を可能にするものである。

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

この論文は、2 万 3 千人以上の多様なデモグラフィック層から収集された自然な会話データを用いた「HUMAINE」フレームワークを提案し、LLM の評価において年齢による選好の顕著な差異や評価次元ごとの判別力の格差を明らかにするとともに、Google の Gemini 2.5 Pro が最も高評価を得たことを示しています。

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

本論文は、英語中心の既存評価の限界を克服し、アラビア語言語モデルの安全性を包括的に評価するための統一ベンチマーク「SalamahBench」を提案し、複数の最先端モデルにおける安全性のばらつきや専用ガードモデルの必要性を実証しています。

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

本論文は、トークンの意味的性質に応じて動的に圧縮率を割り当てることで、既存の手法よりも高い圧縮率でも性能を維持し、KV キャッシュのメモリ使用量を大幅に削減するポストトレーニングフレームワーク「DynaKV」を提案するものである。

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

本論文は、大規模言語モデルの複雑な依存関係を N 次加法的マルコフ連鎖で近似し、高次マルコフ過程に伴う組み合わせ爆発を抑制する手法を提案するとともに、加法的 N 次マルコフ連鎖と段階的メモリ関数を持つ連鎖の等価性を確立し、情報温度の概念を拡張したことを示しています。

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

本論文は、LLM による要約の「意味」を評価する新たな定性的指標「ICR（帰納的概念的評価）」を提案し、従来の語彙類似度指標では捉えきれない文脈に根ざした意味の正確性を、人間による解釈的アプローチを用いて検証したものである。

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

本論文は、構造化されたオントロジー知識をグラフ畳み込みネットワークと統合し、RoBERTa の注意機構を強化した「RoBERTa-OTA」を提案することで、多様な人口統計カテゴリーにおける多クラスヘイトスピーチ検出の精度を大幅に向上させ、計算効率も維持したことを示しています。

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

本論文は、マルチモーダルタスクにおける推論の有用性を定量化し、「思考境界」を確立することで、すべてのタスクに推論を適用するパラダイムを見直し、リソース効率のよい適応型システムの開発を促す「Dual Tuning」というフレームワークを提案しています。

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

この論文は、アラビア語の感情分析における解釈の曖昧さやラベル不足の課題に対処するため、マルチエージェント LLM による信頼性評価を QUBO 最適化と組み合わせることで、高品質なデータサブセットを自動選択し、ドメイン外タスクでも有効なフレーム検出を実現する新しい弱教師あり学習フレームワークを提案するものである。

Rabab Alkhalifa2026-03-06💻 cs

← 前へ次へ →

cs.CL

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

Semantic Containment as a Fundamental Property of Emergent Misalignment

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Context-Dependent Affordance Computation in Vision-Language Models

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

What Is Missing: Interpretable Ratings for Large Language Model Outputs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

SkillNet: Create, Evaluate, and Connect AI Skills

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science