Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

この論文は、表データ分析における自然言語クエリの曖昧さを欠陥ではなく、ユーザーとシステムの協調的相互作用の特性として再定義し、クエリ解決における責任分担に基づく新たな枠組みを提案するとともに、既存評価の課題を指摘し、今後の研究とシステム設計の方向性を示しています。

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

本論文は、アトリビューションパッチングとコントラストテキスト対に基づく活性化ベクトルを用いて LLaMA 3.1-8B の特定層を操作する「活性化エンジニアリング」手法を提案し、大規模言語モデルの対話において人間らしい感情的ニュアンスや主体的な関与を効果的に誘導できることを示しています。

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

この論文は、LLM 間の自信度に基づく細粒度の議論(CFD)フレームワークを提案し、新たに作成したメンタルヘルスおよびオンライン安全のデータセットを用いて、従来の手法を上回る自動化データ付与を実現し、下流タスクの性能を大幅に向上させることを示しています。

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

この論文は、LLM の最終層における次のトークンの確率分布から導出される出力エントロピーのプロファイルを用いて、ドメインシフト下でのスライスレベルの精度を推定し、モデルの監視とデータ収集の優先順位付けを可能にする手法を、複数の STEM ベンチマークと多様な LLM において検証したものである。

Pedro Memoli Buffa, Luciano Del Corro2026-03-04💬 cs.CL

Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs

この論文は、ユーザーの安定した性格特性(ビッグファイブ)を潜在的なシグナルとして活用し、性格に合致する選好を抽出して LLM の回答生成に組み込むことで、パーソナライズされた質問応答の精度を大幅に向上させる手法と、それに対応するデータセット「PACIFIC」を提案しています。

Tianyu Zhao, Siqi Li, Yasser Shoukry + 1 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

本論文は、多様な医療ベンチマークで最先端の性能を達成し、閉源の最先端マルチモーダルシステムを上回る医療用マルチモーダル大規模言語モデル「MedXIAOHE」を、エンティティ意識型継続的事前学習、強化学習およびツール拡張エージェント訓練による推論、そして低ハルシネーションのレポート生成などの技術的アプローチを通じて構築・評価したことを報告するものである。

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

Spilled Energy in Large Language Models

この論文は、LLM の最終的な softmax 分類器をエネルギーベースモデルとして再解釈し、追加の学習や活性化の除去を必要とせず、出力ログイットから直接導出される「溢れたエネルギー」と「周辺化エネルギー」という 2 つのトレーニングフリー指標を用いて、ハルシネーションや事実誤認を高精度に検出する手法を提案しています。

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

本論文は、マルチモーダル大規模言語モデルの推論能力向上に向け、報酬設計に焦点を当ててルブリックをモデルの能力に応じて階層化し、動的に重みを調整する「RuCL」という新しいフレームワークを提案し、視覚推論ベンチマークにおいて SOTA となる精度を達成したことを報告しています。

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

本論文は、画像データの制約を克服し大規模な言語カバレッジを実現するため、音声とテキストを融合して大規模言語モデルに統合し、自己進化メカニズムを用いて合成音声データで最適化する「音声ガイド機械翻訳(SMT)」フレームワークを提案し、多言語マルチモーダル翻訳および汎用翻訳タスクにおいて最先端の性能を達成したことを報告しています。

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

この論文は、大規模言語モデルが複雑な研究タスクを解決する能力を評価するための新たなタスク「Super Research」と、多様なドメインにおける 300 の専門的な質問からなるベンチマーク、そして構造化された分解や広範・深掘り検索、グラフに基づく監査プロトコルを含む評価手法を提案するものである。

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

本論文は、異質な形式や注釈基準に起因する研究の断絶を解消するため、エンティティとイベントの両方のコリファレンスを統合し、一貫したフォーマットと評価プロトコルを提供する統一データセット「uCDCR」を構築・分析し、クロスドメインでのモデル汎化性能向上とイベントおよびエンティティの両方の解決の重要性を明らかにしています。

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

この論文は、医療概念のシグネチャに基づいて臨床的に意味のある Yes/No 質問を生成するオントロジーに基づくフレームワーク「QIME」を提案し、従来の解釈可能な埋め込み手法を凌駕しながらブラックボックス型モデルとの性能差を大幅に縮小し、かつトレーニング不要な戦略も可能にすることで、臨床意思決定に有用な解釈性のある医療テキスト埋め込みを実現することを示しています。

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL