cs.CL 件の論文 | Gist.Science

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

この論文は、表データ分析における自然言語クエリの曖昧さを欠陥ではなく、ユーザーとシステムの協調的相互作用の特性として再定義し、クエリ解決における責任分担に基づく新たな枠組みを提案するとともに、既存評価の課題を指摘し、今後の研究とシステム設計の方向性を示しています。

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL

TransactionGPT

本論文は、世界中の大手決済ネットワークの数十億件の取引データで学習された、3D トランスフォーマーアーキテクチャを採用した新しい基盤モデル「TransactionGPT」を提案し、異常検知や将来取引生成などの下流タスクにおいて既存のモデルや微調整された LLM を凌駕する性能と効率性を示したものである。

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang + 26 more2026-03-04💬 cs.CL

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

本論文は、アトリビューションパッチングとコントラストテキスト対に基づく活性化ベクトルを用いて LLaMA 3.1-8B の特定層を操作する「活性化エンジニアリング」手法を提案し、大規模言語モデルの対話において人間らしい感情的ニュアンスや主体的な関与を効果的に誘導できることを示しています。

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

この論文は、LLM 間の自信度に基づく細粒度の議論（CFD）フレームワークを提案し、新たに作成したメンタルヘルスおよびオンライン安全のデータセットを用いて、従来の手法を上回る自動化データ付与を実現し、下流タスクの性能を大幅に向上させることを示しています。

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

GUMBridge: a Corpus for Varieties of Bridging Anaphora

本論文では、多様なジャンルを網羅し詳細なサブタイプ分類を備えたブリッジング照応のための新規コーパス「GUMBridge」を提案し、その品質評価と大規模言語モデルを用いたタスク性能の検証を通じて、同タスクが依然として困難であることを示しています。

Lauren Levine, Amir Zeldes2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

本論文は、マスク拡散言語モデル（MDLM）において、最適化やサンプリング手順の変更なしに、単一の低次元方向を抽出して活性化を操作する「活性化誘導」手法を提案し、安全拒否制御において従来の手法を上回る効果とアーキテクチャ固有の特性を明らかにしたものである。

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

この論文は、LLM の最終層における次のトークンの確率分布から導出される出力エントロピーのプロファイルを用いて、ドメインシフト下でのスライスレベルの精度を推定し、モデルの監視とデータ収集の優先順位付けを可能にする手法を、複数の STEM ベンチマークと多様な LLM において検証したものである。

Pedro Memoli Buffa, Luciano Del Corro2026-03-04💬 cs.CL

Contextual Drag: How Errors in the Context Affect LLM Reasoning

本論文は、LLM の自己改善プロセスにおいて過去の失敗例が文脈に含まれることで、構造的に類似した誤りが誘発され、性能が低下する「コンテキスト・ドラッグ」という現象を特定し、既存の緩和策では完全な解決が困難であることを示しています。

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs

この論文は、ユーザーの安定した性格特性（ビッグファイブ）を潜在的なシグナルとして活用し、性格に合致する選好を抽出して LLM の回答生成に組み込むことで、パーソナライズされた質問応答の精度を大幅に向上させる手法と、それに対応するデータセット「PACIFIC」を提案しています。

Tianyu Zhao, Siqi Li, Yasser Shoukry + 1 more2026-03-04💬 cs.CL

Steer2Edit: From Activation Steering to Component-Level Editing

この論文は、推論時のアクティベーション操作をモデルコンポーネントレベルの重み編集に変換するトレーニング不要なフレームワーク「Steer2Edit」を提案し、安全性や真実性などの属性制御とモデル性能のトレードオフを大幅に改善することを示しています。

Chung-En Sun, Ge Yan, Zimo Wang + 1 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

本論文は、多様な医療ベンチマークで最先端の性能を達成し、閉源の最先端マルチモーダルシステムを上回る医療用マルチモーダル大規模言語モデル「MedXIAOHE」を、エンティティ意識型継続的事前学習、強化学習およびツール拡張エージェント訓練による推論、そして低ハルシネーションのレポート生成などの技術的アプローチを通じて構築・評価したことを報告するものである。

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

Rethinking the Role of LLMs in Time Series Forecasting

この論文は、大規模な評価を通じて、従来の否定的な見解を覆し、LLM が時系列予測の性能、特にドメイン横断的な汎化において重要な役割を果たし、事前学習知識とモデルアーキテクチャが相補的に機能することを明らかにしています。

Xin Qiu, Junlong Tong, Yirong Sun + 3 more2026-03-04💬 cs.CL

Spilled Energy in Large Language Models

この論文は、LLM の最終的な softmax 分類器をエネルギーベースモデルとして再解釈し、追加の学習や活性化の除去を必要とせず、出力ログイットから直接導出される「溢れたエネルギー」と「周辺化エネルギー」という 2 つのトレーニングフリー指標を用いて、ハルシネーションや事実誤認を高精度に検出する手法を提案しています。

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

この論文は、20 以上の STEM 分野の大学試験問題から構成される多モーダルベンチマーク「CFE-Bench」を提案し、最先端の言語モデルが中間段階の推論を維持する点やステップ効率の面で依然として課題を抱えていることを示しています。

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

本論文は、マルチモーダル大規模言語モデルの推論能力向上に向け、報酬設計に焦点を当ててルブリックをモデルの能力に応じて階層化し、動的に重みを調整する「RuCL」という新しいフレームワークを提案し、視覚推論ベンチマークにおいて SOTA となる精度を達成したことを報告しています。

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

本論文は、画像データの制約を克服し大規模な言語カバレッジを実現するため、音声とテキストを融合して大規模言語モデルに統合し、自己進化メカニズムを用いて合成音声データで最適化する「音声ガイド機械翻訳（SMT）」フレームワークを提案し、多言語マルチモーダル翻訳および汎用翻訳タスクにおいて最先端の性能を達成したことを報告しています。

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

DeepXiv-SDK: An Agentic Data Interface for Scientific Literature

本論文では、LLM エージェントが科学文献にアクセスする際の非構造化データやトークン消費の課題を解決するため、ArXiv などの学術文献を構造化データに変換し、CLI や Python SDK などを介した多層的なデータインターフェース「DeepXiv-SDK」を提案しています。

Hongjin Qian, Ziyi Xia, Ze Liu + 11 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

この論文は、大規模言語モデルが複雑な研究タスクを解決する能力を評価するための新たなタスク「Super Research」と、多様なドメインにおける 300 の専門的な質問からなるベンチマーク、そして構造化された分解や広範・深掘り検索、グラフに基づく監査プロトコルを含む評価手法を提案するものである。

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

本論文は、異質な形式や注釈基準に起因する研究の断絶を解消するため、エンティティとイベントの両方のコリファレンスを統合し、一貫したフォーマットと評価プロトコルを提供する統一データセット「uCDCR」を構築・分析し、クロスドメインでのモデル汎化性能向上とイベントおよびエンティティの両方の解決の重要性を明らかにしています。

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

この論文は、医療概念のシグネチャに基づいて臨床的に意味のある Yes/No 質問を生成するオントロジーに基づくフレームワーク「QIME」を提案し、従来の解釈可能な埋め込み手法を凌駕しながらブラックボックス型モデルとの性能差を大幅に縮小し、かつトレーニング不要な戦略も可能にすることで、臨床意思決定に有用な解釈性のある医療テキスト埋め込みを実現することを示しています。

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

← 前へ次へ →