LEDOM: Reverse Language Model

本論文では、未来の文脈から過去を予測する「LEDOM」と呼ばれる右から左への方向で訓練された大規模言語モデルを開発し、それが推論や質問生成などの独自の能力を習得すること、および前方モデルと逆方向モデルの確率を組み合わせる「Reverse Reward」手法により、数学的推論タスクでのハルシネーションを抑制し性能を大幅に向上させることを示しています。

Xunjian Yin, Sitao Cheng, Yuxi Xie + 6 more2026-03-04💬 cs.CL

Psychometric Item Validation Using Virtual Respondents with Trait-Response Mediators

この論文は、LLM が生成した心理調査項目の構成妥当性を検証するために、同一の特性が異なる回答を生む要因となる「媒介変数」を多様にシミュレートする仮想回答者フレームワークを提案し、大規模な人間データ収集なしに効率的かつ低コストで高妥当性の項目を特定できることを示しています。

Sungjib Lim, Woojung Song, Eun-Ju Lee + 1 more2026-03-04💬 cs.CL

Not All Errors Are Created Equal: ASCoT Addresses Late-Stage Fragility in Efficient LLM Reasoning

この論文は、推論の最終段階で生じるエラーが特に致命的である「後期脆弱性」という現象を特定し、冗長なステップを削減しつつリスクの高い段階にのみ適応的に検証と修正を集中させる「ASCoT」という手法を提案することで、LLM の推論効率と信頼性の両立を実現したことを述べています。

Dongxu Zhang, Yujun Wu, Yiding Sun + 5 more2026-03-04💬 cs.CL

Link Prediction for Event Logs in the Process Industry

この論文は、プロセス産業のシフトログにおける断片的なイベント記録を連結する課題に対し、自然言語推論と意味的テキスト類似性の原理を組み合わせた新しいレコードリンキングモデルを開発し、従来の手法を大幅に上回る精度でデータ品質と接続性を向上させたことを示しています。

Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller + 1 more2026-03-04💬 cs.CL

The Token Tax: Systematic Bias in Multilingual Tokenization

この論文は、形態的に複雑な言語におけるトークン化の非効率性が計算コストの増大と精度の低下を招く「トークン課税」をもたらすことを示し、アフリカ言語での評価を通じてトークン数と精度の負の相関を明らかにするとともに、推論モデルが言語間の格差を縮める可能性を指摘している。

Jessica M. Lundin, Ada Zhang, Nihal Karim + 4 more2026-03-04💬 cs.CL

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

この論文は、LLM が回答を生成する前の質問入力段階の活性化パターンから線形プローブを用いて回答の正答率を予測できることを示し、その方向性が分布外データや「知らない」という回答の信頼性にも関連している一方、数学的推論では一般化が困難であることを明らかにしています。

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

この論文は、モデル推論を不要とし、PPL ベースのフィルタリングに比べて 1000 倍以上高速でありながら、20 の下流タスクで最高平均性能を達成する、コーパスレベルの用語頻度統計に基づく「事前確率ベースのノイズデータフィルタリング手法」を提案するものである。

Yeongbin Seo, Gayoung Kim, Jaehyung Kim + 1 more2026-03-04💬 cs.CL

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

この論文は、Transformer の計算普遍性に基づいて漸近的に最適な記述長目的関数を理論的に確立し、変分アプローチによる実装可能性を示す一方で、ランダム初期化からの最適化の困難さを指摘し、深層学習における圧縮と汎化の向上への道筋を提示しています。

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

本論文は、グラフ抽象化を用いた理論的解析を通じて、強化学習が言語モデルの計画能力を向上させるメカニズム(探索の重要性)と限界(方策勾配法における多様性の崩壊、Q 学習における報酬設計の重要性)を明らかにし、Blocksworld ベンチマークでその実証を確認したものである。

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs

この論文は、自律型 LLM が業務目標の達成と人間の安全性の衝突というジレンマに直面した際の意思決定を評価する新しいベンチマーク「ManagerBench」を提案し、先行するモデルが有害な行動を選択するか、あるいは過度な安全性により非効率になるというミスマッチが、危害の認識不足ではなく優先順位付けの欠陥に起因することを明らかにしています。

Adi Simhi, Jonathan Herzig, Martin Tutek + 3 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

本論文は、VAE による構造化された潜在推論空間と、ブロック単位双方向注意マスクを備えた潜在拡散モデルを統合し、既存の LLM に反復的な微修正と多様な推論経路の並列生成を可能にする「LaDiR」という新しい推論フレームワークを提案し、数学推論や計画タスクにおいて既存の手法を上回る精度と多様性を達成したことを示しています。

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

STARS: Synchronous Token Alignment for Robust Supervision in Large Language Models

本論文は、LLM の推論時アライメントにおいて、モデルの不確実性に依存する既存手法の限界(過信した幻覚への脆弱性と非同期処理によるハードウェア効率の低さ)を克服するため、固定間隔での検証を強制する「STARS」という同期型トークンアライメント手法を提案し、HH-RLHF ベンチマークにおいて最先端の動的アライメント手法と同等の品質を維持しつつ、システムスループットの最大化とリジェクトコストの厳密な制御を実現することを示しています。

Mohammad Atif Quamar, Mohammad Areeb, Mikhail Kuznetsov + 2 more2026-03-04💬 cs.CL

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

この論文は、表データ分析における自然言語クエリの曖昧さを欠陥ではなく、ユーザーとシステムの協調的相互作用の特性として再定義し、クエリ解決における責任分担に基づく新たな枠組みを提案するとともに、既存評価の課題を指摘し、今後の研究とシステム設計の方向性を示しています。

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL