BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

この論文は、トレーニングデータによる汚染を防ぎつつ言語モデルの推論能力を公平に評価するため、アルゴリズム的に動的に生成される数学的基盤を持つ問題セット「BeyondBench」を提案し、101 種類のモデルを対象とした評価を通じて複雑度の上昇に伴う推論能力の限界とツールの有用性を明らかにしたものである。

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

本論文は、ランダム・アダマール変換や確率的丸めなどの手法を組み合わせることで、120 億パラメータモデルを 10 兆トークンで NVFP4 精度で安定して学習させ、FP8 ベースラインと同等の性能を達成する新しいアプローチを提案し、大規模言語モデルの学習効率向上に貢献することを示しています。

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

本論文は、LLM がユーザーの個人差や文脈を自発的に特定し、それに応じて推論プロセスを適応させる「パーソナライズド推論」の必要性を指摘し、心理学的根拠に基づくペルソナを用いた対話型評価手法「PrefDisco」と、それに基づく微細なアライメント指標「PrefAlign」を提案することで、教育や医療など個人化が不可欠な分野におけるシステム開発の基盤を提供するものです。

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

本論文は、大規模言語モデルのハルシネーションやデータ間の関係性の欠如といった課題を解決するため、外部データソースから構築した知識グラフを活用して、意味的一貫性と解決可能性に優れたマルチモーダルエージェントタスクを自動生成するフレームワーク「Graph2Eval」およびその評価ベンチマーク「Graph2Eval-Bench」を提案し、既存手法よりもタスクの質とエージェント性能の識別力を大幅に向上させることを示しています。

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

本論文は、知識グラフを大規模言語モデルに統合する際、従来のプレフィックス結合の限界を克服し、局所的なグラフ構造を明示的な「グラフメモリ」として表現し、トランスフォーマー層におけるクロスアテンションを通じて生成時に微細な証拠を動的に検索可能にする「Graph-as-Memory Tuning (GMT)」という新しいパラダイムを提案し、知識グラフ補完タスクにおいて顕著な性能向上を実現したことを示しています。

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

本論文は、医療や法分野など実世界での利用が増える大規模言語モデル(LLM)の幻覚を検出するため、人工的なベンチマークではなく実際の LLM と人間の対話から構築された初のベンチマーク「AuthenHallu」を提案し、その中で幻覚が 31.4%(数学分野では 60.0%)発生していることと、既存の LLM による検出が実用レベルに達していないことを明らかにしています。

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

本論文は、狭いドメインでのファインチューニングがモデルの活性化値に明確なバイアスを残し、これを用いてファインチューニングの内容を解釈できることを示すとともに、そのバイアスが過学習に起因する可能性や、AI 安全性研究における狭いドメインモデルの代理利用の限界を指摘しています。

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

本論文は、従来の領域理解が欠落していたグローバルな文脈と複数領域間の相互作用を統合し、任意の領域に対する精密な知覚と高度な推論を可能にする「Grasp Any Region (GAR)」モデルと、その評価ベンチマーク「GAR-Bench」を提案し、小規模モデルでも大規模モデルや動画領域に特化したモデルを上回る性能を実証したものである。

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

本論文は、言語内容と非言語的な音声手掛かりの統合を評価する初の多段階ベンチマーク「EchoMind」を提案し、最先端の音声言語モデルが高度な表現力を持つ音声手掛かりの理解や共感的な応答生成において依然として課題を抱えていることを明らかにしています。

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

本論文は、7 世紀から 2025 年までの 1,300 年間にわたる 6 言語・19 種類のソースからなる大規模な公開ドメインテキスト「Open Korean Historical Corpus」を構築し、これを用いてハングルへの移行や北朝鮮の語彙の分岐など、韓国語の歴史的変遷を定量的に分析するとともに、大規模言語モデルの事前学習に資する基盤リソースを提供するものである。

Seyoung Song, Nawon Kim, Songeun Chae + 5 more2026-03-06💻 cs

Steering Awareness: Models Can Be Trained to Detect Activation Steering

この論文は、言語モデルがアクティベーション・ステアリング(潜在空間へのベクトル注入)の存在や注入された概念を検知する能力(ステアリング・アウェアネス)を獲得し得ることを実証し、その検知能力が安全性評価の信頼性や解釈技術の長期的な有効性に重大な影響を与える可能性を指摘しています。

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

本論文は、KV キャッシュの再利用と学習複雑性の低減を実現するために、シーケンス再編成を因果的注意フレームワークに統合し、トークンレベルからスロットレベルへの並列デコーディングを可能にする新たな拡散大規模言語モデル「ReFusion」を提案し、既存のマスク拡散モデルを大幅に上回る性能と高速化を達成したことを示しています。

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

From Word to World: Can Large Language Models be Implicit Text-based World Models?

この論文は、テキストベースの環境において大規模言語モデルが世界モデルとして機能し得るかを検証し、その忠実性、スケーラビリティ、エージェントへの有用性を評価する枠組みを提示するとともに、十分な訓練と行動のカバレッジが条件となり、行動検証や合成軌道生成を通じてエージェントの学習を改善できることを示しています。

Yixia Li, Hongru Wang, Jiahao Qiu + 7 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

この論文は、イベント中心の質問応答や説得的な回答生成といった実世界のタスクにおいて、LLM へのツールや計画の導入が精度向上をもたらす一方で、レイテンシやコストが劇的に増加し、タスクやモデル規模に応じて最適な戦略が異なることを示すベンチマーク結果を報告しています。

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Identifying Good and Bad Neurons for Task-Level Controllable LLMs

本論文は、LLM のタスクレベルの制御を可能にするため、生物学的な機能拮抗の原理に基づき、タスクを促進する「良いニューロン」と抑制する「悪いニューロン」を対照学習で同定し、偶然の正解による誤った帰属を軽減する新たなフレームワーク「NeuronLLM」を提案するものである。

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

F-Actor: Controllable Conversational Behaviour in Full-Duplex Models

本論文は、大規模な事前学習や多段階最適化を必要とせず、限られた計算資源で効率的に学習可能な、話者の声や話題、バックチャネルや割り込みなどの会話行動を明示的な指示で制御できる初のオープンなフルデュプレックス対話音声モデル「F-Actor」を提案するものである。

Maike Züfle, Ondrej Klejch, Nicholas Sanders + 3 more2026-03-06💻 cs