From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

この論文は、定性的コンテンツ分析の原則を取り入れたナラティブグラフ注釈フレームワークを提案し、6×3 因子実験を通じて注釈の表現形式と距離指標がアノテータ間合意に与える影響を分析することで、経済ナラティブの構造化評価における品質向上と人間ラベル変動への対応策を示しています。

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

LaTeX Compilation: Challenges in the Era of LLMs

この論文は、LLM 時代における TeX の限界を指摘し、より効率的なデータ構造と高速レンダリング、低エントロピーな形式(.tmu)を特徴とする WYSIWYG 構造化エディタ「Mogan STEM」を提案し、そのコンパイル性能の優位性と LLM 微調整への適性を実証するとともに、.tmu 形式を用いた大規模 LLM 訓練の実験を呼びかけています。

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

この論文は、生成エージェントと評価エージェントが「提案・評価・修正」のプロセスを通じて協調し、強化学習を用いて合成データの品質とゼロショット文書レベルイベント引数抽出の性能を同時に向上させる新しいマルチエージェント協調フレームワークを提案しています。

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

本論文は、医療分野における推論の精度向上とハルシネーションの抑制を目的として、候補回答間の「矛盾」を検知し、外部証拠の取得と内部推論履歴の最適化を反復的に行うマルチラウンド・エージェンティック RAG フレームワーク「MA-RAG」を提案し、7 つの医療 Q&A ベンチマークで平均 6.8 ポイントの精度向上を実現したことを報告しています。

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

本論文は、メモリ精製、原子クエリ学習、密な報酬という 3 つのコンポーネントを導入し、「思考・検索・記憶」の戦略を通じて検索エージェントのオンライン行動を自己進化させる「SE-Search」を提案し、単一 hops および多段 hops 質問応答タスクにおいて既存の強力なベースラインを大幅に上回る性能を達成したことを報告しています。

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

この論文は、大規模言語モデルが人間の意思決定に統合される際、人間の目標選択を代理するものとして信頼できるか検証した結果、モデルは人間とは異なり多様な探索を行わず単一の解に依存する傾向があり、人間の目標選択を模倣する能力は限定的であることを示しています。

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

本論文は、認知科学の知見に基づきエピソード的記憶を抽象的な知識グラフとして構造化し、任意の LLM エージェントにタスク固有の設計変更なしに接続可能な汎用的なメモリモジュール「PlugMem」を提案し、複数のベンチマークで既存の手法を上回る性能と高い情報密度を実現したことを報告しています。

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

この論文は、テスト時にモデル自身を「学生」と「教師」の役割で交互に機能させ、失敗した推論経路を分析して弱点に特化した変種問題を生成する「TTSR」という自己反省型フレームワークを提案し、大規模言語モデルの推論能力を継続的に向上させる手法を提示しています。

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

TATRA は、ラベル付きデータやタスク固有の最適化を一切必要とせず、ユーザーの指示に基づいてその場での例を生成・集約することで、各インスタンスに特化した効果的なプロンプトを構築し、既存の最適化手法を上回る性能を実現するトレーニングフリーのアプローチです。

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

この論文は、10 種類の商用大規模言語モデル(LLM)を対象とした大規模な監査を通じて、学術的引用の捏造(ハルシネーション)発生率がモデルや分野、プロンプト構成によって 11.4%〜56.8% と大きく変動し、複数モデルの合意やプロンプト内反復によるフィルタリング、および外部データベースを参照しない軽量分類器を用いた検出が有効であることを示しています。

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

この論文は、労働省弁護士による手作業の基準データ(LaborBench)を用いて法的 RAG ツールを評価し、STARA が大幅な精度向上(83%)を達成した一方で西法や Lexis の商用 AI は標準 RAG よりも劣る結果を示し、さらに基準データ自体に欠落があったことを発見して、正確な多管轄法域調査を実現するための設計指針を提示している。

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

HumanLM: Simulating Users with State Alignment Beats Response Imitation

既存のユーザーシミュレーターが表面的な言語パターンの模倣に留まるのに対し、本論文は強化学習を用いてユーザーの信念や感情といった潜在的な状態を地対正解と整合させることで、より現実的なユーザーをシミュレートする新たなフレームワーク「HumanLM」を提案し、大規模ベンチマーク「Humanual」および実証実験において他手法を大幅に上回る性能を実証した。

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

この論文は、構造化生成における構文エラーを回避しつつ意味的な整合性を維持するため、無制約ドラフト生成と条件付き制約デコーディングを組み合わせるトレーニング不要の手法「DCCD」を提案し、小規模モデルでも大規模モデルに匹敵する高い構造化精度を実現することを示しています。

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI