cs.CL 件の論文 | Gist.Science

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

この論文は、定性的コンテンツ分析の原則を取り入れたナラティブグラフ注釈フレームワークを提案し、6×3 因子実験を通じて注釈の表現形式と距離指標がアノテータ間合意に与える影響を分析することで、経済ナラティブの構造化評価における品質向上と人間ラベル変動への対応策を示しています。

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

本論文は、LLM による生成文章の検出ツールの現状と責任ある活用について概説し、GRE 作文課題を用いた実証分析を通じて、特定の LLM で訓練された検出器が他モデルの生成文への一般化性能を評価し、実用的な検出器の開発・再訓練に関する指針を提示しています。

Jiangang Hao2026-03-05💬 cs.CL

LaTeX Compilation: Challenges in the Era of LLMs

この論文は、LLM 時代における TeX の限界を指摘し、より効率的なデータ構造と高速レンダリング、低エントロピーな形式（.tmu）を特徴とする WYSIWYG 構造化エディタ「Mogan STEM」を提案し、そのコンパイル性能の優位性と LLM 微調整への適性を実証するとともに、.tmu 形式を用いた大規模 LLM 訓練の実験を呼びかけています。

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

この論文は、生成エージェントと評価エージェントが「提案・評価・修正」のプロセスを通じて協調し、強化学習を用いて合成データの品質とゼロショット文書レベルイベント引数抽出の性能を同時に向上させる新しいマルチエージェント協調フレームワークを提案しています。

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

本論文は、コード実行環境を活用したマルチエージェントフレームワーク「Code2Math」を提案し、既存の数学問題を自律的に探索・進化させることで、構造的に異なりかつより高度な難易度の新たな解ける問題を生み出すことを実証している。

Dadi Guo, Yuejin Xie, Qingyu Liu + 7 more2026-03-05💬 cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

本論文は、長期対話における事実の断絶や状態更新の競合といった課題を解決し、LoCoMo 評価でマルチホップ推論の精度を大幅に向上させるとともに、推論時間を約 78% 削減する構造化メモリシステム「AriadneMem」を提案するものである。

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

本論文は、言語モデルの報酬モデルに存在する多様なバイアスを体系的に分析し、それらの低複雑なバイアスを最小限のラベル付きデータで軽減する「メカニスト的報酬整形」という新しい手法を提案するものである。

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

本論文は、医療分野における推論の精度向上とハルシネーションの抑制を目的として、候補回答間の「矛盾」を検知し、外部証拠の取得と内部推論履歴の最適化を反復的に行うマルチラウンド・エージェンティック RAG フレームワーク「MA-RAG」を提案し、7 つの医療 Q&A ベンチマークで平均 6.8 ポイントの精度向上を実現したことを報告しています。

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

本論文は、メモリ精製、原子クエリ学習、密な報酬という 3 つのコンポーネントを導入し、「思考・検索・記憶」の戦略を通じて検索エージェントのオンライン行動を自己進化させる「SE-Search」を提案し、単一 hops および多段 hops 質問応答タスクにおいて既存の強力なベースラインを大幅に上回る性能を達成したことを報告しています。

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

この論文は、農業アドバイスにおける大規模言語モデルの課題を解決するため、専門家がキュレーションした事実データを用いた微調整と安全配慮のある応答生成レイヤーを組み合わせたハイブリッドアーキテクチャを提案し、その有効性を実証したものです。

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

この論文は、大規模言語モデルが人間の意思決定に統合される際、人間の目標選択を代理するものとして信頼できるか検証した結果、モデルは人間とは異なり多様な探索を行わず単一の解に依存する傾向があり、人間の目標選択を模倣する能力は限定的であることを示しています。

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

本論文は、認知科学の知見に基づきエピソード的記憶を抽象的な知識グラフとして構造化し、任意の LLM エージェントにタスク固有の設計変更なしに接続可能な汎用的なメモリモジュール「PlugMem」を提案し、複数のベンチマークで既存の手法を上回る性能と高い情報密度を実現したことを報告しています。

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

この論文は、テスト時にモデル自身を「学生」と「教師」の役割で交互に機能させ、失敗した推論経路を分析して弱点に特化した変種問題を生成する「TTSR」という自己反省型フレームワークを提案し、大規模言語モデルの推論能力を継続的に向上させる手法を提示しています。

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

TATRA は、ラベル付きデータやタスク固有の最適化を一切必要とせず、ユーザーの指示に基づいてその場での例を生成・集約することで、各インスタンスに特化した効果的なプロンプトを構築し、既存の最適化手法を上回る性能を実現するトレーニングフリーのアプローチです。

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

この論文は、10 種類の商用大規模言語モデル（LLM）を対象とした大規模な監査を通じて、学術的引用の捏造（ハルシネーション）発生率がモデルや分野、プロンプト構成によって 11.4%〜56.8% と大きく変動し、複数モデルの合意やプロンプト内反復によるフィルタリング、および外部データベースを参照しない軽量分類器を用いた検出が有効であることを示しています。

MZ Naser2026-03-05💬 cs.CL

← 前へ次へ →

cs.CL