cs.CL 件の論文 | Gist.Science

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

本論文は、オンラインプラットフォームにおける誤った情報や操作への耐性を高めるため、エージェントと意見の信頼性を動的に評価・再配分する「信頼性ガバナンス（Credibility Governance）」というメカニズムを提案し、シミュレーション環境 POLIS において、従来の投票や資本重み付け方式よりも真実への収束が速く、誤った経路依存に陥りにくいことを実証しています。

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

この論文は、マルチモーダル大規模言語モデルを用いたリアルタイムなゲーム動画解説生成において、微調整なしで人間の発話タイミングに合致した動的な間隔ベースのデコーディング手法を提案し、その有効性を検証するとともに多言語ベンチマークを公開したものである。

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

本論文は、マルチモーダル大規模言語モデルの真のクロスモーダル推論能力を評価し、単一モダリティで解ける低品質な問題によるバイアスを排除して効率的かつ信頼性の高いベンチマークを構築するための新しい枠組み「M3IRT」を提案するものである。

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

SemEval-2026 タスク 11 における多言語推論課題に対し、 syllogism を論理的な標準表現に変換し決定論的パースを適用する新規手法を提案することで、LLM の内容バイアスを大幅に低減し、複雑な微調整や活性化レベル介入に代わる競争力のある解決策として全サブタスクでトップ 5 入りを果たしたことを報告しています。

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

この論文は、誤情報に基づく巧妙なヘイトスピーチの分析を可能にするため、3 つの解釈可能な次元（対象、意図、含意）で注釈付けされた新しい多面的データセット「HateMirage」を提案し、説明可能な AI 研究における新たな基準を確立することを目的としています。

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

本論文は、LLM ベースのマルチエージェントシステムにおける通信トポロジー学習の不安定さと課題を解決するため、単一サンプルの絶対報酬に代わり、グループ内での相対的な性能に基づいてエッジの優位性を評価する「Graph-GRPO」という新しい最適化フレームワークを提案し、実験によりその有効性を実証したものである。

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

本論文は、製品レビューから大規模言語モデルを用いて抽出した感覚的属性を蒸留し、SASRec などの逐次推薦モデルに統合することで、行動パターンを補完し推薦精度と解釈可能性を向上させる新しいフレームワーク「ASEGR」を提案しています。

Yeo Chan Yoon2026-03-04💬 cs.CL

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

この論文は、拡散言語モデル（dLLMs）の生成品質を効率的に評価し、適応的な長さ制御を可能にするため、生成されたシーケンス全体のトークンを再生成する確率に基づいて自信を定量化する手法「DiSE」を提案し、その有効性を検証したものです。

Linhao Zhong, Linyu Wu, Wen Wang + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

本論文は、LLM の数学指導能力を包括的に評価するための新しいベンチマーク「KMP-Bench」と大規模対話データセット「KMP-Pile」を提案し、最先端モデルが正解導出は得意だが教育的原則の適用に課題を抱えていること、そして教育的に豊かなデータによる微調整が効果的な AI 指導者開発に不可欠であることを示しています。

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

本論文は、大規模な実世界データセットを用いたベンチマークと自動階層化エラー分析を通じて、強力なマルチモーダル大規模言語モデル（MLLM）は従来の OCR 処理を伴う手法と同等のドキュメント情報抽出性能を画像入力のみで達成し得ることを示し、スキーマや指示の設計がその性能向上に重要であることを明らかにした。

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

この論文は、臨床診断などの高リスク分野における LLM エージェントの判断を検証するために、専門家のガイドラインに基づき証拠を蓄積・集約し、ベイズ回帰で較正された確率を生成する「GLEAN」という検証フレームワークを提案し、その有効性を実証したものである。

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

本論文は、学習者の回答予測という特定の教育タスクにおいて、大規模言語モデル（LLM）よりも専門的な知識追跡モデルの方が、精度、推論速度、コストの面で優れていることを示しています。

Prarthana Bhattacharyya, Joshua Mitton, Ralph Abboud + 1 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

本論文は、音素頻度分布がマクロ的には対称ディリクレ分布の順序統計量として、ミクロ的には発音・音韻・語彙の制約を組み合わせた最大エントロピーモデルとして説明可能であることを示し、これにより音素頻度構造の統合的な情報理論的記述を提供している。

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

大規模視覚言語モデル（LVLM）は、ノードや構造的特徴は視覚エンコーダ内で早期に線形に表現される一方で、エッジ情報は言語モデルのテキストトークン段階まで遅れて現れるため、関係性の理解に課題を抱えていることを、合成図データセットを用いた内部表現の探査により明らかにしました。

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

本論文は、LLM によるペルソナシミュレーションの人間らしさを評価する新たなフレームワーク「Eval4Sim」を提案し、ペルソナ背景の暗黙的反映、一貫性、自然さの 3 つの次元で人間対話コーパスを基準とした多面的な評価を実現するものである。

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

本論文は、各タスクの入力共分散を微調整済みモデルのパラメータ差分から推定する理論的洞察に基づき、データなしでタスク間干渉を低減し、従来の手法を大幅に上回る性能を達成する新しいモデル統合フレームワーク「ACE-Merging」を提案するものである。

Bo Xu, Haotian Wu, Hehai Lin + 4 more2026-03-04💬 cs.CL

Contextualized Privacy Defense for LLM Agents

本論文は、LLM エージェントのプライバシー侵害を静的な防御ではなく、強化学習によって最適化された文脈認識型の「文脈化防御指示（CDI）」という新しいパラダイムで能動的に防ぎ、プライバシー保護と有用性のバランスを大幅に改善する手法を提案しています。

Yule Wen, Yanzhe Zhang, Jianxun Lian + 3 more2026-03-04💬 cs.CL

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Transformer のグローバル依存性モデリング能力と Mamba の線形時間効率性を組み合わせたハイブリッドエンコーダ「MaBERT」を提案し、パディングによる状態汚染を防止する新たな手法により、長文脈の効率的な学習と推論を実現する。

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

本論文は、精神医療分野における大規模言語モデルの信頼性を包括的に評価するための新たなベンチマーク「TrustMH-Bench」を提案し、既存のモデルがその信頼性の多面的な要件において著しく不十分であることを実証しています。

Zixin Xiong, Ziteng Wang, Haotian Fan + 2 more2026-03-04💬 cs.CL

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

本論文は、高品質で大規模な DaTikZ-V4 データセットと逆グラフィックスに基づく強化学習を活用し、小規模なオープンソースモデル「TikZilla」を開発することで、テキストから高品質な TikZ 図を生成する性能を大幅に向上させ、GPT-5 に匹敵する結果を達成したことを報告しています。

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

← 前へ次へ →