cs.CL 件の論文 | Gist.Science

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

既存の幻覚検出手法の性能が、モデルの真の内部情報への気づきではなく、質問側の情報を利用したベンチマークハッキングに依存していることを示すため、人間の手間をかけずにこの影響を定量化する手法「Approximate Question-side Effect (AQE)」を提案し、その分析結果を通じて既存手法の限界を明らかにした。

Yeongbin Seo, Dongha Lee, Jinyoung Yeo2026-03-11💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本論文は、ビデオ条件付き音声生成（Video-to-Sound）と視覚テキスト音声合成（VisualTTS）という従来別個のタスクを、ディテトランス（DiT）アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

本論文は、視覚的手がかりと環境音の両方を用いた動画のユーモア理解を評価するための新しいベンチマーク「v-HUB」を提案し、マルチモーダル大規模言語モデルの現状の課題と音声モダリティの重要性を実証しています。

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

DRBench: A Realistic Benchmark for Enterprise Deep Research

本論文は、企業の深層調査タスクを評価するための新しいベンチマーク「DRBench」を提案し、公開 Web と社内ナレッジベースの両方から情報を統合して多段階の複雑な質問に答える AI エージェントの能力を、10 の異なるドメインにわたる 100 のタスクを用いて包括的に評価する手法を提示しています。

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. Laradji2026-03-11💬 cs.CL

Latent Speech-Text Transformer

音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本論文は、複雑な問題解決における推論能力の限界と検証の信頼性という 2 つのボトルネックを解決するため、構造化されたツール呼び出し、ターンレベルの強化学習、そして検証と長期記憶を組み合わせた進化ループを統合した「AlphaApollo」という自律的推論システムを提案し、複数の数学推論ベンチマークで顕著な性能向上を実証しています。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本論文は、ナビゲーションエージェントの空間知能を体系的に評価する新しいベンチマーク「NavSpace」と、それにおいて既存モデルを上回る性能を示す新しいナビゲーションモデル「SNav」を提案するものである。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

本論文は、言語モデルの推論能力と事実知識を分離して評価するための「SynthWorlds」というフレームワークを提案し、現実世界と構造的に同一だが知識が無意味な合成世界という平行コーパスを用いて、両者の区別が依然として課題であることを実証しています。

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim Althoff2026-03-11💬 cs.CL

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

本論文は、トークナイザーの効率性を含む「情報容量」という新たな指標を提案し、大規模言語モデルの推論効率を定量化するとともに、モデルサイズやベンチマークスコアとの相関を実証的に検証したものである。

Cheng Yuan, Jiawei Shao, Xuelong Li2026-03-11💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

LLM による多エージェントシミュレーションで生成された査読者 - 著者間の議論を異種グラフとして表現し、グラフニューラルネットワークによる推論を通じて従来の手法を大幅に上回る精度で論文査読を自動化する「ReViewGraph」という新しい枠組みが提案されています。

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min Yang2026-03-11💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

この論文は、2021 年から 2024 年の 565 万件の科学論文を分析し、生成 AI の利用が英語圏以外の研究者による学術的英語のスタイルを、特に言語的距離が大きい国や低インパクトのジャーナルにおいて、米国英語へと収束させる傾向を強めていることを示しています。

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf Weder2026-03-11💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

本論文は、現実のマルチモーダルな対話環境におけるユーザーのスタンス検出を目的として、ユーザー中心の新しいデータセット「U-MStance」を構築し、ユーザーのパーソナリティを考慮して視覚・言語情報を統合的に推論するフレームワーク「PRISM」を提案するものである。

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng Xu2026-03-11💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

この論文は、虚偽ニュース検出から拡散予測への研究の転換に伴う実装上の課題を、EVONS と FakeNewsNet の 2 つのデータセットを用いた評価先行アプローチで検証し、拡散予測の精度が閾値設定や早期観測ウィンドウなどの運用選択に大きく依存する一方、強力なテキスト埋め込みが得られれば虚偽ニュース検出は比較的安定していることを示し、限られたリソースでも最先端と競合可能な軽量かつ透明なパイプラインの構築方法を提案しています。

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)2026-03-11💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

この論文は、教育分野の専門用語の曖昧さを解消し事実性を高めるため、エンティティリンキングとハイブリッド再ランク付けを統合した「ELERAG」と呼ばれる新しい RAG アーキテクチャを提案し、ドメイン固有のデータセットにおいて従来の手法を上回る性能を実証したものである。

Francesco Granata, Francesco Poggi, Misael Mongiovì2026-03-11🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

この論文は、LLM による専門レポート生成の評価課題を解決するため、専門家が策定した詳細な評価基準と主張検証アーキテクチャを備えたベンチマーク「DEER」を提案し、既存の深層研究システムが構造的には優れているものの、専門的な要求の充足や論理的完全性において改善の余地があることを明らかにしています。

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak Lee2026-03-11💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

本論文は、従来の活性化量に基づく手法の限界を克服し、ターゲット言語への予測への機能的貢献度を評価する介入ベースのフレームワーク「CRANE」を提案することで、多言語大規模言語モデルにおける言語固有のニューロンをより精密に特定し、言語選択的かつ非排他的な専門化の存在を実証するものである。

Yifan Le, Yunliang Li2026-03-11🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

本論文は、EVM 互換チェーンにおける自然言語によるトランザクションコード生成の安全性と実行精度を動的に評価するためのベンチマーク「EVM-QuestBench」を提案し、20 のモデルを評価して単一動作の精度と多段階ワークフローの完了率の間に大きな非対称性があることを明らかにしたものである。

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi2026-03-11💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

本論文は、音声生成の基盤である離散音声表現トークン（DSRT）におけるアクセント情報の符号化を初めて体系的に調査し、アクセントの可視化と復元を評価する新たな枠組みを用いて、層の選択が最も重要であり、ASR による監督がアクセント情報を大幅に減少させること、そして単純なコードブック縮小ではアクセントを他の情報から分離できないことを明らかにしました。

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter Bell2026-03-11⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

この論文は、自己進化型合成データ生成エンジン「EigenData」と検証器に基づく強化学習を組み合わせた統合フレームワークを提案し、高品質な多ターン対話ツール利用データの自動生成と効率的な学習を実現することで、人手を介さずに複雑なツール利用行動をスケーラブルに習得できることを示しています。

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi Wu2026-03-11🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

本論文は、難易度に応じてトークンごとに可変長の潜在連鎖推論（CoT）を生成し、パラメータ数の増加なしに推論能力を向上させる「アダプティブ潜在 CoT」を提案し、単一段階の事前学習で実現可能であることを示しています。

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan Lin2026-03-11💬 cs.CL

← 前へ次へ →