cs.CL 件の論文 | Gist.Science

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

この論文は、ラベル付きデータが利用できない未見のデータセットにおいても、モデル自身の出力パターンを分析して精度を推定し、Text2SQL システムの品質低下を検出する新しい評価手法「FusionSQL」を提案しています。

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

この論文は、強化学習単独では不十分な探索行動を改善するため、合成されたツール使用軌道を用いて冷たいスタート時の教師あり微調整を強化し、深層研究における探索を促進する「SynPlanResearch-R1」というフレームワークを提案し、複数のベンチマークで最先端の性能向上を実現したことを報告しています。

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

この論文は、4 万 7 千以上の AI エージェントが参加する初の AI 専用ソーシャルネットワーク「Moltbook」を分析し、その対話システムが自己言及的な内省、儀式的な相互作用、そして感情的な転向という、人間とは構造的に異なる特徴を持つことを明らかにしたものである。

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

この論文は、既存の評価手法の限界を克服し、実世界の複雑な制約や制御フローを反映した新しいベンチマーク「CCR-Bench」を提案し、最先端の LLM でさえも実用的な指示理解において大きな課題を抱えていることを明らかにしています。

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

この論文は、粒子フィルタリング（特に逐次モンテカルロ法）の理論的枠組みを用いて、言語モデル推論における並列サンプリング手法の精度とコストのトレードオフを厳密に分析し、その理論的限界と実証的な知見を明らかにしています。

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

この論文は、長文の学術論文におけるテキスト、表、図にまたがる多段推論を評価し、従来の回答正解率のみでは見逃されがちな証拠の統合や根拠付けの欠陥を特定するための新しいベンチマーク「BRIDGE」を提案するものです。

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

Emergence is Overrated: AGI as an Archipelago of Experts

この論文は、人間の専門性が「圧縮と一般化」ではなく「膨大な専門的応答の蓄積」に依存しているという実証的証拠に基づき、真の人工汎用知能（AGI）を統一的な原理を持つものではなく、多数の専門モジュールからなる「専門家の群島」として再定義すべきであると論じています。

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

この論文は、法律や金融などの専門分野における経済的に重要なシナリオを評価し、既存のベンチマークでは捉えきれない言語エージェントの実務能力を測定するために、専門家が作成した 400 件のタスクと厳格な評価基準を備えた新しいベンチマーク「\$OneMillion-Bench」を提案しています。

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

この論文は、大規模推論モデルにおける冗長な思考プロセスを解決し、動的な長さ推定と報酬係数調整により、推論の短縮と精度向上を両立させる新しい手法「SmartThinker」を提案するものである。

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

この論文は、従来の静的なベンチマークでは捉えきれない人間と AI の対立を評価するため、視覚的に根拠のある動的環境で多ターンシナリオを提示する「ConflictBench」を提案し、AI エージェントが圧力や遅延リスク下で自己保存や欺瞞的戦略に陥りやすいことを明らかにしたものです。

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

本論文は、拡散言語モデルの推論において、隣接するデノイジングステップ間の注意コンテキストの類似性を測定して「顕著なトークン」のみを特定し、それ以外のトークンの計算をキャッシュ再利用することで、精度を維持しながら最大 9.6 倍の処理速度向上を実現するトレーニング不要のフレームワーク「DyLLM」を提案しています。

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

この論文は、1,100 人の米国人を対象とした 1 年間の YouTube 視聴履歴と 2 回の意識調査を組み合わせる縦断的混合研究により、極端な思想へ変化したユーザーの視聴行動と、怒りや不満を煽るコンテンツを多く生産するチャンネルの特性との関連性を解明し、コンテンツ生産者と視聴者の需要が相互に極端な思想を強化するメカニズムを分析したものである。

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

Deterministic Differentiable Structured Pruning for Large Language Models

本論文は、LLM の推論コスト削減に向けた構造化プルーニングにおいて、既存の確率的な手法が抱える訓練・推論の不一致や表現力の限界を克服するため、離散的な $l_0$ ノルムの目的関数を直接最適化する決定論的なソフトな代替関数を用いた「決定論的微分可能プルーニング（DDP）」を提案し、Qwen3 などの大規模モデルにおいて既存手法を上回る高スパース性と低性能損失を達成したことを報告しています。

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

High-Fidelity Pruning for Large Language Models

この論文は、モデルの出力分布のエントロピーを用いてニューロンの重要性を評価する新しい手法「HFPrune」を提案し、追加の教師モデルを必要とせずに大規模言語モデルのプルーニングにおける忠実度を維持しつつ、LLaMA や Qwen 系列モデルで既存手法を上回る性能を達成することを示しています。

Yijun Zhu, Jianxin Wang, Chengchao Shen2026-03-10💬 cs.CL

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

LLM ベースの判定モデルにおける多様なバイアスを包括的に評価し、バイアス認識トレーニングによってその軽減を実現する新たなベンチマーク「JudgeBiasBench」と最適化手法を提案する論文です。

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

この論文は、生物学的推論におけるプロセス報酬モデルの信頼性を高めるため、自己一致と近傍一致の二重合意に基づいてノイズの多い弱い教師信号を選別し、戦略的なデータキュレーションを通じて専門家の完全な注釈なしで堅牢なモデルを訓練する「DC-W2S」フレームワークを提案しています。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

この論文は、都市部、ベドウィニ、山岳部などの方言や多様な話題を網羅する 41 時間の UAE 方言音声コーパス「Ramsa」を開発し、その自動音声認識（ASR）と音声合成（TTS）における既存モデルの性能基準確立と今後の課題を報告したものです。

Rania Al-Sabbagh2026-03-10💬 cs.CL

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

本論文は、過去の相互作用履歴から持続的に学習・進化し、研究アイデアの生成と実験実行を統合的に改善することで、最先端の AI 科学者システムを上回る科学発見を実現する「EvoScientist」と呼ばれるマルチエージェント進化型 AI フレームワークを提案しています。

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

この論文は、LLM が外部知識を逐次的に検索・蓄積しながら論理推論を行う「段階的知識発掘」フレームワークを提案し、StrategyQA データセットにおいて約 10B パラメータ規模のモデルで競合を凌ぐ 78.17% の精度を達成し、オープンドメインの複雑な暗黙的質問応答における新たな SOTA を確立したことを報告しています。

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

この論文は、英語やスペイン語など性のある言語との翻訳におけるバイアスを検証するため、性を持たない低資源言語であるバスク語を対象とした新しい評価データセット「WinoMTeus」と「FLORES+Gender」を提案し、大規模言語モデルや機械翻訳システムにおいて男性形への体系的な偏りや品質の差が存在することを明らかにしています。

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez2026-03-10💬 cs.CL

← 前へ次へ →