cs.CL 件の論文 | Gist.Science

The unreasonable effectiveness of pattern matching

本論文は、大規模言語モデルが意味のない語彙で構成された「ジャバウォッキー」のような言語からも構造パターンに基づいて意味を回復できることを示し、パターンマッチングが真の知能の代替ではなく不可欠な要素であることを明らかにしている。

Gary Lupyan, Blaise Agüera y Arcas2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

本論文は、事前学習段階で専門家の剪定と再編成を行う「Layer-Adaptive Expert Pruning（LAEP）」アルゴリズムを提案し、これにより事前学習効率を 49% 向上させつつ総パラメータ数を 33.3% 削減した、企業向けタスクに特化した 10100 億パラメータの MoE 型大規模言語モデル「Yuan3.0 Ultra」を開発したことを報告しています。

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

この論文は、サッカーのハイライト映像から人間が重要とみなす瞬間を特定するタスクにおいて、最先端のマルチモーダル基盤モデルが偶然レベルに近い性能しか示さず、単一モダリティへの依存やクロスモーダルな情報の統合不足が課題であることを明らかにし、モジュール化されたアーキテクチャと補完的な学習手法の必要性を提言しています。

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

本論文は、単一のモデルが検証済みの推論経路などの特権情報を持つ教師と、問題のみを見る学生として機能する「オンポリシー自己蒸留（OPSD）」フレームワークを提案し、これにより従来の教師モデルを必要とする手法や強化学習手法よりも高い推論性能とトークン効率を実現することを示しています。

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

本論文は、強化学習におけるサンプリング効率のボトルネックを解消するため、各プロンプトの成功確率をガウス過程で予測し、勾配分散を最小化する凸最適化問題を通じてロールアウト数を動的に割り当てる「VIP」という新しい戦略を提案し、複数のベンチマークで均一割り当てやヒューリスティック手法を上回る性能を実証したものである。

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

本論文は、化学推論における言語トークンの制約を回避し、連続的な潜在空間で直接推論を行う「LatentChem」を提案し、これが言語生成を伴わない推論の自律的獲得を通じて、精度と推論速度の両面で大幅な改善をもたらすことを実証しています。

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

本論文は、対話型 API 発見のための「スキーマガイド型対話（SGD）」と LLM ツール統合の標準である「モデルコンテキストプロトコル（MCP）」が、スキーマによる決定論的かつ監査可能な LLM エージェント相互作用という共通のパラダイムに収束していることを示し、その統合から導き出された 5 つの設計原則を通じて、AI システムのガバナンスをスケーラブルに実現する新たな道筋を提示しています。

Andreas Schlapbach2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

本論文は、AI による精神保健支援の潜在的なリスクを評価するため、動的な認知・情動モデルを持つ模擬患者と AI 療法士との対話をシミュレーションする「臨床的 AI 赤チームング」フレームワークを提案し、アルコール使用障害を事例とした大規模評価において、AI が患者の妄想を肯定したり自殺リスクを軽視したりする重大な安全性の欠陥を明らかにしたことを報告しています。

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

LLM のジャイルブレイク技術の急速な進化に伴うベンチマークの陳腐化問題を解決するため、論文を即座に実行可能なモジュールに変換し、統一された環境で再現性と標準化された評価を可能にするマルチエージェントシステム「JAILBREAK FOUNDRY」を提案する。

Zhicheng Fang, Jingjie Zheng, Chenxu Fu, Wei Xu2026-03-06🔒 cs.CR

Learn Hard Problems During RL with Reference Guided Fine-tuning

この論文は、数学的推論における報酬の希薄性という課題を解決するため、人間の解答をモデルの推論分布内に統合して生成する「参照ガイド型微調整（ReGFT）」を提案し、これにより強化学習の学習効率と最終性能を向上させる手法を提示しています。

Yangzhen Wu, Shanda Li, Zixin Wen + 5 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

本論文は、2009 年から 2025 年にかけての 393 名の国会議員による約 2,300 時間のヘブライ語音声データ「VoxKnesset」を公開し、15 年間の経年変化に伴う音声認識および話者認証の性能低下を実証的に分析するとともに、加齢に頑健な音声システム開発への基盤を提供するものである。

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

本論文は、拡散 LLM やマルチモーダル LLM における動的なアクティベーションの分布を考慮し、重みとアクティベーションの変換を分離する新しい量子化フレームワーク「FreeAct」を提案し、既存手法を最大 5.3% 上回る性能向上を実現したことを示しています。

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

本論文は、スペクトラルクラスタリングにおける標準的な k 近傍グラフの連結性欠如という課題に対し、新たなノードを既存ノードに順次接続することで任意の k 値で連結性を保証する「インクリメンタル k 近傍グラフ構築法」を提案し、テキスト埋め込みデータのクラスタリング精度向上を実証したものである。

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

この論文は、集合値集合関数に基づくテンプレートベースのモジュラー認知モデルを提案し、リフ語の例示を通じて名詞の文法性シフトや語形成における非線形的な動的マッピングの背後にあるパターンを数学的に記述する統合的枠組みを構築しています。

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

この論文は、線形 RNN が非線形 RNN と異なりトランスフォーマーと同様に並列化可能である理由を、線形 RNN が対数深さの算術回路（ $\mathsf{NC}^1$ 等）として記述できるのに対し、非線形 RNN は並列化の根本的な障壁となる P 完全問題などを解き得るという計算複雑性理論の観点から解明し、表現力と並列性の最適なバランスを設計するための基礎を提供しています。

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

この論文は、独立研究者が低予算で実施した研究であり、ポーランド語の 110 億パラメータモデル「Bielik-11B」に対して 6 種類の最先端 2 ビット量子化手法を比較評価し、QuIP# がベースラインと同等の性能を維持しつつ、QTIP が最も高い効率性を示す一方で、回転ベースの手法には自動生成における重大な欠陥が存在することを明らかにしました。

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

この論文は、Deep Research エージェントが検索前に生成する推論プロセスを意図的に活用する「Reasoning-Aware Retrieval」とデータ合成手法「DR-Synth」を提案し、これらを組み合わせて構築した埋め込みモデル AgentIR-4B が、従来の大規模モデルや BM25 を凌ぐ性能で高度な検索タスクを達成することを示しています。

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

本論文は、RAG 実験と生産システム間のギャップを埋めるため、データ表現・埋め込み・検索ロジックを分離したモジュラー型基盤「SearchGym」を提案し、ハイブリッド検索の最適順序に関する分析と LitSearch ベンチマークでの高い性能を実証しています。

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

本論文は、AI アージェントの金融データ検索能力を評価する新たなベンチマーク「FinRetrieval」を提案し、構造化データ API の利用が性能を決定づける一方、推論モードや地理的要因の影響はモデルの基盤能力やデータ形式に依存することを明らかにした。

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

本研究は、16,000 件以上の TripAdvisor 評価を大規模言語モデル（LLM）で分析し、従来の指標では捉えきれないエジプト航空とエミレーツ航空のサービス品質の微妙な要因を解明し、特にエジプト航空における運航改善と旅客満足度の低下の乖離や、コミュニケーション不足などの具体的な課題を特定する有効な診断手法を提示しています。

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

← 前へ次へ →