cs.CL 件の論文 | Gist.Science

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

この論文は、複数のツールの情報を組み合わせることで意図せず機密情報が漏洩する「ツール編成プライバシーリスク（TOP-R）」という新たな脅威を初めて体系的に研究し、評価ベンチマークと緩和策を提案するものである。

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

この論文は、大規模言語モデルのトレーニングデータへの所属を推測する攻撃において、平均損失などのグローバルな指標に依存する従来の手法の限界を克服し、局所的な文脈における記憶信号を捉える「WBC（ウィンドウベース比較）」という新しい手法を提案し、その有効性を複数のデータセットで実証したことを述べています。

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

この論文は、7 つの可読性指標を統合したクラスタリング手法と独自のデータセットを用いて大規模言語モデルを微調整する枠組みを提案し、これにより回答の正確性を保ちつつ、小学低学年から成人教育までの 6 つの学年レベルに合わせた適切な教育コンテンツを生成し、プロンプトベースの手法と比較して 35.64 ポイントも学年適合性を向上させたことを示しています。

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

この論文は、USAS 意味分析フレームワークを用いた多言語（5 言語）における意味タグ付けの包括的評価を実施し、人手付きデータ不足を克服するため銀ラベルデータを活用してルールベースシステムとニューラルネットワークをハイブリッド化した PyMUSAS フレームワークを提案し、そのコードやデータセットをオープンソースとして公開したものである。

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

この論文は、強化学習による事後学習で生じる探索の崩壊という課題に対し、追加学習なしに中間層の事後分布を統合してエントロピーを最大化する「Latent Exploration Decoding」という新しいデコーディング戦略を提案し、複数の推論ベンチマークで精度を向上させることを示しています。

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

本論文は、関連性と多様性を同時に最適化し、高圧縮率下でも冗長性を排除して重要な情報を保持する「Marginal Information Gain（MIG）」指標を導入した粗粒度から細粒度への適応的コンテキスト圧縮フレームワーク「COMI」を提案し、長文脈タスクにおいて既存手法を大幅に上回る性能を示すことを実証しています。

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng2026-03-09💬 cs.CL

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

この論文は、Google の Gemini モデルを用いた対話的協力や神経記号ループなどの手法を通じて、理論計算機科学や物理学などの分野で未解決問題の解決や新たな証明の生成を成功させた事例を紹介し、AI が単なる自動化ツールを超えて科学的発見における真のパートナーとなり得る可能性を示しています。

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

この論文は、自然言語で数学的推論を生成・検証・修正する自律型研究エージェント「Aletheia」を紹介し、オリンピックレベルの問題から博士課程レベルの課題、さらには人間の介入なしに構造定数を計算する論文の作成や未解決問題の解決に至るまで、AI 支援数学研究における新たな自律性の段階と透明性の枠組みを提案しています。

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

本論文は、強化学習を用いて大規模言語モデルの適応に向けた最適なデータレシピを自動生成する「DataChef」を提案し、人間が手動で設計したレシピと同等、あるいはそれ以上の性能を達成したことを示しています。

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

本論文は、機械学習における「グランドトゥルース」の概念が人間の不一致を単なるノイズとして誤って扱っている「コンセンサスの罠」を批判的に分析し、多様な人間の経験を反映するプラリスティックなアノテーション基盤の構築を提唱するものである。

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

本論文は、OpenReview の査読質問から構築した報酬モデル「IntelliReward」と強化学習手法を用いて、証拠に基づき深い洞察を持つ高品質な研究質問を生成するモデル「IntelliAsk」を開発し、その汎用的な推論・執筆能力の向上を実証したものである。

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

本論文は、ニュース報道における多様な表現やフレーミングを捉えるため、NewsWCL50 データセットのクロスドキュメント中核参照解決（CDCR）アノテーションを、同一性および近接同一性の両方を含む談話要素（DEs）の連鎖として再定義し、統一されたコードブックを用いて再アノテーションと評価を行ったものである。

Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp2026-03-09💬 cs.CL

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

本論文は、音声 LLM が ASR と LLM のカスケード構成と本質的に同等の挙動を示すことを示し、多くの実用ケースでは高コストなカスケードに過ぎず、特に雑音条件下では性能が劣ることを実証しています。

Jayadev Billa2026-03-09🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

この論文は、大規模データ環境におけるテキストから SQL への変換（Text-to-Big SQL）を評価する際、従来のベンチマークでは見落とされていたコストやレイテンシなどのスケーラビリティ課題を克服するため、実行効率やデータ規模の影響を正確に反映する新規評価指標を提案し、最先端の LLM エージェントを対象とした包括的な評価を通じてその有効性を示しています。

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas2026-03-09💬 cs.CL

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

この論文は、マルチモーダル LLM のモダリティ崩壊を情報理論的な「ミスマッチ復号」として定式化し、デコーダのスコアリング規則と学習目的がアクセス可能な情報量を決定し、エンコーダの調整や投影層よりも決定的なボトルネックであることを示しています。

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

この論文は、モバイルエージェントのハイブリッド能力推論における課題を解決するため、4 つの専門家を備えた「CoME」という新しいアーキテクチャと、段階的な学習戦略および情報利得に基づく DPO を提案し、既存手法を上回る性能を達成したことを示しています。

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

この論文は、RAG と大規模言語モデルを活用し、ファクトチェックの根拠提示やユーザー対話機能を備えたブラウザ拡張機能「Aletheia」を開発・評価し、その検出精度と実用性を実証したものである。

Dorsaf Sallami, Esma Aïmeur2026-03-09💬 cs.CL

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本論文は、複数の専門エンコーダやモジュール結合のオーバーヘッドを排除し、単一の密なトランスフォーマー・エンコーダ（Omni-C）を用いて画像・音声・テキストなどの異種モダリティを効率的に共有表現へ圧縮する手法を提案し、リソース制約のある環境でもスケーラブルなマルチモーダル学習を実現することを示しています。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

この論文は、文法制約付きデコーディングにおいて、文法構造が到達可能性と計算コストに与える影響を理論的に解析し、構造的曖昧性コストの定量化、最適化の理論的限界、およびトランスフォーマーアーキテクチャにおける実用的な遅延バウンドを導出する。

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

本論文は、大規模言語モデルの関数呼び出し能力を向上させるために、データベース構築、実行可能環境生成、多ターン軌道合成を自律的に協調するマルチエージェントプラットフォーム「EigenData」を提案し、BFCL-V3 ベンチマークの自動修復と結果重視の評価手法を通じて、人間の機能正しさの判断と高い相関を持つモデル評価を実現したことを報告しています。

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin2026-03-09✓ Author reviewed🤖 cs.AI

← 前へ次へ →

cs.CL