Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

この論文は、大規模言語モデルのトレーニングデータへの所属を推測する攻撃において、平均損失などのグローバルな指標に依存する従来の手法の限界を克服し、局所的な文脈における記憶信号を捉える「WBC(ウィンドウベース比較)」という新しい手法を提案し、その有効性を複数のデータセットで実証したことを述べています。

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

この論文は、7 つの可読性指標を統合したクラスタリング手法と独自のデータセットを用いて大規模言語モデルを微調整する枠組みを提案し、これにより回答の正確性を保ちつつ、小学低学年から成人教育までの 6 つの学年レベルに合わせた適切な教育コンテンツを生成し、プロンプトベースの手法と比較して 35.64 ポイントも学年適合性を向上させたことを示しています。

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

この論文は、USAS 意味分析フレームワークを用いた多言語(5 言語)における意味タグ付けの包括的評価を実施し、人手付きデータ不足を克服するため銀ラベルデータを活用してルールベースシステムとニューラルネットワークをハイブリッド化した PyMUSAS フレームワークを提案し、そのコードやデータセットをオープンソースとして公開したものである。

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

この論文は、強化学習による事後学習で生じる探索の崩壊という課題に対し、追加学習なしに中間層の事後分布を統合してエントロピーを最大化する「Latent Exploration Decoding」という新しいデコーディング戦略を提案し、複数の推論ベンチマークで精度を向上させることを示しています。

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

本論文は、関連性と多様性を同時に最適化し、高圧縮率下でも冗長性を排除して重要な情報を保持する「Marginal Information Gain(MIG)」指標を導入した粗粒度から細粒度への適応的コンテキスト圧縮フレームワーク「COMI」を提案し、長文脈タスクにおいて既存手法を大幅に上回る性能を示すことを実証しています。

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng2026-03-09💬 cs.CL

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

この論文は、Google の Gemini モデルを用いた対話的協力や神経記号ループなどの手法を通じて、理論計算機科学や物理学などの分野で未解決問題の解決や新たな証明の生成を成功させた事例を紹介し、AI が単なる自動化ツールを超えて科学的発見における真のパートナーとなり得る可能性を示しています。

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

この論文は、自然言語で数学的推論を生成・検証・修正する自律型研究エージェント「Aletheia」を紹介し、オリンピックレベルの問題から博士課程レベルの課題、さらには人間の介入なしに構造定数を計算する論文の作成や未解決問題の解決に至るまで、AI 支援数学研究における新たな自律性の段階と透明性の枠組みを提案しています。

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

本論文は、機械学習における「グランドトゥルース」の概念が人間の不一致を単なるノイズとして誤って扱っている「コンセンサスの罠」を批判的に分析し、多様な人間の経験を反映するプラリスティックなアノテーション基盤の構築を提唱するものである。

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

本論文は、ニュース報道における多様な表現やフレーミングを捉えるため、NewsWCL50 データセットのクロスドキュメント中核参照解決(CDCR)アノテーションを、同一性および近接同一性の両方を含む談話要素(DEs)の連鎖として再定義し、統一されたコードブックを用いて再アノテーションと評価を行ったものである。

Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp2026-03-09💬 cs.CL

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

この論文は、大規模データ環境におけるテキストから SQL への変換(Text-to-Big SQL)を評価する際、従来のベンチマークでは見落とされていたコストやレイテンシなどのスケーラビリティ課題を克服するため、実行効率やデータ規模の影響を正確に反映する新規評価指標を提案し、最先端の LLM エージェントを対象とした包括的な評価を通じてその有効性を示しています。

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas2026-03-09💬 cs.CL

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

この論文は、モバイルエージェントのハイブリッド能力推論における課題を解決するため、4 つの専門家を備えた「CoME」という新しいアーキテクチャと、段階的な学習戦略および情報利得に基づく DPO を提案し、既存手法を上回る性能を達成したことを示しています。

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本論文は、複数の専門エンコーダやモジュール結合のオーバーヘッドを排除し、単一の密なトランスフォーマー・エンコーダ(Omni-C)を用いて画像・音声・テキストなどの異種モダリティを効率的に共有表現へ圧縮する手法を提案し、リソース制約のある環境でもスケーラブルなマルチモーダル学習を実現することを示しています。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

この論文は、文法制約付きデコーディングにおいて、文法構造が到達可能性と計算コストに与える影響を理論的に解析し、構造的曖昧性コストの定量化、最適化の理論的限界、およびトランスフォーマーアーキテクチャにおける実用的な遅延バウンドを導出する。

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

本論文は、大規模言語モデルの関数呼び出し能力を向上させるために、データベース構築、実行可能環境生成、多ターン軌道合成を自律的に協調するマルチエージェントプラットフォーム「EigenData」を提案し、BFCL-V3 ベンチマークの自動修復と結果重視の評価手法を通じて、人間の機能正しさの判断と高い相関を持つモデル評価を実現したことを報告しています。

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin2026-03-09✓ Author reviewed🤖 cs.AI