cs.AI 件の論文 | Gist.Science

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

この論文は、小規模言語モデルにおける出力分布の鋭さを測定する汚染検出手法（CDD）が、単なる確率ベースの手法（Perplexity や Min-k% Prob）に劣り、特に微調整による逐語的記憶が起きない限り無効であることを、制御された実験を通じて実証しています。

Omer Sela (Tel Aviv University)2026-03-10💬 cs.CL

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

本論文は、LLM の計画能力と外部ツール接続を可能にするモデルコンテキストプロトコル（MCP）を活用して SPARQL エンドポイントを統合する自律型エージェントの性能を評価し、従来の知識グラフ質問応答ベンチマークを拡張した分散型 FKQA ベンチマークを用いて、エンドポイント発見からクエリ作成までの各アーキテクチャを比較検討するものである。

Daniel Dobriy, Frederik Bauer, Amr Azzam + 2 more2026-03-10🤖 cs.AI

Right Move, Right Time: Multi-Sport Space Evaluation Platform for Ultimate Frisbee, Basketball, and Soccer

本論文は、フットサル、バスケットボール、そしてフットボール（フットボール）の 3 つの競技における「利用可能なスペース」と「オフボールランのタイミング」という共通の課題に焦点を当て、追跡データを標準化して可視化するオープンなプラットフォームを提案し、特にフットボールをテストベッドとしてその有効性を検証したものである。

Shunsuke Iwashita, Titouan Jeannot, Braden Eberhard + 4 more2026-03-10🤖 cs.AI

Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning

本論文は、オプションのヘッジングにおける実損リスクを最小化し、金融安定性を向上させるため、不足確率を考慮した強化学習フレームワーク（RLOP と QLBS）を提案し、SPY および XOP オプションを用いた実証分析において、特にストレス下での尾部リスク改善とヘッジパフォーマンスの向上を実証したものである。

Minxuan Hu, Ziheng Chen, Jiayu Yi + 1 more2026-03-10💰 q-fin

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

この論文は、ニューラルアーキテクチャに直接統合された「等方性層（Isotonic Layer）」という新しいフレームワークを提案し、特徴空間の分割と非負の傾き最適化を通じてモデルの出力に単調性を強制することで、推薦システムのバイアス除去と較正精度を大幅に向上させることを実証しています。

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

ARC-AGI-2 Technical Report

本論文は、タスクの符号化、対称性に基づくデータ拡張、テスト時適応、および対称性認識デコーディングを組み合わせることで、ARC-AGI における推論能力を大幅に向上させ、人間レベルの一般化に近づけた新しいトランスフォーマーベースのシステムを提案するものである。

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy2026-03-10💬 cs.CL

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

この論文は、LLM を裁判官とした自動評価フレームワークが、敵対的攻撃による分布のシフトや意味的曖昧さの影響を受け、人間の合意率とは対照的にほぼランダムな精度まで低下し、多くの攻撃が実際には有害なコンテンツを誘発するのではなく裁判官の欠陥を悪用して成功率を水増ししていることを実証し、より信頼性の高い評価のための新たなベンチマークとデータセットを提案しています。

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann2026-03-10💬 cs.CL

Distributionally Robust Geometric Joint Chance-Constrained Optimization: Neurodynamic Approaches

本論文は、行ベクトルの確率分布が不確実性集合に属する分布ロバスト幾何学的同時確率制約付き最適化問題を、標準的な解法を用いずに確率的に大域最適解に収束するニューロダイナミクス・デュプレックス手法（3 つの射影方程式に基づく）によって解決することを提案し、形状最適化および通信問題への適用を通じてその有効性を示しています。

Ange Valli (L2S), Siham Tassouli (OPTIM), Abdel Lisser (L2S)2026-03-10🔢 math

Building the ethical AI framework of the future: from philosophy to practice

この論文は、EU AI 法や NIST のリスク管理フレームワークなどの既存のガイドラインを実用的な運用管理へと昇華させるため、AI ライフサイクルの各段階に功利主義・義務論・徳倫理学の原理を組み込み、定量的指標・ガバナンス・環境制約の「3 つのゲート」による制御アーキテクチャを提案するものです。

Jasper Kyle Catapang2026-03-10💻 cs

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

この論文は、視覚・言語のファジングと敵対的強化学習微調整を組み合わせることで、VLM の脆弱性を意図的に誘発し、その回答精度を大幅に低下させる質問を自動生成する「FuzzingRL」という手法を提案しています。

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

本論文は、モデルの能力向上に伴い意味的な重複データが厳密な重複と同様の悪影響を及ぼす「スケール依存性のデータ重複」を明らかにし、その影響を定量化するスケーリング則を導出することで、大規模モデルの性能予測精度を向上させることを示しています。

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

本論文は、C-V2X ネットワークにおけるマルチエージェント深層強化学習の課題を特定し、その影響を分離評価するためのベンチマーク環境と大規模データセットを構築して公開し、特に多様な交通環境へのゼロショット転送能力の重要性を明らかにした。

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

この論文は、スタークラフト II のフルゲームとミニゲームの中間に位置し、経済メカニズムを排除して長距離移動と戦闘の戦術的スキルに焦点を当てた、計算コストを抑えたオープンソースの新しい RL ベンチマーク「Two-Bridge Map Suite」を提案するものである。

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

外部検証が不可能な領域において、複数のモデルからの回答を集約する「群衆の知恵」戦略は、誤答の相関性や自信スコアの信頼性不足により、推論コストを増大させても真実性の向上につながらず、むしろ共通の誤解を強化するだけであり、検証可能な領域とは異なる推論時スケーリングの限界を示している。

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

本論文は、トレーニング中に最適化手法を動的に選択する新しい確率的メタ最適化手法「OptiRoulette」を提案し、複数の画像分類タスクにおいて単一の AdamW ベースラインと比較して最大 5.3 倍の収束速度向上と高精度達成を実現したことを報告しています。

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

この論文は、高次元拡散モデルの代わりに低次元拡散モデルを組み合わせる「Annealed Co-Generation（ACG）」フレームワークを提案し、因果変数をペアごとに学習して共有変数を介して結合する三段階のアニーリングプロセスにより、科学的タスクにおける多変量共生成の計算負荷とデータ不均衡を解決し、一貫性のある生成を実現することを示しています。

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

この論文は、マルチモデルシステムにおけるコストと性能のトレードオフを最適化するため、誤分類リスクを厳密に制御しつつ最適な大規模言語モデルの集合を動的に選択する新しい手法「RACER」を提案し、その理論的保証と高い精度を実証しています。

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

この論文は、自己回帰モデルと拡散モデルを連続的な潜在軌道として統合し、生成の確信度に応じて両者のバランスを動的に調整することで、推論速度を維持しつつ高い生成品質と推論能力を実現する新しい大規模言語モデル「Evo」を提案しています。

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

この論文は、ドメイン固有の基盤モデル、トポロジー意識型グラフトークナイザー、教師-生徒型知識蒸留を組み合わせることで、未見のエンティティに対するゼロショット相互作用予測を可能にする新しいマルチプレックス生物ネットワーク用フレームワークを提案し、最先端の手法を上回る性能を実証したものである。

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

この論文は、大規模言語モデルの強化学習において、Horvitz-Thompson 再重み付けを用いて生成トークンの一部のみで偏りのない勾配を推定する「NAT（Not All Tokens Are Needed）」フレームワークを提案し、計算コストやメモリ使用量を削減しながらフルトークン学習と同等の性能を達成することを示しています。

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

← 前へ次へ →