SkillNet: Create, Evaluate, and Connect AI Skills
本論文は、AI エージェントが過去の経験を体系的に蓄積・再利用し、タスク実行の効率と安全性を大幅に向上させるために、20 万を超えるスキルを管理・評価・接続する大規模インフラ「SkillNet」を提案し、その有効性を複数のベンチマークで実証したものである。
1726 件の論文
本論文は、AI エージェントが過去の経験を体系的に蓄積・再利用し、タスク実行の効率と安全性を大幅に向上させるために、20 万を超えるスキルを管理・評価・接続する大規模インフラ「SkillNet」を提案し、その有効性を複数のベンチマークで実証したものである。
本研究は、20 万を超える査読論文や 40 万行の CFD コードから構築された大規模知識ベースと、RAG から知識グラフ、継続的事前学習へと進む 3 段階の知識注入パイプラインを用いて、燃焼科学分野に特化した大規模言語モデルの開発と評価を可能にする初の包括的フレームワークを提案し、単純な RAG には性能の上限があることを実証しています。
本論文は、推論段階での数値的不安定性を最大化する損失関数を最適化することで、入力画像のわずかな変更のみで最先端のマルチモーダル大規模言語モデルの性能を著しく低下させる新たな攻撃手法を提案し、既存の敵対的摂動とは異なる故障モードを実証したものである。
この論文は、回答を含まない文脈情報を用いて質問の曖昧さを解消する書き換え手法を提案し、 Humanity's Last Exam ベンチマークにおいて、従来のプロンプト手法を凌駕する大幅な精度向上(0.14 から 0.37)を実現したことを示しています。
本論文は、技術ドメインの検索ベンチマーク「FreshStack」を対象に、2024 年と 2025 年のコーパスの時間的変化を分析し、ドキュメントの移行が起きても検索モデルの評価順位は高い相関を保つことから、時間的に変化するコーパスを用いた再評価でもベンチマークの信頼性が維持されることを示しています。
LLM エージェントの長期記憶管理における課題を解決するため、5 つの解釈可能な要因に基づき透明性と効率性を両立する適応型記憶承認制御フレームワーク「A-MAC」を提案し、LoCoMo ベンチマークにおいて最先端のシステムを上回る精度と低遅延を実現したことを示しています。
本論文は、動的な対話におけるストリーミング大規模言語モデル(LLM)の定義を統一し、既存の概念の混同を解消する体系的な分類法を提案するとともに、その手法、応用、今後の研究展望を包括的に概説するものである。
この論文は、外部の批判とグループ内の試行という二つの自然言語フィードバック源を集約して目標指向の探索を導き、スパースな報酬環境におけるサンプル効率を大幅に向上させる強化学習フレームワーク「GOLF」を提案しています。
本論文は、AI モデルによるゼロから完結する Web アプリケーション開発を評価する新たなベンチマーク「Vibe Code Bench」を提案し、最先端モデル 16 社によるテストで最高精度が 58.0% に留まったことを明らかにするとともに、自己テストの実施が性能予測に有効であることや評価者の選定が結果に大きく影響することを示しています。
本論文は、検索段階と生成段階を協調的にモデル化し、クエリと証拠の意味的整合性を確保するとともに、生成プロセスに証拠を明示的な制約として組み込むことで、事実の信頼性と検証可能性を向上させる新規の検索拡張生成手法を提案しています。
この論文は、単一の情報源からの抽出ではなく複数のソースからの証拠統合や因果関係の追跡といった高次な意味理解能力を評価するため、実世界の注目を反映した動的な質問応答ベンチマーク「iAgentBench」を提案し、検索能力だけでなく証拠の統合・活用能力の重要性を実証しています。
本論文は、学生向けに教科書に基づいた回答を提供し、教員向けに講義の分析と振り返りを支援する双方向の AI ツール「Stan」を、クラウドに依存せずオープンウェイトモデルとローカルハードウェアのみで構築・実装し、その設計と課題解決について記述したものである。
本論文は、GPT-4.1-nano を用いてデータ可視化リテラシーテストの項目難易度を予測する研究において、視覚とテキストの両方の特徴を組み合わせたマルチモーダル手法が、単一のモダリティを用いる手法よりも高い精度を達成し、LLM の心理計測分析および自動項目作成への可能性を実証したことを報告しています。
本論文は、強化学習に基づく新しい手法「Direct Consistency Optimization(DCO)」を提案し、報酬モデルを必要とせずに大規模言語モデルの多言語間における知識の一貫性を大幅に向上させることを示しています。
この論文は、ストップワードの頻度分布が Zipf の法則ではなく Beta ランク関数に従うことを発見し、順位に基づく確率的な選択モデルを提案することで、ストップワードの分布特性と非ストップワードの二次関数的な適合性を理論的に説明しています。
この論文は、データ拡張や特徴量強化の手法を従来の分類器や大規模言語モデルに適用してヘイトスピーチ検出を評価し、特にオープンソースの gpt-oss-20b が最高性能を示す一方で、手法の効果がデータセットやモデルとの相互作用に依存し、暗黙的なヘイトスピーチの検出がより困難であることを明らかにしています。
本論文は、大規模言語モデル(LLM)が、特に複雑な多クラス分類タスクにおいて、従来の機械学習手法やBERTを上回る性能でオンライン市場の違法コンテンツ検出に有効であることを、DUTA10Kデータセットを用いた実験を通じて実証している。
この論文は、米国最高裁の口頭弁論記録を用いて、AI モデルが模擬裁判における裁判官の質問をシミュレーションできるかを検証し、人間評価と代理指標を組み合わせた二層評価フレームワークにより、生成された質問は現実的かつ実質的な法的論点を捉える一方で、多様性の欠如や同調性といった課題が残っていることを明らかにしています。
この論文は、AI モデルを生物学的な有機体と見なし、その構造や動態を医学的アプローチで理解・診断・治療する新たな研究分野「モデル・メディシン」を提唱し、そのための体系的分類、行動遺伝学モデル、診断ツール、および臨床フレームワークを包括的に提示しています。
本論文は、Gemini Deep Think と木探索フレームワークを統合したニューロシンボリックシステムを用いて、宇宙ひもからの重力放射のパワースペクトルに関する未解決問題に対し、数値的フィードバックを駆使して Gegenbauer 多項式展開による厳密な解析解を導出したことを報告するものである。