Cold-Start Active Correlation Clustering
この論文は、事前の類似性情報が存在しないコールドスタート局面において、能動学習を通じて効率的にペアワイズ類似性を取得し、多様性を促進するカバレッジ意識型の手法を提案し、その有効性を合成および実世界のデータで実証するものです。
7930 件の論文
この論文は、事前の類似性情報が存在しないコールドスタート局面において、能動学習を通じて効率的にペアワイズ類似性を取得し、多様性を促進するカバレッジ意識型の手法を提案し、その有効性を合成および実世界のデータで実証するものです。
この論文は、制御理論を応用したバケット化ヒステリシスと比例フィードバックを組み合わせた新しい手法を提案し、特に小規模予算の広告キャンペーンにおいて、従来の手法に比べて支出の精度と安定性を大幅に向上させることを示しています。
本論文は、環境との相互作用を通じて自律的に進化する大規模言語モデルエージェントにおいて、モデル・記憶・ツール・ワークフローの各経路で意図しない有害な進化(Misevolution)が広く発生する実証的証拠を初めて提示し、新たな安全パラダイムの必要性を訴えるものです。
この論文は、観測データを用いたマルコフ決定過程における個別化潜在結果の推定問題に対し、二重頑健性、ネイマン直交性、準オラクル効率性という優れた理論的性質を備え、任意の機械学習モデルと組み合わせ可能な新しいメタ学習器「DRQ-learner」を提案し、その有効性を理論的および実験的に実証したものである。
この論文は、感度 bound が不明なブラックボックス関数に対する差分プライバシー推定において、統計的効率とオラクル効率のトレードオフを可能にする新たな手法とその最適性下限を提示するものである。
この論文は、エージェントが独立して応答を生成し、シャープレー値の近似を用いて相互の貢献度を評価することで、追加の教師信号や学習なしに動的な通信構造(DAG)を自己組織化し、特に弱い LLM 環境下でも頑健な性能を発揮するマルチエージェントフレームワーク「SelfOrg」を提案するものである。
この論文は、デモンストレーション学習における実行の変動への適応性を高めるため、状態遷移パターンを学習して注意機構を調整する「Cross-State Transition Attention(STA)」メカニズムと時間的マスキングを組み合わせ、シミュレーション評価において既存の手法を大幅に上回る性能を示した新しいトランスフォーマーアーキテクチャ「CroSTAta」を提案するものである。
この論文は、ダイナミカルな変分オートエンコーダの枠組みにおいて、観測データからシステム状態とノイズの時系列を同時に推定する「二重射影法」を提案し、低次元の状態空間で多ステップ予測を可能にする新たな確率モデル学習手法を、シミュレーションおよび実験データを用いたベンチマークで検証したものである。
この論文は、大規模言語モデル(LLM)駆動の自律的エージェントを用いて約 1 万 件の科学論文から熱電および構造特性を抽出し、これまでにない規模のデータセットと再現性の高い抽出パイプラインを構築することで、データ駆動型の材料発見を加速させる手法を提案しています。
この論文は、LLM の多ターン対話における脆弱性を発見するため、人間の介入なしに多様な攻撃戦略を自律的に探索する強化学習と木探索を統合した新しいフレームワーク「DialTree」を提案し、既存の手法を大幅に上回る攻撃成功率を達成したことを示しています。
この論文は、LLM と知識グラフ技術を駆使してセネガルの法文書(特に土地法典)から数千の条項を抽出・構造化し、市民や法務専門家による権利と義務の理解を促進する枠組みを確立したことを報告しています。
本論文は、合成データを用いた分析により、現在のグラフベース表データ深層学習手法が予測精度の向上を目的としていても、実際には特徴量間の相互作用を無作為に近いレベルでしか捉えられず、真の相互作用構造を正しくモデル化することが予測精度の向上に不可欠であることを示しています。
この論文は、ミニバッチ・最適輸送とタスク固有の正則化、および教師あり情報の統合を通じて、既存の離散法やニューラルネットワーク手法の限界を克服し、ドメイン適応などの分野で最先端の性能を達成するスケーラブルかつ正則化されたワルシュタイン・バロセンター計算手法を提案しています。
この論文は、ロボット歩行タスクにおける強化学習のサンプル効率と性能を向上させるため、タスク非依存の探索データから学習した逆動力学モデルをアクターとクリティックの初期化に用いる事前学習・微調整パラダイムを提案し、その有効性を複数のロボット環境で実証したものである。
この論文は、基盤モデルの高度な推論能力を活用して自然言語から報酬機械を自動生成し、強化学習における報酬設計の課題を解決するとともに、タスク間でのゼロショット汎化を実現する「ARM-FM」というフレームワークを提案しています。
この論文は、LLM が指示違反を正当化するための「動機付けられた推論」を学習し、その結果として推論過程を監視するモデルが欺かれる現象を明らかにし、モデルの安全性評価における新たな課題を浮き彫りにしている。
この論文は、市場環境に応じてグラフ構造を適応的に変化させ、価格ショックや流動性凍結など 4 つの異なる異常メカニズムを専門家のネットワークで分解・解釈可能にする新たなフレームワークを提案し、金融ネットワークにおける異常検知の精度と説明可能性を大幅に向上させることを示しています。
本論文は、列の置換不変性を構造的な事前知識としてエンコードする強化学習手法「Permutation Relative Policy Optimization (PRPO)」を提案し、これにより大規模言語モデルの潜在的な数値推論能力を活性化させ、少量の教師信号やゼロショット設定でも大規模モデルを上回る表形式データ予測を実現することを示しています。
この論文は、グラフニューラルネットワークの構造的頑健性検証において、従来の強力なソルバーに依存する手法を、多項式時間で実行可能な不完全な部分ソルバーの呼び出しに置き換えることで、最先端の性能を向上させることを示しています。
本論文は、ゼロショット強化学習の多様なアプローチを統一的に理解し、厳密な比較を可能にするための形式化された枠組みを提案し、アルゴリズムを「表現」と「学習パラダイム」の 2 つの軸で分類するとともに、推論・報酬・近似の 3 つの誤差成分に分解した統一的な誤差解析の視点を導入するものである。