Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena
この論文は、データ分布間のワッサーシュタイン距離を、データ部分群や入力特徴量などの解釈可能な構成要素に帰属させるための、説明可能 AI に基づく新しい手法を提案し、その有効性を示すものです。
5592 件の論文
この論文は、データ分布間のワッサーシュタイン距離を、データ部分群や入力特徴量などの解釈可能な構成要素に帰属させるための、説明可能 AI に基づく新しい手法を提案し、その有効性を示すものです。
本論文は、オンラインデータに存在するノイズ対応の問題に対処するため、ノイズの不確実性をモデル化するキー特徴量セレクタと、負のサンプルの難易度を動的に調整する新しい損失関数を備えた DURA フレームワークを提案し、低・高ノイズ環境の両方においてテキストベースの人物検索性能を向上させることを示しています。
本論文は、敵対的学習で事前訓練されたトランスフォーマーが、追加の敵対的学習なしにクリーンなデモンストレーションからのコンテキスト学習を通じて、多様な下流タスクに対して普遍的な敵対的頑健性を発揮しうるという理論的示唆を初めて提示したものである。
本論文は、点雲補完における標準的な Chamfer Distance の対称的重み付けの限界を克服し、非対称な重み付け戦略によって大域的な構造完全性を優先する「Flexible-weighted Chamfer Distance(FCD)」を提案し、多様なデータセットとタスクにおいて点の凝集を抑制し、より均一で構造的に完全な点雲生成を実現することを示しています。
本論文は、事前の推論データや外部モデルに依存せず、強化学習によってモデル自身が視覚情報を戦略的に活用して推論する「画像で思考する」能力を自然に獲得し、多様なベンチマークで顕著な性能向上と人間に近い視覚推論パターンを実現する DeepEyes を提案するものである。
本論文は、ニューラル・タンジェント・カーネル(NTK)の整合性によって誘起される勾配の低ランク構造を利用し、主成分分析(PCA)をクラス平均勾配に適用することで、既存手法よりも一貫した性能を発揮する分布外検出手法「GradPCA」を提案し、その理論的根拠と事前学習済み特徴量の重要性を実証しています。
この論文は、大規模視覚言語モデルのマルチモーダル・ジャイルブレイク攻撃に対して、curated な安全データや高コストな画像変換に依存せず、推論時の KV キャッシュを最適化して視覚トークンの重みを動的に再調整する新たな防御手法「DTR」を提案し、既存の防御策を上回る攻撃耐性と汎用タスク性能の実証を示しています。
本論文は、オープンソースの DeepSeek-R1 をローカル環境で活用し、視覚情報と推論プロセス(CoT)のフィードバックを統合した自己改善メカニズムを導入することで、トレーニング不要で高品質な 3D パラメトリック CAD モデルを生成する「Seek-CAD」を提案し、SSR 設計パラダイムに基づく新規データセットと広範な実験を通じてその有効性を検証したものである。
この論文は、高次元空間における角度テスト問題に対して、ガウス分布に基づく既存手法よりも理論的・実験的に優れ、HNSW アルゴリズムと比較して 2.5〜3 倍のクエリ処理速度を達成する新しい確率的カーネル関数を提案しています。
この論文は、3D 点クラウドの多様なデータセットを教師ありラベルなしで統合的に学習し、専門的なエキスパートを動的に選択する「Point-MoE」という混合エキスパート(MoE)アーキテクチャを提案することで、3D 意味セグメンテーションの性能を大幅に向上させる手法を提示しています。
本論文は、大規模なフローベースのテキストから画像生成モデルにおける分布一致蒸留(DMD)の収束課題を解決するため、隠れた分布整合(IDA)と内部セグメントガイダンス(ISG)を提案し、SD 3.5 や FLUX.1 dev などの最新モデルを含む広範なモデルで優れた蒸留性能を実現する「SenseFlow」を構築したものである。
本論文は、顔生体認証(FAS)の汎用性と解釈性を向上させるため、高品質な視覚言語 CoT データセット「FaceCoT」を初めて構築し、強化学習によるキャプション生成と CEPL 学習戦略を組み合わせることで、既存の最先端手法を上回る性能を実現したことを提案しています。
本論文は、認知心理学に基づき動的推論や視点取得など 4 つの主要カテゴリと 50 の細分化されたサブカテゴリを含む包括的な空間推論ベンチマーク「OmniSpatial」を提案し、現在の視覚言語モデルの限界を明らかにするとともに、空間推論能力の向上に向けた 2 つの戦略を提示するものである。
本論文は、手話の視覚的・意味的手がかりを音声生成に直接活用する初の統一フレームワーク「UniCUE」と、それを支える大規模な中国語手話データセット「UniCUE-HI」を提案し、既存のテキスト中間段階を介さないことで音声合成の精度を大幅に向上させたことを示しています。
この論文は、アフリカ五大獣の野生動物における分布外(OOD)検出を改善するため、事前学習済み特徴量を活用したパラメトリックな Nearest Class Mean 法が既存の OOD 手法を上回る汎化性能を示すことを実証しています。
本論文は、大規模マルチモーダルモデルにおける Few-Shot 視覚質問応答タスクにおいて、タスク関連の視覚特徴から蒸留されたソフトプロンプトをメタ学習で適応させることで、従来のインコンテキスト学習やパラメータ効率型微調整を上回る性能を達成する手法を提案しています。
本論文は、ロボット操作タスクにおいてフル精度モデルと同等の性能を維持しつつ、モデルメモリを 11 倍、レイテンシを 4.4 倍削減する、すべてのパラメータが 1 ビット({-1,0,1})のネイティブな「BitVLA」という新しいビジョン - ランゲージ - アクションモデルを提案し、その実用性を示しています。
本論文は、自己教師あり学習により関節物体の幾何学と運動学を連続的に変形可能なガウススプラッティングで統合的にモデル化する「PD²GS」を提案し、その実世界評価用のデータセット「RS-Art」も公開することで、既存手法を上回る精度と連続制御の安定性を実現したことを述べています。
本論文は、メタ学習された自己教師あり損失を用いたテスト時適応により、視覚言語モデルの汎化能力と時間的推論を強化し、ゼロショット価値関数として実世界ロボット操作やオフライン強化学習において最先端の性能を達成する「VITA」を提案するものである。
本論文は、動画データから直接学習可能なスケーラブルな手法を提案し、ブロック因果拡散トランスフォーマーを用いて文脈に応じた画像編集を実現する「VINCIE」を開発し、既存の手法を上回る性能と多様な応用能力を実証したものです。