PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning
この論文は、患者データのプライバシーを保護しつつ、医療機関の分散環境におけるオープンセットなノイズを効果的に除去し、アクティブラーニングの効率を大幅に向上させるために、動的な VLM ゲート機構「PromptGate」を提案するものである。
3885 件の論文
この論文は、患者データのプライバシーを保護しつつ、医療機関の分散環境におけるオープンセットなノイズを効果的に除去し、アクティブラーニングの効率を大幅に向上させるために、動的な VLM ゲート機構「PromptGate」を提案するものである。
本論文は、異なるアーキテクチャ(CLIP 事前学習済み Vision Transformer と CNN)を用いた非対称な共教と、損失軌跡分析に基づく機械的忘却を組み合わせた「ACD-U」を提案し、ノイズ付きラベル環境における誤分類サンプルの事後修正を通じて、従来の誤り回避から能動的な誤り修正へと学習パラダイムを転換し、高いノイズ率やインスタンス依存ノイズ下でも最先端の性能を達成する手法を報告しています。
本論文は、計算病理学におけるトランスフォーマーモデルの解釈性を向上させるため、クラス可視化と活性化アトラスを評価し、これらが組織分類やがんサブクラス分類のタスクにおいて、専門家の合意度と内在的な病理学的複雑さを反映する構造化された形態的多様体を明らかにすることを示しています。
この論文は、複雑な屋外環境における無人航空機(UAV)の視覚言語ナビゲーションタスクにおいて、環境認識と自然言語による思考連鎖(Chain-of-Thought)を統合し、教師あり微調整と強化学習の 2 段階トレーニング戦略を採用したエンドツーエンドのフレームワーク「FreeFly-Thinking」を提案し、その優れた性能を実証するものです。
本論文は、動画生成におけるトークンの爆発的増加という計算ボトルネックを解決するため、空間的および時間的な類似性を基に不要なトークンを剪定し、高品質な動画を維持しながら最大 2.01 倍の高速化を実現するトレーニング不要のフレームワーク「FastSTAR」を提案しています。
本論文は、深層学習モデルが少数の支配的なパラメータに依存する脆弱性が分布外(OOD)データによる過剰な自信につながるとする洞察に基づき、動的な閾値を用いてパラメータ寄与を調整し、より広範なパラメータに基づく意思決定を促す「SPCP」という手法を提案することで、OOD 検出のロバスト性を向上させることを示しています。
VINO は、教師・学生フレームワークと構造的な情報ボトルネックを活用して、動画の自己教師あり学習において背景の文脈に依存しない頑健な物体特徴表現を学習し、PASCAL VOC における物体発見タスクで既存手法を大幅に上回る性能を達成する手法です。
本論文は、解剖学的事前知識と適応的コンテキストモデリングを統合し、極めて少ないパラメータ数と計算量でトランスフォーマーベースの手法に匹敵する精度を達成する軽量な 3D 医用画像セグメンテーションモデル「LightMedSeg」を提案するものである。
この論文は、拡散モデルが単一画像超解像において低解像度の証拠に基づいて高周波構造を回復する際のアートファクトや一貫性の欠如を解決するため、未縮小マルチスケール表現とスケール間の親子依存関係をモデル化する双変量アトラスウェーブレット変換を導入した教師なしモデル「BATDiff」を提案し、既存手法よりも鮮明で構造的に整合性の高い再構成を実現したことを示しています。
本論文は、ドメインのドリフトやユーザーの好み変化といった動的な環境下で、従来の重みの上書きに依存せず、インスタンス条件から動的に重み更新を合成する「HY-WU」と呼ばれる拡張可能な機能的ニューラル記憶フレームワークを提案し、テキストガイド画像編集への適用例を示すものである。
この論文は、マクロなテクスチャ生成とマイクロな織り構造の生成を分解して処理するエンドツーエンドのフレームワーク「FabricGen」を提案し、テキスト記述から現実的な織物素材を生成する手法を提示しています。
本論文は、スライド生成の自動評価における既存手法の粗粒度な限界を克服し、人間の評価と高い整合性を示す 238 の事例と詳細なチェックリストからなる「PresentBench」という細粒度の基準に基づくベンチマークを提案し、NotebookLM が他の手法を大幅に上回ることを実証したものである。
本論文は、衛星リモートセンシングデータにおける幾何学的な不整合を解決するため、従来の潜空間補間ではなく、幾何学的な拡張条件に基づいて変換された埋め込みを直接予測する「LEPA」という新しいアーキテクチャを提案し、その精度が大幅に向上することを示しています。
この論文は、条件付き生成や逆問題を単一ステップで解決するため、サンプリング経路の誘導ではなく「適切な初期ノイズ分布を学習する」という新たな視点に基づき、変分フローマップ(VFM)というフレームワークを提案するものです。
既存のバーチャル試着ベンチマークが西洋風の服装に偏っている問題を解決するため、複雑なドレープや非対称なレイヤリングといった独自の構造的課題を持つバングラデシュの伝統衣装(サリー、パンジャビ、サルワール・カメーズなど)を対象とした新しいデータセット「BD-VITON」を提案し、複数の試着モデルを再学習・評価することでゼロショット推論よりも優れた性能を実証した。
本論文は、1,000 種以上の鳥類を対象とした画像・音声・テキストを統合した大規模データセット「MAviS-Dataset」と、それに基づいて構築された鳥類専門のマルチモーダル対話モデル「MAviS-Chat」、およびその性能評価ベンチマーク「MAviS-Bench」を提案し、生態学応用におけるドメイン適応型マルチモーダル大規模言語モデルの有効性を示しています。
本論文は、敵対的訓練と中間層での特徴マップの平滑化を組み合わせることで、スパーシブかつ入力・出力両面で安定性が高く、人間が信頼しやすいセリエンシーマップを実現する新たな訓練手法を提案しています。
この論文は、セグメンテーションモデル(SAM)の画像エンコーダとマスクデコーダの特性を考慮し、構造とスペクトルを保持するトークンマージ手法「StructSAM」を提案することで、既存の手法よりも高い効率性と精度を両立させることを示しています。
本論文は、異種センサーやモデルを搭載した自律走行車間の協働知覚における特徴量ドメインのギャップを、低ランク視覚プロンプトの微調整とピラミッド融合を用いて、プライバシーを保護しつつ大規模なモデル再学習なしに効率的に解決する軽量フレームワーク「Faster-HEAL」を提案し、OPV2V-H データセット上で最先端手法を上回る検出性能と低い計算コストを実現したことを報告しています。
この論文は、複雑な軌道予測ネットワークを必要とせず、物体検出とデジタルツイン環境におけるオフライン経路マップの活用によって、リソース制約のあるエッジデバイス上でリアルタイムに車両追跡と衝突予測を実現する軽量フレームワークを提案し、エッジ環境での実用性を示しています。