Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method
この論文は、ソースデータや画像合成を必要とせず、中立表情のみを含むターゲットデータを用いて事前学習済みモデルを個人ごとに適応させる軽量な潜在空間ベースの手法「SFDA-PFT」を提案し、プライバシーに配慮した表情認識タスクにおいて最先端の性能を達成することを示しています。
1418 件の論文
この論文は、ソースデータや画像合成を必要とせず、中立表情のみを含むターゲットデータを用いて事前学習済みモデルを個人ごとに適応させる軽量な潜在空間ベースの手法「SFDA-PFT」を提案し、プライバシーに配慮した表情認識タスクにおいて最先端の性能を達成することを示しています。
本論文は、日常活動に限定された既存のベンチマークの限界を克服し、手術、産業、極限スポーツ、動物視点など多様なドメインにまたがる egocentric 動画の質問応答におけるマルチモーダル大規模言語モデルのドメイン横断一般化能力を評価するための包括的なベンチマーク「EgoCross」を提案し、既存モデルの限界と改善の可能性を示したものです。
この論文は、単一の RGB 画像から未見の物体カテゴリの 9 自由度姿勢を推定する新たな単一段階のトランスフォーマーベースの手法「YOPO」を提案し、追加データや深度情報なしで既存の RGB 専用手法を凌駕する性能を達成したことを報告しています。
この論文は、ロボティクス応用に不可欠な高速かつ効率的な 3 次元再構成を実現するため、関心領域(POI)に特化した粗から細への最適化フレームワーク「CoRe-GS」を提案し、背景の計算を削減しながら浮遊ノイズを抑制し、再構成品質と訓練速度を同時に向上させる手法を提示しています。
本論文は、音声と音韻情報を視覚情報と統合するマルチモーダル学習フレームワーク「VocSegMRI」を提案し、リアルタイム MRI における発音器官の高精度なセグメンテーションを実現したものである。
生物学的な同期現象に着想を得たクルモントモデルを拡散過程に応用し、指紋やテクスチャなどの方向性豊かな画像生成において、位相の同期と非同期を制御することで従来の等方性拡散モデルを超える性能を実現する新しい生成モデルを提案する。
この論文は、人手に依存するサンゴの産卵計測の課題を解決し、大規模なサンゴ礁の修復を可能にするため、低コストなカメラと人間によるラベル付けを組み合わせた物体検出技術を用いて、サンゴの産卵と幼生を自動的に検出・分類・計数する「CSLICS」と呼ばれるシステムを提案し、その有効性を検証したものです。
この論文は、深層ビジョンネットワークにおける概念の符号化と復号を担う方向性ペアを、特徴再構成に依存しない教師なし手法で復元し、モデルの解釈性向上や誤り修正などの応用を可能にする新たなアプローチを提案するものである。
本論文は、ビデオ条件付き音声生成(Video-to-Sound)と視覚テキスト音声合成(VisualTTS)という従来別個のタスクを、ディテトランス(DiT)アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。
本論文は、視覚的手がかりと環境音の両方を用いた動画のユーモア理解を評価するための新しいベンチマーク「v-HUB」を提案し、マルチモーダル大規模言語モデルの現状の課題と音声モダリティの重要性を実証しています。
本論文は、マルチモーダル多ターン対話における新たな安全リスクに対処するため、大規模な安全データセットと自動攻撃フレームワークを構築し、既存の手法を凌駕する包括的な対話安全監査システム「LLaVAShield」を提案するものである。
この論文は、1925 年から 1950 年にかけてのフランスの歴史的都市拡大を分析するため、古地図の複雑な特徴を処理する双段階の深層学習パイプラインを開発し、初の全国規模のオープンアクセス都市フットプリントデータセットを生成したことを報告しています。
本論文は、ナビゲーションエージェントの空間知能を体系的に評価する新しいベンチマーク「NavSpace」と、それにおいて既存モデルを上回る性能を示す新しいナビゲーションモデル「SNav」を提案するものである。
本論文は、LiDAR 3D セマンティックセグメンテーションにおけるドメイン一般化と不完全ラベルという未解決課題に焦点を当て、既存手法の限界を克服し、信頼性に基づく双視点フレームワーク「DuNe」を提案することで、複数のデータセットにおいて最先端の性能を達成したことを報告しています。
本論文は、視覚的推論を検証可能な記号問題へと変換し、チャートや図表などの構造化された視覚データに対する推論精度を飛躍的に向上させるために、視覚を可実行コードへ逆変換する「デレンダリング」を活用した新しいエージェントフレームワーク「RECODE」を提案するものです。
既存のニューラル動画圧縮方式が抱える欠陥を克服するため、従来の動画符号化の概念を取り入れて単一モデルで適応的にイントラ・インター符号化を行う統合フレームワークと双方向二フレーム圧縮設計を提案し、DCVC-RT を上回る圧縮効率とリアルタイム性を両立させた研究です。
本論文は、2D エンコーダの限界を克服し、RGB 画像から強力な 3D 幾何学的事前知識を抽出してアクションヘッドに注入する新たなパラダイム「FALCON」を提案し、シミュレーションおよび実世界タスクにおいて最先端の性能と高い汎用性を達成したことを報告しています。
本論文は、軽量な身体ランドマーク検出と適切な部分集合の選択、およびスプライン補間による欠損値の補完を組み合わせることで、LIBRAS の孤立した手話認識において、既存の最先端手法と同等以上の精度を維持しつつ処理時間を 5 倍以上短縮できることを実証しています。
この論文は、離散的な人間 - 物体相互作用表現と自然言語を統合した新しいフレームワーク「SynHLMA」を提案し、可動部を持つ物体に対する言語指示に基づく一連の巧みな把持動作を生成・予測・補間することを可能にするものである。
この論文は、事前学習済み Stable Diffusion モデルの特徴量を活用し、トレーニング不要な k-NN による検出とコンパクトな分類器によるソース特定を可能にする軽量かつデータ効率の高いフレームワーク「FRIDA」を提案し、GenImage ベンチマークにおいて未見の生成モデルに対する検出とソース特定において最先端の性能を達成したことを報告しています。