Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation
本論文は、人間の注釈を必要とせず画像から物体カテゴリの一般的な姿勢事前分布を学習する「Pose Prior Learner」を提案し、その階層的メモリと反復推論によって、特に遮蔽された画像における姿勢推定の精度を向上させることを示しています。
2380 件の論文
本論文は、人間の注釈を必要とせず画像から物体カテゴリの一般的な姿勢事前分布を学習する「Pose Prior Learner」を提案し、その階層的メモリと反復推論によって、特に遮蔽された画像における姿勢推定の精度を向上させることを示しています。
この論文は、音声とテキストの情報を同期させて拡散モデルを用いることで、感情や移動を含む表現豊かな全身ジェスチャーを生成する新しいフレームワーク「ExpGest」を提案し、既存の手法よりも自然で制御性の高い結果を実現したことを示しています。
この論文は、連続的な特徴に依存する従来の深層学習とは異なり、画像を視覚的プリミティブで再構成することで高次な構造的説明を学習する神経記号システムを提案し、組織学的画像の異常診断において、従来の深層学習アーキテクチャよりも高い分類精度と透明性を達成したことを示しています。
この論文は、生成タスクの複雑さに応じて拡散過程自体を各サンプルに動的に適応させる「入力適応型生成ダイナミクス」を提案し、固定された拡散軌道に依存する従来の手法よりも少ないサンプリングステップで高品質な画像生成を実現することを示しています。
NASA の Landsat および Sentinel-2 データを用いて訓練され、多様な地球観測タスクで先行モデルや他社モデルを上回る性能を発揮するオープンソースの汎用地球観測基盤モデル「Prithvi-EO-2.0」が発表されました。
本論文は、画像エンコーダと LLM を共同で最適化し、廃棄されるトークンから有用な情報を再利用する新しいマージ戦略を採用することで、既存の手法を超えたエンドツーエンドの高速化と高精度を実現する iLLaVA を提案しています。
この論文は、マルチモーダルタスクにおける既存の評価指標の限界を克服するため、基準ごとのスコアを統合して総合評価を行う参照不要の指標「HarmonicEval」を提案し、4 つのタスクにわたる 18,000 件の専門家の人間評価を含む新しいベンチマーク「MMHE」を構築してその有効性を検証したものである。
本論文は、幾何学監督とコントラスト損失を用いた共同学習戦略および階層的コンテキスト認識モジュールを導入し、3D 空間内の物体表面に言語フィールドを正確に整合させることで、テキストクエリによる高精度な 2D/3D セグメンテーションや編集タスクを実現する「LangSurf」を提案しています。
この論文は、事前学習された視覚言語モデル(VLM)を活用して画像から抽象的な記述子(述語)を学習し、これを用いた記号的な世界モデルを構築することで、限られた短いデモンストレーションから未知の環境や目標、そして長期のタスクに対するゼロショットな汎化を実現するロボット制御手法を提案しています。
この論文は、ラベル付きデータと境界付近の unlabeled データを効率的に選択・生成する潜在クラスタリングベースの手法を提案し、半教師あり敵対的トレーニングのデータ量と計算コストを大幅に削減しながら、高い敵対的堅牢性を維持することを示しています。
本論文は、事前学習された無条件拡散モデルを条件付き生成タスクに応用するため、ベイズの定理に基づき条件付きスコア関数を無条件スコアとガイダンス項に分解し、自然画像のガウス型事前分布を組み込んだ最大事後確率(MAP)に基づく新たなガイダンス項推定法を提案することで、逆問題の解像度向上や画像修復において既存手法よりも内容の保存性や一貫性を高める手法を提示しています。
この論文は、専門家のデモから生成拡散ポリシーをクローンし、デモとランダムな探索から予測行動条件付き世界モデルを学習し、その世界モデルを用いて将来を予測しながらアクション提案を最適化する「生成予測制御(GPC)」という学習制御フレームワークを提案し、シミュレーションおよび実世界における多様なロボット操作タスクで行動模倣を凌駕する性能を実証したものである。
複雑な抽象的な指示に基づいて未知の大規模環境を自律的に移動する課題に対し、神経記号(NeSy)アプローチを用いてタスク分解と効率的な探索を可能にする新しいビジョン・言語ナビゲーションシステム「VL-Nav」を提案し、シミュレーションおよび実世界環境で高い成功率を達成したことを示しています。
本論文は、拡散モデルに基づく構造表現プロンプトとスケール再生トレーニング機構を導入し、教師なし学習で構造情報を保持しながら高品質な単一画像ノイズ除去を実現する「Prompt-SID」を提案するものである。
この論文は、大規模言語モデル(LLM)を用いて脳活動に対応する画像の自然言語キャプションを生成する「LaVCa」という手法を提案し、従来の手法よりも正確かつ詳細に視覚野のボクセル選択性を記述し、脳内表現の微細な機能分化の解明に貢献することを示しています。
本研究は、BraTS データセットの多モーダル MRI 画像を前処理し、2D と 3D の UNET によるセグメンテーション結果を重み付き平均で融合して ResNet50 に投入する手法を提案し、99.25% の分類精度を達成することで、グリオーマのサブクラス分類の精度を大幅に向上させたことを示しています。
この論文は、拡散モデルの微調整におけるサンプル効率と性能のバランスを改善するため、REINFORCE の分散低減技術と PPO のロバスト性を組み合わせた新しい強化学習手法「LOOP」を提案し、その有効性を示したものです。
この論文は、解剖学的ランドマークを組み込んだトランスフォーマーベースの幾何学的深層学習モデルを提案し、侵襲的で高価なPETスキャンに頼らずにアルツハイマー病の診断精度を向上させ、中リスク群における脳アミロイド陽性性の予測を可能にするものである。
本論文は、ユーザーの自撮り写真をガウス領域適応技術を用いて3Dアバターに変換し、さらにユーザーのアイデンティティを保持したまま二次的なスタイルを付与する「デュアル・スタイライゼーション」プロセスを通じて、モバイル端末で30〜40 FPS のアニメーション再生を可能にする即時生成型アバターシステム「Snapmoji」を提案するものです。
本論文は、テキスト条件付き 3D 室内シーン生成の評価における既存手法の限界を克服するため、明示的な要件と暗黙的な期待の両方を測定する新たな評価フレームワーク「SceneEval」と、それを支えるベンチマークデータセット「SceneEval-500」を提案し、現在の生成手法が実用性と制御可能性において依然として課題を抱えていることを明らかにしています。