SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation
本論文は、インプリシット・ニューラル・リプレゼンテーション(INR)におけるパラメータ冗長性を解消し、空間混合モジュールとチャネル混合モジュールを分離したハイブリッド共有方式を採用することで、スケーラごとの処理を効率的に再帰的に実行する新たなフレームワーク「SRNeRV」を提案し、大幅なモデル縮小とレート歪み性能の向上を実現したものである。
3998 件の論文
本論文は、インプリシット・ニューラル・リプレゼンテーション(INR)におけるパラメータ冗長性を解消し、空間混合モジュールとチャネル混合モジュールを分離したハイブリッド共有方式を採用することで、スケーラごとの処理を効率的に再帰的に実行する新たなフレームワーク「SRNeRV」を提案し、大幅なモデル縮小とレート歪み性能の向上を実現したものである。
本論文は、キャラクターの参照画像と UV 位置マップを活用して、3D 整合性を保ちつつ効率的に高品質な衣類テクスチャを合成する新しいフレームワーク「GarmentPainter」を提案し、既存手法を上回る性能を達成したことを報告しています。
本論文は、MICCAI 2024 で公開された UWF4DR チェレンジデータセットを用い、深層学習モデル(CNN、ViT、基盤モデル)と広視野画像(UWF)を組み合わせることで、画像品質評価、参照可能な糖尿病網膜症の検出、および糖尿病性黄斑浮腫の検出という 3 つの臨床タスクにおいて高い性能を達成し、特徴レベルの融合や周波数領域表現の有効性を示した研究です。
この論文は、センサー欠損時にも単一モダリティで動作可能な協調知覚フレームワーク「SiMO」を提案し、長さ適応型マルチモーダル融合(LAMMA)と「Pretrain-Align-Fuse-RD」学習戦略によって、モダリティ間の競合を解消しつつ単一モダリティとマルチモーダル双方で最適な性能を維持することを示しています。
この論文は、古典的なホーグ変換の離散化投票方式を連続的なスコア関数に置き換え、パーシステントホモロジーの持続的特徴を用いて点群から直線を検出する新しい手法とその効率的なアルゴリズムを提案しています。
本論文は、自律走行における動的な 4 次元シーン再構成の課題を解決するため、VGGT を拡張し、時相対応や運動意識型注意機構、および 3D ガウススプラッティングを用いて動的な点の動きを効率的に学習するユニファイドなフードフォワードフレームワーク「DynamicVGGT」を提案するものである。
この論文は、拡散モデルの重み変化がノルムよりも方向に依存することを発見し、これを低ランク回転行列で効率的にモデル化する「WaDi」と呼ばれる新しいワンステップ画像合成蒸留フレームワークを提案し、従来の手法よりもはるかに少ない学習パラメータで最先端の生成品質と汎用性を達成したことを示しています。
本論文は、高速な物体追跡においてモーションブラーやフレームレート制限に直面する従来の RGB-D カメラの課題を解決するため、イベントカメラの高時間分解能を活用し、イベントベースのオプティカルフローによる姿勢推定とテンプレートベースの姿勢補正を融合した学習不要な 6 次元物体姿勢追跡手法を提案するものです。
この論文は、既存の手法では除去が困難だった「性的」や「暴力的」などの広範な概念を、モデルの潜在空間における概念プロトタイプを特定し負の条件付けに利用することで、画像品質を損なわずに確実かつ精密に除去する新しいアプローチを提案しています。
本論文は、超音波画像の陰影や視点依存性を克服し、アノテーションなしで脊椎の完全な 3D 形状を再構成するための、音響パラメータとニューラルインプリシット表現を統合した新しい手法「OSCAR」を提案し、既存の手法を大幅に上回る精度を達成したことを示しています。
この論文は、視覚言語モデルの可視エンコーダーを変更せず、意図や運動、物体相互作用など多段階の抽象度で記述された構造化されたセマンティックプロンプトを導入する軽量フレームワーク「SP-CLIP」を提案し、ゼロショット行動認識の精度、特に細粒度および構成的な行動の認識を大幅に向上させることを示しています。
本論文は、放射線レポートに基づいて 3D 視覚言語エンコーダで関連する臨床事例を検索し、その解剖学的注釈を ControlNet を介して注入することで、テキスト条件付き潜在拡散モデルを用いた CT 画像生成において、意味的な制御と解剖学的な整合性を両立させる新しい手法を提案するものです。
本論文は、大規模言語モデルと視覚言語モデルを用いて自動生成された概念マスクに基づき、ビジョン・トランスフォーマーの内部関連性マップを最適化することで、背景などの偽相関への依存を減らし、分布外データに対する頑健性と解釈可能性を向上させる新しいファインチューニング手法を提案し、その有効性を複数のベンチマークで実証したものである。
本論文は、従来の 2D 画像融合の限界を克服し、DINO 特徴量や生成事前知識を活用した 4 次元時空間モデルにより、単眼動画から高ダイナミックレンジ(HDR)の放射輝度場と 3 次元シーンフローを統合的に再構築する「HDR-NSFF」を提案し、動的シーンにおける HDR 空間時間ビュー合成の最先端性能を達成したものである。
本論文は、VLM ベースの GUI エージェントの応答効率を標的とし、特定のトリガーにより過剰な推論連鎖を誘発して遅延を引き起こす新たなバックドア攻撃「SlowBA」を提案し、その有効性と潜在的な脅威を実証しています。
この論文は、Epic Kitchens データセットから作成された最小識別可能領域(MIRCs)を用いた大規模な人間と AI の比較研究を通じて、人間が空間的・時間的制約下でも手と物体の相互作用などの重要な視覚的手がかりに依存して行動認識を行うのに対し、AI モデルは文脈や低レベルの特徴に依存し、人間とは異なる認識パターンを示すことを明らかにしています。
この論文は、デジタル病理におけるマルチインスタンス学習モデルのヒートマップの妥当性を検証する新たな枠組みを提案し、アテンションや勾配に基づく手法よりも摂動法や層別関連性伝播(LRP)などの説明手法がモデルの意思決定をより正確に反映し、生物学的な洞察をもたらすことを大規模ベンチマークと実証実験を通じて示しています。
この論文は、局所的な視覚領域をクラス固有のプロンプト間で最適輸送を用いて効率的に分割・割り当てる「SOT-GLP」という手法を提案し、少数ショット分類の精度向上と分布外検出性能の両立を実現するものです。
本論文は、現在の世界知識を明示的な事前情報として捉え、その変化(バリエーション)を離散潜在空間でモデル化する「VLA」という事前知識ガイド型のビジョン・言語・アクションモデルを提案し、ロボット操作タスクにおいて最先端の性能と効率性を達成したことを報告しています。
この論文は、拡散モデルを用いたデータ拡張(DiffDA)の手法を「モデル微調整」「サンプル生成」「サンプル活用」の 3 つの構成要素に分解する統一的な分析フレームワーク「UniDiffDA」を提案し、多様な低データ分類タスクにおける公平なベンチマーク評価を通じて、手法間の比較や設計指針を明確化しています。