SplatSDF: Boosting SDF-NeRF via Architecture-Level Fusion with Gaussian Splats
本論文は、3D ガウススプラットをアーキテクチャレベルで直接融合する「SplatSDF」を提案し、既存の手法よりも 3 倍の高速な収束と高精度な幾何学表現を実現することで、SDF-NeRF の実用システムへの展開を加速させるものである。
7590 件の論文
本論文は、3D ガウススプラットをアーキテクチャレベルで直接融合する「SplatSDF」を提案し、既存の手法よりも 3 倍の高速な収束と高精度な幾何学表現を実現することで、SDF-NeRF の実用システムへの展開を加速させるものである。
本論文は、参照画像からノイズ(distractor)を除去しつつ新規シーンへの一般化を可能にする「Distractor-free Generalizable 3D Gaussian Splatting(DGGS)」という新たなフレームワークを提案し、学習時の安定性向上と推論時のアーティファクト低減を実現するものです。
この論文は、既知クラスの情報に基づいて未知クラスを推論する疑似未知埋め込みやマルチスケール対照的アンカー学習などの手法を提案し、従来のオープンボキャブラリー検出モデルが抱える未知物体の検出・学習の課題を解決し、オープンワールド環境下での物体検出性能を飛躍的に向上させるフレームワークを構築したものである。
この論文は、事前学習済みのテキストから動画への拡散モデルと SDS 損失を活用し、長さ・面積正則化と形状保存 ARAP 損失を導入することで、手書きスケッチのトポロジーを維持しつつ滑らかな一貫性のあるアニメーション生成を実現する手法を提案しています。
本論文は、自動運転のモーション予測タスクにおいて、高コストな手動アノテーションに依存せず、既存の検出器と追跡アルゴリズムから自動的に生成された擬似ラベル付き軌跡を用いた事前学習フレームワーク「PPT」を提案し、少量のラベル付きデータによる微調整で高い汎化性能と低データ領域での優れた成果を実現することを示しています。
この論文は、事前学習済み視覚モデルの全パラメータ微調整が特徴空間を制約し汎化性能を損なう問題を解決するため、バックボーンパラメータのわずか 3% だけを学習可能なパラメータ効率型転移学習手法「IV-tuning」を提案し、赤外線・可視光タスクにおいて既存の最先端手法を上回る汎化性と計算効率を実現したことを報告しています。
本論文は、短い動画モーメントの局所化精度向上を目指し、短モーメントのデータ多様性を高める「MomentMix」データ拡張手法と、長さ予測に特化した「Length-Aware Decoder」を提案し、主要ベンチマークで既存の DETR ベース手法を凌駕する性能を達成したことを報告するものである。
この論文は、単眼動画から自然で多様な人間と環境の相互作用を復元するために、人間と環境の接触制約を活用してシーン、カメラ姿勢、人間運動を共同最適化する手法「JOSH」と、その学習版「JOSH3R」を提案し、従来法を上回る精度と汎化性能を実証するものです。
本論文は、拡散モデルに限定されない敵対的浄化器が、非適応攻撃下で優れた頑健性、転送性、および色一般化性能を発揮し、CIFAR-10 で学習した非拡散モデルが ImageNet 用拡散モデルを上回る性能を示すことを明らかにしています。
本論文は、報酬モデルと動画生成モデルを相互に反復的に最適化する「Dual-IPO」という手法を提案し、手動アノテーションなしに動画の合成品質と人間の嗜好への整合性を大幅に向上させることを示しています。
本論文は、拡散トランスフォーマーにおける制御情報の層ごとの関連性を評価し、不要なパラメータと計算を削減するとともに、独自の Two-Dimensional Shuffle Mixer を導入することで、PixArt-delta と比較してパラメータ数と計算コストを 15% に抑えつつ高性能な制御生成を実現する「RelaCtrl」というフレームワークを提案しています。
本論文は、CLIP モデルや画像・概念のラベルを一切必要とせず、既存の視覚分類器を教師なしで解釈可能な概念ボトルネックモデルに変換する新たな手法「U-F-CBM」を提案し、既存の教師あり CLIP ベースの手法さえも凌駕する性能とゼロショット画像キャプション生成能力を実証しています。
本論文は、視覚と幾何学を単一の枠組みで統合し、双方向の整合性を保つことで、単一の現在のフレームから高忠実度かつ幾何学的に整合した 4 次元(画像と深度)の未来シーンを生成・知覚する統合型 4 次元運転ワールドモデル「UniFuture」を提案するものである。
本論文は、ガティングメカニズムを周波数視点から理論的に分析し、既存の軽量モデルにみられる低周波バイアスを最小化して画像分類の性能と効率を両立させる新しい軽量モデル「GmNet」を提案するものである。
本論文は、ViT の高次複雑性を回避しつつ、活性化マッチングとマスク予測を用いた蒸留手法「ViT-Linearizer」により、Mamba などの線形時間再帰モデルが ImageNet で 84.3% の高精度を達成し、高解像度画像処理における推論効率と性能を両立させることを示しています。
本論文は、異なる生成モデルに共通する構造的な不整合を捉えるため、顔の領域ガイド型アテンションと層ごとの適応的マスク変調を組み合わせた新しい Vision Transformer「LAMM-ViT」を提案し、既存の最先端手法を大幅に上回る汎用性と高精度な AI 合成顔検出を実現したことを報告しています。
本論文は、帯域幅制約下でのリアルタイム協調知覚を実現するため、圧縮点雲から反射強度を予測し、教師モデルからの知識蒸留を活用して低ビットレート伝送環境における 3D 物体検出のロバスト性と精度を向上させる手法を提案しています。
本論文は、深度推定とセマンティックセグメンテーションの基盤モデルを「Bridging Gate」と「Attention Temperature Scaling」技術によって統合し、リソース効率を維持しながら複雑なシーンにおける単眼深度推定の性能を飛躍的に向上させる手法「BriGeS」を提案しています。
この論文は、トランスフォーマーベースの視覚世界モデルにおいてランダム化されたグループアテンション戦略を用いてトークン処理をスパース化し、計算リソースを制約されたロボット環境でも高忠実度を維持しながら計画効率を劇的に向上させる「スパース・イマジネーション」という手法を提案しています。
この論文は、単一の放射線科医の指示から時系列にわたる腫瘍の追跡と体積セグメンテーションを可能にする、登録とガイド付きセグメンテーションを組み合わせた新しいフレームワーク「LinGuinE」を提案し、4 つのデータセットで最先端の性能を達成したことを報告しています。