Robust Sparse Signal Recovery with Outliers: A Hard Thresholding Pursuit Approach Based on LAD
この論文は、信号のスパース性の事前知識を必要とせず、粗大な外れ値を含む測定値からスパース信号を正確に復元するための新しいアルゴリズム「GFHTP」を提案し、その理論的収束性と他手法を上回るロバスト性を示しています。
4137 件の論文
この論文は、信号のスパース性の事前知識を必要とせず、粗大な外れ値を含む測定値からスパース信号を正確に復元するための新しいアルゴリズム「GFHTP」を提案し、その理論的収束性と他手法を上回るロバスト性を示しています。
SpatialMem は、メトリック 3D 空間を解釈可能なインデックス構造として活用し、カジュアルに撮影された egocentric ビデオから構造的な 3D アンカーと階層的なメモリを構築することで、長期にわたる視覚的コンテキストにおける言語に基づく検索や QA、およびナビゲーションを可能にするメモリ中心のシステムです。
本論文は、動画ストリームから有限の空間記憶を維持しながら継続的に環境の空間理解を向上させ、3D ポイントクラウドとセマンティック情報を統合して実世界の具現化システムへの展開を可能にするフレームワーク「OnlineSI」を提案し、曖昧さを軽減する新しい評価指標「Fuzzy -Score」を用いた実験でその有効性を示しています。
本論文は、外部モデルや二重構造を必要とせず、事前学習済み VAE の特徴と拡散トランスフォーマーの中間潜在特徴を軽量な投影層で整合させる「SRA 2」を提案し、計算コストを大幅に増やすことなく拡散モデルの訓練収束と生成品質を同時に向上させることを示しています。
この論文は、タスク固有の自己蒸留とフレーム間自己回帰的スパース化を導入することで、推論速度と追跡性能の両立を実現し、GOT-10k でリアルタイムかつ 70.6% の AO を達成する高速自己回帰型視覚追跡フレームワーク「FARTrack」を提案しています。
画像編集におけるオンライン強化学習の課題である「注意の崩壊」を解決するため、明示的な空間推論を用いて編集領域をピクセルレベルで検証する報酬モデル「SpatialReward」を提案し、これにより評価精度の向上と画像生成モデルの性能大幅な改善を実現した。
この論文は、斜視航空画像と衛星画像の間の幾何学的な不一致を解決し、GNSS 非依存の UAV 航法におけるクロスビュー地理定位の性能を向上させるため、マクロ幾何構造のフィルタリングとミクロ幾何スケールの適応を統合した新しいフレームワーク「(MGS)-Net」を提案し、University-1652 および SUES-200 データセットで最先端の結果を達成したことを報告しています。
この論文は、手術ロボットの専用インターフェースを必要とせず、時間同期されたマルチモーダルデータを非侵襲的に収集できるオープンソースシステム「MiDAS」と、それに付随する注釈付きデータセット( hernia repair 縫合を含む)を提案し、その有効性を検証したものです。
DAV-GSWT は、拡散モデルと能動的視点サンプリングを活用して最小限の入力から高品質なガウススプラッティング・ワンタイルを生成し、大規模な仮想環境の構築に必要なデータ量を大幅に削減するデータ効率型フレームワークです。
この論文は、現実世界の複雑な空間的不整合を伴う教師なしクロスモーダル超解像課題に対し、不整合を考慮した特徴変換器とコンテンツを考慮した参照フィルタをオンラインで共同最適化する自己教師ありモデル「RobSelf」を提案し、既存手法を凌駕する性能と効率性を実現することを示しています。
この論文は、大規模な注釈やモデルの再学習を必要とせず、凍結されたビジョン・言語モデル(VLM)の概念抽出能力を活用しつつ、解釈可能な評価次元の自動抽出とスコア較正を行う「UrbanAlign」というポストホック手法を提案し、都市景観の人間の嗜好予測において既存手法を大幅に上回る精度を達成したことを示しています。
本論文は、視覚基盤モデルにおけるアフォーダンス理解が、物体の幾何学的構造を捉える能力と動作との相互作用をモデル化する能力という 2 つの補完的な側面に基づいており、DINO と Flux という 2 つのモデルの特性を学習なしで融合させることで、弱教師あり手法と競合するアフォーダンス推定を実現することを示しています。
StoryTailor は、単一の RTX 4090 GPU 上でファインチューニングなしに、複数の登場人物の同一性を維持しつつ、動作の忠実性と背景の連続性を両立した一貫性のある視覚的物語を生成するゼロショットパイプラインです。
本論文は、既存の評価基準の限界を克服し、動画理解・生成・編集・再構築の 4 つの能力を包括的に評価するための新たなベンチマーク「UniVBench」と、それを標準的に測定するエージェント評価システム「UniV-Eval」を提案するものである。
この論文は、タンパク質の構造事前知識をグラフニューラルネットワーク(GNN)に組み込むことで、単粒子クライオ電子顕微鏡(cryo-EM)における異種構造の原子レベルの骨格コンフォメーションを高精度に再構築する手法を提案しています。
DPCache は、拡散モデルのサンプリング加速を経路計画問題として定式化し、動的計画法を用いて最適なキータイムステップの系列を選択することで、学習不要で高品質な生成を維持しつつ大幅な高速化を実現する新しいフレームワークです。
この論文は、大規模なパンoptic ビデオシーングラフデータセット「Synthetic Visual Genome 2(SVG2)」を構築し、それを基に動画からコンパクトな時空シーングラフを生成するモデル「TRaSER」を開発することで、関係検出や動画質問応答などのタスクにおいて既存の最先端モデルを大幅に上回る性能を達成したことを報告しています。
この論文は、下流タスクの性能に基づくフィードバックループとテキスト指示によるガイダンスを統合した閉ループ最適化メカニズムを導入し、再学習なしで多様な下流タスクの要件にリアルタイムに適応する新しい適応的動的除霧フレームワークを提案するものです。
本論文は、既存手法の限界を克服し、解像度やスケールに依存しない汎化性能を実現するため、大規模なクロススケールパンシャープニングデータセット「PanScale」とベンチマーク「PanScale-Bench」を提案し、画像解像度の変化をシーケンス長さの変化として捉える新しいアーキテクチャ「ScaleFormer」を開発したことを報告しています。
本論文は、プライバシーを保護しつつ高品質なバーチャル試着を可能にするため、教師学習と敵対的学習を統合したモジュール型アーキテクチャ「Mobile-VTON」を提案し、クラウド依存なしでモバイル端末上で高忠実度な試着生成を実現することを示しています。