Point-based Instance Completion with Scene Constraints
この論文は、既知のシーン制約を考慮して任意のスケールと姿勢で物体を補完する新しい点群ベースのインスタンス補完モデルと、その評価用の新しいデータセット「ScanWCF」を提案し、既存の手法よりも高い忠実度と完成品質を実現することを示しています。
1871 件の論文
この論文は、既知のシーン制約を考慮して任意のスケールと姿勢で物体を補完する新しい点群ベースのインスタンス補完モデルと、その評価用の新しいデータセット「ScanWCF」を提案し、既存の手法よりも高い忠実度と完成品質を実現することを示しています。
本論文は、トランスフォーマーの注意機構やスペクトル抽出などのモジュールにリプシッツ連続性制約を課し、学習可能なアンサンブル融合戦略を組み合わせることで、脳波に基づく感情認識の安定性、精度、およびロバスト性を向上させる新しいフレームワーク「LEL」を提案し、複数のベンチマークデータセットで優れた性能を実証したものである。
本論文は、哺乳類の空間認知に着想を得て、直交制約付き変分情報ボトルネック(O-VIB)エンコーダを導入し、冗長な特徴を剪除することで帯域幅制約の厳しい都市環境における高精度な視覚的局所化を実現するタスク指向のセマンティック圧縮フレームワークを提案するものである。
本論文は、低線量かつ高品質な CBCT 画像再構成を実現するため、多視点・多スケール特徴を統合した DiCE ネットワークと大規模データを用いた HyViP 事前学習フレームワークを備えた、初の CBCT 用基盤モデル「DeepSparse」を提案し、既存手法を上回る性能を実証したものである。
本論文は、単車および複数車両の協調自律走行研究を促進するために、204 シーケンス・3 万フレームのマルチモーダルデータを含む包括的なベンチマーク「M3CAD」を提案し、ネットワーク帯域制約を考慮した適応的融合手法による新たな基線性能を確立したことを報告しています。
本論文は、キーポイント駆動のアセット合成と KG-DAgger による失敗回復用デモンストレーション生成を活用し、15 万の軌跡を用いた閉ループ模倣学習によって、実世界で 75% の成功率を達成する汎用的な衣類折り畳みロボット制御ポリシーを提案する。
本論文は、従来の 2D ポーズ画像に依存せず、3D 運動シーケンスを直接モデル化する「4DMoT」と「MV-DiT」を導入した MTVCraft を提案し、任意のキャラクターや非人間オブジェクトに対する高精度かつ汎用性の高いゼロショット動画生成を実現したことを報告しています。
この論文は、未収データや欠落モダリティの問題に対処するため、収束性が保証された最適化アルゴリズムをニューラルネットワークに展開し、メタ学習を統合することで、多コイル・多モダリティ MRI の高速再構成と合成を可能にする統合フレームワークを提案しています。
Apple Vision Pro を活用して、3D 手の動きと指の追跡データが同期して記録された、これまでにない大規模かつ多様な巧緻な操作データセット「EgoDex」を構築し、模倣学習の政策評価やロボティクス・コンピュータビジョン分野の進展を促進する基盤を提供した論文です。
本論文は、大規模インターネットデータで事前学習された動画拡散モデルを、アーキテクチャと学習目的の再設計、および因果的な動作ガイダンスの導入を通じて、ロボット操作やゲームシミュレーションなど多様な領域で高忠実度な未来予測を可能にするインタラクティブな世界モデルへと転用する「Vid2World」という手法を提案しています。
この論文は、事前学習された 3 次元生成事前知識と境界積分方程式ソルバーを結合した「ソルバー内ループ」フレームワークを提案し、物理法則を厳密に満たしつつデータ駆動型正則化により、電気インピーダンストモグラフィ(EIT)における複雑な 3 次元界面の高精度かつ効率的な再構築を実現するものである。
本論文は、視覚と触覚のモダリティを効果的に融合し、タスクに依存しない汎用的な表現学習とゼロショット一般化を実現するために、局所および大域の位置符号化を段階的に注入するトランスフォーマーベースのアーキテクチャ「ViTaPEs」を提案し、実世界データセットおよびロボティクスタスクにおいて最先端の性能を示すことを報告しています。
この論文は、農業分野における密集・自己遮蔽物体のインスタンスセグメンテーション課題を解決するため、最小限の人手注釈で形状やテクスチャに焦点を当てた「GLMask」を用いた半自己教師あり学習アプローチを提案し、小麦の穂の検出で mAP@50 98.5% の最高精度を達成したことを報告しています。
本論文は、ピラミッド型 pix2pix の損失関数に分散ペナルティを導入してモード崩壊を抑制し、H&E 染色画像から高忠実度の HER2 免疫組織化学画像を生成する深層学習フレームワークを提案することで、乳がん診断の精度向上とコスト削減を実現するものである。
本論文は、照明と法線ベクトルを明確に分離する「Light Register トークン」や「Wavelet 基盤の双枝アーキテクチャ」を提案し、大規模合成データセット「PS-Verse」を用いたカリキュラム学習を通じて、任意の照明条件下で高精度かつ汎用的なフォトメトリックステレオを実現する「LINO UniPS」を構築したものである。
本論文は、視覚言語モデル(VLM)から得られる特徴を明示的なプロンプトとしてセグメンテーションモデル(SAM)に活用し、さらに分類段階でドメインギャップを回避する「ソフトな空間事前分布」を導入するカスケード型フレームワークを提案することで、任意のクラスの擬態物体を高精度にセグメント化・分類するオープンボキャブラリ擬態物体セグメンテーション(OVCOS)の課題を解決するものです。
本論文は、事前学習された潜在拡散モデルとマルチモーダル理解モデルを活用し、対データなしで多様な画像劣化をゼロショットで統一復元する「LD-RPS」を提案し、既存手法を上回る性能を実証したものです。
この論文は、人間の視覚発達の過程(視力やコントラスト感度など)を模倣した「発達的視覚食」を導入することで、AI がテクスチャ依存から脱却し、形状に基づく頑健で人間に近い視覚能力を獲得できることを実証しています。
本論文は、複数のデータセットをまたぐ汎用的な視覚的場所認識を実現するため、学習されたクエリを参照コードブックとして活用し、計算コストを大幅に増やさずに特徴集約の能力を向上させる「クエリベース適応集約(QAA)」を提案し、既存の単一データセット特化モデルと同等の性能を維持しながら多様なデータセット間でのバランスの取れた汎化性能を達成することを示しています。
本論文は、センサー故障やプライバシー保護により生じる不完全なマルチモーダルデータの問題に対処するため、モダリティ組合せごとの共有情報と固有特徴を分離し、表現空間の分離性に基づいて動的に学習比率を調整する新しいパラメータ効率型学習フレームワーク「MCULoRA」を提案し、感情認識タスクにおいて既存手法を上回る性能を達成したことを示しています。