Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection
本論文は、DINOv3 のパッチ埋め込み表現に対して 2 次元自己回帰モデルを導入し、空間的・文脈的依存関係を明示的に学習することで、既存の DINO ベース手法が抱える大規模なメモリ使用量や計算コストを削減しつつ、競合する性能を達成する効率的な教師なし異常検知フレームワークを提案しています。
5561 件の論文
本論文は、DINOv3 のパッチ埋め込み表現に対して 2 次元自己回帰モデルを導入し、空間的・文脈的依存関係を明示的に学習することで、既存の DINO ベース手法が抱える大規模なメモリ使用量や計算コストを削減しつつ、競合する性能を達成する効率的な教師なし異常検知フレームワークを提案しています。
この論文は、da Vinci Xi 内視鏡と構造化光カメラを用いてブタの死体から収集された、腹部の非剛体変形を伴う手術シーンの 4 次元再構成を評価するための大規模な「Dresden データセット(D4D Dataset)」を提案し、30 万フレーム以上の動画と数百の点群データを含む包括的なベンチマークとして、非剛体 SLAM や深度推定手法の開発・評価を可能にすることを示しています。
本論文は、3D ガウススプラッティング(3DGS)のシーンを、単一の編集画像と MLP の微調整のみで 2 秒以内にリアルタイムに再着色し、かつ鏡面反射などの視覚依存効果を維持する新規手法「VIRGi」を提案するものである。
本論文は、高解像度画像をパッチに分割し、事前学習された粗い幾何学情報とクロスパッチアテンションを統合した「Ultra Resolution Geometry Transformer (URGT)」を提案することで、単一画像からの深度と法線の推定において、細部と大域的整合性を両立し、UnrealStereo4K などで最先端の精度を達成する手法を提示しています。
本研究は、19 病院の 4 万超の患者から得られた約 2 億枚の画像を用いて開発され、汎用病理モデルを breast 専門知識と協働させることで、診断から予後予測までの 24 種類の臨床タスクにおいて最先端の性能を示した、乳がん病理に特化した最初の基盤モデル「BRIGHT」を提案し、その臨床的有用性と臓器特異的基盤モデル開発の新たなパラダイムを実証したものです。
本論文は、教育用 AI 生成動画の品質評価を目的とした初のベンチマーク「EduAIGV-1k」を構築し、知覚的品質とプロンプト整合性を細粒度で評価する新しいモデル「EduVQA」を提案するものである。
本論文は、高品質で大規模な DaTikZ-V4 データセットと逆グラフィックスに基づく強化学習を活用し、小規模なオープンソースモデル「TikZilla」を開発することで、テキストから高品質な TikZ 図を生成する性能を大幅に向上させ、GPT-5 に匹敵する結果を達成したことを報告しています。
本論文は、Sentinel-1 SAR 画像を用いた海氷分類タスクにおいて、FPGA 搭載のオンボード推論向けに設計された軽量セマンティックセグメンテーションネットワーク「TinyIceNet」を提案し、高精度な推論と大幅な省電力化を両立させることを実証しています。
本論文は、肺超音波画像の生成において解像度低下による診断情報の損失を防ぎ、生物医学的意味情報との整合性を保つために、a trous ウェーブレット変換と BioMedCLIP を統合した拡散モデル「AWDiff」を提案し、既存手法よりも高い構造的忠実度と多様性を達成したことを示しています。
本論文は、3 次元一貫性のある編集データが不足しているという課題に対し、3 次元基礎モデル VGGT の出力を報酬信号として活用する強化学習フレームワーク「RL3DEdit」を提案し、効率的かつ高品質な多視点一貫性を持つ 3 次元シーン編集を実現するものである。
Kling-MotionControl は、DiT ベースの統合フレームワークを用いて、身体・顔・手の動きを個別に最適化しつつ同一性を維持し、10 倍以上の高速推論を実現することで、高品質かつ制御性の高い汎用的なキャラクターアニメーションを可能にする技術です。
本論文は、安全なプロンプトに対する画像品質の劣化を最小限に抑えつつ、テキストから画像への生成モデルにおける安全性を向上させるために、対照的なデータセット「SafeSteerDataset」を構築し、非線形輸送マップと幾何学的条件付けを組み合わせた「Conditioned Activation Transport(CAT)」フレームワークを提案するものである。
本論文は、オムニマルチモーダル大規模言語モデルにおけるクロスモーダルの幻覚を軽減するため、無関係なモダリティのノイズへの不変性と関連モダリティの変化への感応性を強制し、テキスト依存を抑制する「モダリティ分離型直接選好最適化(MoD-DPO)」を提案し、複数のベンチマークで既存手法を上回る性能を実証したものである。
本論文は、世界モデルの時間的推論能力と潜在動作のコンパクトさを統合し、事前学習された動画 VAE を用いて構造と運動を因子分解する「CoWVLA」と呼ばれる新しいパラダイムを提案し、ロボットシミュレーションベンチマークにおいて既存手法を上回る性能を示したことを報告しています。
本論文は、自律走行、ロボティクス、ドローンなど多様な物理的実体における汎用性を可能にする共通基盤として「空間知能」に着目し、共有基盤の構築、専門化、そしてモデル統合を行う SSR パラダイムと GRPO を採用した汎用型基盤脳「ACE-Brain-0」を提案し、24 のベンチマークで最先端の性能を達成したことを報告しています。
Copernicus 地球観測データの多様なセンサ間変換における不確実性を捉えるため、COP-GEN は確率的な潜在拡散トランスフォーマーを導入し、任意のモダリティ間での条件付き生成や欠損データ補完を可能にする。
本論文は、生成能力が理解を向上させるかどうかを体系的に検証した新たなベンチマーク「UniG2U-Bench」を提案し、統合マルチモーダルモデルが直接推論より劣る傾向にある一方で、空間知能や多段階推論などの特定タスクでは生成が有効であるという知見を示しています。
DuoMo は、ノイズや不完全な観測を含む制約のない動画から、カメラ空間と世界空間の 2 つの拡散モデルを連携させることで、パラメトリックモデルを介さずに世界座標系での人間運動を高精度に再構築する生成手法です。
本論文は、テスト時学習メモリと非パラメトリックなスライディングウィンドウアテンションを組み合わせたハイブリッド記憶機構を導入することで、従来の推論時の最適化なしに数千フレームにわたる動画から高忠実度かつ一貫性のある 3D 幾何復元を実現する「LoGeR」という新しいアーキテクチャを提案しています。
本論文は、Transfusion フレームワークを用いたゼロからの中核的なマルチモーダル前訓練を通じて、視覚と言語の相補性、世界モデルの自然な獲得、そしてデータ要求量の非対称性を MoE 構造で解決するスケーリング則など、ネイティブなマルチモーダルモデルの設計指針を明らかにしたものである。