Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement
本論文は、異なる視点からの画像間の地理的位置推定を目的とし、空間領域と周波数領域の相補的な表現を活用した軽量かつ高精度な「SFDE」という新しいネットワークを提案し、既存手法を上回る性能を達成したことを示しています。
5768 件の論文
本論文は、異なる視点からの画像間の地理的位置推定を目的とし、空間領域と周波数領域の相補的な表現を活用した軽量かつ高精度な「SFDE」という新しいネットワークを提案し、既存手法を上回る性能を達成したことを示しています。
この論文は、リモートセンシング分野におけるマルチモーダル大規模言語モデルの幻覚問題を解決するため、詳細な診断用ベンチマーク「RSHBench」を提案し、学習不要で推論時に内在する注意機構を活用して局所推論を導く「RADAR」という手法を開発し、その有効性を実証したものです。
本論文は、現実世界のクライアント構造を考慮せず既存の LoRA 法が抱える課題を解決するため、グローバル・サブグループ・クライアント固有の知識をそれぞれ捉える階層的アダプターと、部分空間類似性に基づく適応的クラスタリングを導入した「HiLoRA」という新しい階層型 LoRA 枠組みを提案し、個人化と汎化の両面で性能向上を実現するものです。
この論文は、計算病理学、放射線学、自然言語処理の分野にまたがる医療基盤モデルの汎用性を評価するために、標準化されたプロトコルと「UNICORN スコア」を導入した統合ベンチマーク「UNICORN」を提案し、そのデータセットと評価プラットフォームを公開していることを述べています。
本論文は、野外で撮影された屋外シーンの再照明を可能にするため、前景と空を分離し物理的レンダリングと 3D ガウシアンスプラッティングを組み合わせる新しい手法「R3GW」を提案し、任意の照明条件下でのフォトリアリスティックな新規視点合成と、空と前景の境界におけるレンダリング品質の向上を実現しています。
本論文は、大規模な対データが不要な新しい動画編集フレームワーク「NOVA」を提案し、ユーザーが編集したキーフレームによるセマンティックな制御と、元の動画からの密な運動・テクスチャ情報の統合、および人工的に劣化した動画を用いた学習戦略により、高忠実度かつ時間的に一貫した動画編集を実現することを示しています。
本論文は、古代ギリシャの批判的編集における複雑な構造を認識するために大規模合成データと実スキャンベンチマークを構築し、視覚言語モデル(VLM)の性能を評価した結果、ゼロショットでは既存ソフトに劣るものの Qwen3VL-8B が実スキャンで 1.0% の文字誤り率を達成し、その可能性と課題を明らかにしたものである。
本論文は、デジタルインクを固定語彙のトークンに変換する「ScribeTokens」を提案し、生成タスクでのベクトル表現を大幅に上回る性能と、自己教師あり学習による認識タスクでの最優秀な結果を実現したことを示しています。
本論文は、スケーリング不変性とスケーリング共変性を数学的に保証し、既知のスケールで訓練されたモデルが未知のスケールに対しても高い汎化性能を示すことを実証する「スケーリング不変ガウス微分残差ネットワーク(GaussDerResNets)」を提案し、STL-10、Fashion-MNIST、CIFAR-10 のスケーリング版を用いた実験でその有効性を確認したものである。
大規模視覚言語モデル(LVLM)は、ノードや構造的特徴は視覚エンコーダ内で早期に線形に表現される一方で、エッジ情報は言語モデルのテキストトークン段階まで遅れて現れるため、関係性の理解に課題を抱えていることを、合成図データセットを用いた内部表現の探査により明らかにしました。
本論文は、写真計測残差、セマンティック事前知識、幾何学的事前知識を融合したマルチモーダル事前情報に基づく重要度サンプリングを中核とした階層的 3D ガウススプラッティング手法を提案し、これにより疎なビューからの新規視点合成において過学習やノイズを抑制しつつ、DTU データセットで最大 0.3dB の PSNR 向上を実現する SOTA 性能を達成したことを示しています。
SIGMark は、大規模なメッセージキーの保存を不要とする盲抽出機能と、時系列擾乱に対する頑健性を向上させるモジュールを備えた、拡散モデルによる動画生成向けのスケーラブルかつ歪みのない透かし埋め込みフレームワークを提案するものです。
本論文は、ビデオ生成におけるメモリおよび計算コストの削減と画質の維持を両立させるため、ブロックごとの最適な量子化形式を効率的に選択し、残差誤差の再量子化や意味的相関に基づくトークン共有といった手法を統合した「SemanticDialect」を提案し、Open-Sora 2.0 において FP16 に匹敵する画質を達成したことを示しています。
この論文は、生体認証画像のプライバシーを保護しつつ偽造検出精度を維持するため、自然な画像に顔を隠すステガノグラフィ技術と、低周波成分の干渉を抑制し隠れた特徴を強調する独自のアーキテクチャを組み合わせた「StegaFFD」という新しいフレームワークを提案しています。
LLandMark は、クエリ解析、ランドマーク推論、マルチモーダル検索、回答合成の 4 段階で専門エージェントが協調し、特にベトナムの文化的・空間的ランドマークの検出や OCR 精度向上に特化したモジュール型マルチエージェントフレームワークとして、複雑なマルチモーダル動画検索を可能にするものです。
本論文は、高品質な 3D 人データセットで微調整されたマルチビュー拡散モデルと、カメラ姿勢の共同最適化、および深度に基づく顔歪み補正モジュールを組み合わせることで、単一画像から高忠実度かつ自由視点の 3D 人間再構築を実現する「MVD-HuGaS」を提案し、Thuman2.0 や 2K2K データセットにおいて最先端の性能を達成したことを報告しています。
本論文は、自然言語表現内の構成的な文脈推論を活用し、文レベルだけでなくフレーズレベルでの 3D 物体セグメンテーションを可能にする新たなタスク「3D-DRES」、対応する大規模データセット「DetailRefer」、および効率的なベースラインモデル「DetailBase」を提案し、既存の 3D 視覚言語タスクの性能向上にも寄与することを示しています。
本論文は、残差ベクトル量子化と軽量なバックボーンネットワークを組み合わせることで、低ビットレート環境での柔軟なプログレッシブ伝送と、MS-ILLM 比で 10 倍以上の高速なエンコード・デコードを実現しつつ、高品質な生成画像圧縮を可能にする「ProGIC」を提案するものである。
本論文は、2 次元形状の幾何学的特性を効率的に学習し、既存のセグメンテーションモデルに形状事前情報を組み込むことで性能を向上させる新たな深層学習アーキテクチャ「調和ベトルミシグネチャネットワーク(HBSN)」を提案し、その有効性を検証したものである。
本論文は、事前知識を必要とせず、ユーザーと物体の相互作用動画と初期 3D 走査データから、動的・静的な要素を分離する手法を用いて、可動部品の分解、関節の特定、および高品質なインタラクティブな 3D デジタル複製の再構築を実現する新しいフレームワーク「Articulation in Motion (AiM)」を提案するものである。