Bridging Human Evaluation to Infrared and Visible Image Fusion
この論文は、赤外線画像と可視光画像の融合において人間の視覚的嗜好に合致する結果を得るため、大規模な人間評価データセットと報酬モデルを構築し、Group Relative Policy Optimization を用いて融合ネットワークを微調整する新しいフレームワークを提案しています。
5561 件の論文
この論文は、赤外線画像と可視光画像の融合において人間の視覚的嗜好に合致する結果を得るため、大規模な人間評価データセットと報酬モデルを構築し、Group Relative Policy Optimization を用いて融合ネットワークを微調整する新しいフレームワークを提案しています。
本論文は、3D 境界ボックスの 2D 投影キーポイントの回帰と連続 9D 回転表現を導入した単一ステージの YOLO 基盤アーキテクチャ「Yolo-Key-6D」を提案し、LINEMOD ベンチマークで競合する精度を維持しつつリアルタイム処理を可能にするモノキュラー 6D ポーズ推定手法を提示しています。
本論文は、マスキングと非マスキングの手法の長所を統合し、多様な実世界シナリオやスタイライズドアバターなどに対応する高忠実度かつ汎用的な口唇同期フレームワーク「UniSync」を提案し、新規ベンチマーク「RealWorld-LipSync」を用いた実験で最先端手法を大幅に凌駕する性能を実証しています。
本論文は、限られた注釈データと高解像度の点群データという課題に対処するため、点群を段階的に縮小しつつ局所および大域的情報を統合する畳み込み由来のニューラルネットワークを提案し、既存の Point-BERT を上回る楔形文字タブレットのメタデータ分類性能を達成したことを報告しています。
本論文は、分布外(OOD)検出と分類失敗予測を統合的に評価する新たなフレームワークと指標(DS-F1、DS-AURC)を提案し、信頼性の高い分類器 SURE+ を開発することで、実世界における機械学習モデルの信頼性向上に貢献しています。
本論文は、UAV 環境における視覚的物体追跡の課題を解決するため、トランスフォーマーと拡張カルマンフィルタを統合したモジュール非同期追跡アーキテクチャ(MATA)と、組み込みシステム向けの新規評価プロトコルおよび「正常失敗時間(NT2F)」という新たな指標を提案し、Nvidia Jetson AGX Orin 上での実証実験によりその有効性を示したものである。
この論文は、微細な美的差異を評価するための大規模データベース「FGAesthetics」と、相対的順位から識別的な美的スコアを学習する新しいフレームワーク「FGAesQ」を提案し、微細な画像美学評価の課題を解決するものです。
この論文は、トレーニングデータとテストデータの言語分布が異なる場合でも、推論時に外部の n-gram 言語モデルをトランスフォーマーデコーダに注入することで、追加学習なしに手書き文字認識の性能低下を抑制する手法を提案し、複数のデータセットでその有効性を示したものです。
本論文は、従来の切り出し法に代わる単パス距離重み付けメカニズムと完全 GPU 加速アーキテクチャを採用し、大規模なオープンセット意味マッピングにおいて、既存のゼロショット手法を大幅に上回る精度とリアルタイム性を達成する「DISC」を提案するものである。
本論文は、RGB 画像と 3D 幾何形状の整合性を双方向マッピングでモデル化し、信頼性ゲートと重み付け再構成による融合戦略を採用することで、メモリーバンクを不要としながらノイズや欠損に強く、単一または多様なモダリティに対応可能な最先端の産業用異常検出フレームワーク「CMDR-IAD」を提案するものです。
本研究は、深層学習(特に DenseNet121)を用いて高 b 値(1500 s/mm2)の乳がん拡散強調画像における高輝度および低輝度のアーティファクトをスライス単位で検出・評価する手法を提案し、高い診断精度と局在化能力を実証したものである。
この論文は、既存の視覚理解タスクを超えて見えない空間的因果関係を推論する新たな課題「Spatial Causal Prediction (SCP)」と、その評価のための大規模ベンチマーク「SCP-Bench」を提案し、最先端モデルと人間の性能差を明らかにするとともに、空間的因果知能の向上に向けた戦略を議論しています。
この論文は、屋内環境における衝突を回避しながら視覚情報のみで目標地点へ到達するタスクに特化した、大規模で多様なシミュレーション環境と評価指標を提供する新しいベンチマーク「RVN-Bench」を提案し、安全かつ堅牢な視覚ナビゲーションの標準化に貢献するものである。
本論文は、単一画像から構造的な情報を保ちながら多様なテクスチャと色を合成するデータ生成手法と、色情報を分離してクロススケール情報を活用するネットワークを提案することで、未見のモダリティに対するホモグラフィ推定モデルの汎化性能と精度を向上させることを目指しています。
本論文は、2 次元観測や時系列中心の表現に依存する既存手法の限界を克服し、関節軌道を順序のない構造的な系列として扱う「構造行動トランスフォーマー(SAT)」を提案することで、多様なロボットアーム間での 3 次元器用な操作技能の効率的な転移とスケーラビリティを実現するものです。
本論文は、5,000 人の患者からなる大規模な多施設 mpMRI データを用いて自己教師あり学習で事前学習された前立腺特化型のビジョン基盤モデル「ProFound」を提案し、がん検出や病変局在など 11 の臨床タスクにおいて、既存の専門モデルや医療ビジョン基盤モデルと同等かそれ以上の性能を発揮することを示しています。
本論文は、大規模マルチモーダルモデルによる 3D プレビュー合成と、EvolveLoRA による段階的学習を組み合わせたオープンソースの 2 段階パイプライン「BLOCK」を提案し、任意のキャラクター概念からピクセル単位の正確なマインクラフトスキンを生成する手法を提示している。
本論文は、RAG 技術を用いたデータセット蒸留と多目的重み付け最適化を組み合わせた「UniRain」を提案し、雨筋や雨滴、昼夜の条件を問わず多様な実世界の雨景画像に対して高い汎化性能とロバスト性を実現する統合的な画像除雨フレームワークを構築したものである。
本論文は、視覚基盤モデル(VFM)の構造的知識を活用した構造認識型蒸留損失を導入することで、イベントストリームデータの自己教師あり事前学習におけるスケーラビリティと表現の質を飛躍的に向上させ、下流タスクでの汎化性能と転移能力を大幅に改善する手法を提案しています。
この論文は、学習可能なパラメータを用いて予測タイプや積分領域を柔軟に調整する「Dual-Solver」を提案し、少数の関数評価(NFE)で拡散モデルのサンプリング効率と生成品質を向上させる手法を提示しています。