NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization
本論文は、対照損失における正規化項の推定を凸解析と変分解析を用いて再定式化し、補助ネットワークを介して効率的に最適化する「NeuCLIP」という新たなフレームワークを提案し、大規模な CLIP 学習において既存手法を上回る性能を実現したことを示しています。
5509 件の論文
本論文は、対照損失における正規化項の推定を凸解析と変分解析を用いて再定式化し、補助ネットワークを介して効率的に最適化する「NeuCLIP」という新たなフレームワークを提案し、大規模な CLIP 学習において既存手法を上回る性能を実現したことを示しています。
本論文は、ヒトポーズ予測における再現性の問題と統一パイプラインを提示し、音声モデルの転用による性能向上、および姿勢推定ノイズに対するロバスト性評価と教師なし微調整による回復可能性を明らかにするものです。
本論文は、RGB 画像と物理ベースレンダリング(PBR)マッピングを統合した新しい表現を用いた生成基盤モデル「MatPedia」を提案し、大規模な RGB 画像データから学習した視覚的知識を活用しながら、単一アーキテクチャで高品質かつ多様な PBR 素材の生成や分解を可能にするものです。
本論文は、動画理解の課題に対処するため、複数のエージェントが協調して動的にツール呼び出しの方針を生成・実行・更新する「協調方針計画(CPP)」と多エージェント強化学習を組み合わせた新システム「VideoChat-M1」を提案し、複数のベンチマークで最先端の性能を達成したことを報告するものです。
本論文は、テキスト、画像、照度、環境マップなど多様な照明表現を対照学習により統合された潜在空間「UniLight」に変換することで、照明の理解と表現の課題を解決し、検索や生成、合成画像の照明制御など多様なタスクにおけるモダリティ間の柔軟な転送を可能にする手法を提案しています。
潜在拡散モデルに基づく逆問題ソルバーの不安定性を、学習された逆拡散ダイナミクスとの乖離を測定整合性のランジュバン更新で補正することで解決し、より安定した推論を実現する「測定整合性ランジュバン補正器(MCLC)」を提案する。
本論文は、低線量全身 PET 画像のノイズ除去において、ウェーブレット変換に基づく構造的な事前知識を凍結された拡散モデルに注入する「WCC-Net」と呼ばれる 3 次元フレームワークを提案し、既存の手法を上回る画質と解剖学的整合性の達成を実証したものである。
本論文は、直交する 2 次元投影画像から推定された 3 次元マスクを用いて頚椎の関心領域を抽出し、2.5 次元の CNN-Transformer Ensemble モデルで骨折を識別する、次元削減と高い診断精度を両立する新しい自動パイプラインを提案するものである。
本論文は、医療画像分野における強化学微調整(RFT)の課題を解決するため、事前知識の注入や知覚駆動の方針改善などの戦略を導入して知覚と推論を強化するフレームワーク「VRFT-Aug」を提案し、複数のデータセットで既存手法を上回る性能を実証したものである。
本論文は、生体認証用歩行圧力データセット「StepUP-P150」を基に開催された初の国際コンペティションの概要、23 チームの参加状況、最優秀チーム(Saeid_UCC)が達成した 10.77% の等誤り率(EER)の結果、および履物変化への汎化という残された課題について報告しています。
既存の動画セグメンテーションモデルが抱える複雑な追跡モジュールの必要性を排除し、軽量なクエリ伝播と融合戦略を導入したエンコーダ専用の ViT モデル「VidEoMT」を提案することで、高精度かつ従来比 5〜10 倍の高速処理を実現した研究です。
この論文は、複数の有害カテゴリ間の衝突を解決し、生成中の状態に合わせた安全方向を動的に適用するトレーニング不要のフレームワーク「CASG」を提案し、既存手法よりも有害生成率を最大 15.4% 削減する性能を実証しています。
Skullptor は、単一画像の基礎モデルとクロスビュー注意機構を組み合わせて一貫した法線ベクトルを推定し、これを逆レンダリング最適化の事前知識として活用することで、高密度なカメラアレイや高コストな計算を必要とせず、数秒で写真測量に匹敵する高忠実度な 3D 頭部形状を復元するハイブリッド手法です。
本論文は、バッチ内の限られた比較に依存する既存の知識蒸留手法の不安定性を克服するため、モメンタム更新メモリを用いてバッチを超えた情報を集約し、ゲノムと組織病理の勾配を分離することで、組織病理画像のみによるがん診断において最先端の性能と汎用性を達成する「Momentum Memory Knowledge Distillation (MoMKD)」を提案するものである。
本論文は、視覚的場所認識(VPR)システムが環境の特定領域でユーザーが定義した性能要件を満たすことを保証するため、複数の参照経路のマッチングパターンを分析して最適な地図密度を自動的に選択する手法を提案し、その有効性を複数のベンチマークで実証したものである。
本論文は、視覚言語モデルにおける「空間的クレジットの崩壊」がハルシネーションの一因であることを特定し、モデル重みの変更なしに推論時に視覚的文脈を再分配する軽量かつ高速な手法「Spatial Credit Redistribution (SCR)」を提案し、複数のベンチマークでハルシネーションを大幅に削減しつつ生成品質を維持する効果を実証しています。
本論文は、多視点ステレオ、多視点フォトメトリックステレオ、偏光多視点形状復元といった多様なニューラル 3 次元再構成手法を包括的に評価するための、25 個の物体と 8,500 枚の画像からなる実世界データセット「EvalMVX」を提案し、既存手法の性能比較と課題の特定を行った研究です。
本論文は、不均衡データ、背景ノイズ、ドメインシフトといった課題に対処するため、Focal Loss、軽量アテンションゲート、アライメントモジュールの 3 つのモジュール的改良を MambaBDA 枠組みに導入し、既存災害における精度向上だけでなく、未見の災害に対する汎化性能を最大 27% 向上させることを実証しています。
本論文は、知識蒸留における温度パラメータの選択がオプティマイザや教師モデルの事前学習・微調整などの訓練要素と密接に関連していることを示す統一的な研究を通じて、実務家が最適な温度値を決定するための指針を提供するものである。
画像とテキストの表現学習において、既存手法が抱えるモダリティ間の隔たりを解消し、推論時の効率を維持したまま分類や検索などのタスクで高い性能を発揮する新たなフレームワーク「ITO」を提案し、その有効性を多角的な実験で実証した論文です。