Crab: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
本論文は、タスク間の負の転移を解消し、データ側の「AV-UIE v2」およびモデル側の「I-LoRA」による明示的な協調メカニズムを通じて、単一タスクモデルを上回る性能で多様な音声・視覚タスクを統合的に理解するスケーラブルなモデル「Crab」を提案するものである。
5561 件の論文
本論文は、タスク間の負の転移を解消し、データ側の「AV-UIE v2」およびモデル側の「I-LoRA」による明示的な協調メカニズムを通じて、単一タスクモデルを上回る性能で多様な音声・視覚タスクを統合的に理解するスケーラブルなモデル「Crab」を提案するものである。
本論文は、アテンション機構を器官マスクで制御し、病変領域に特化した修正を行うことで、解剖学的整合性を保ちつつ局所的な病変を制御可能に生成する、拡散モデルを用いた胸部 X 線画像の反事実的合成フレームワークを提案するものである。
本論文は、階層的クラスタリング過程に実数値フローを統合して記述子の忠実性を維持し、最終段階でのみ二値化する「HBRB-BoW」手法を提案することで、ORB-SLAM の視覚語彙の表現精度とループクロージングや再局所化の性能を向上させることを目的としています。
本論文は、局所特徴とグローバル依存性の両方を効率的に捉えるため、学習可能な反復しきい値アルゴリズム(LISTA)によるスパース符号化とビジュアル・トランスフォーマーを融合させた「LISTA-Transformer」を提案し、CWRU データセットにおける故障診断で既存手法を上回る 98.5% の高い識別精度を達成したことを報告しています。
この論文は、野生動物の個体再識別における画像劣化の影響を初めて体系的に研究し、訓練データに人工的な多様な劣化を付加する拡張学習フレームワークを導入することで、未知の個体を含む実世界の劣化画像における再識別精度を最大 8.5% 向上させることを示しています。
本論文は、追加の学習やアダプターなしで既存の 2D 基盤モデルを 3D 空間に直接拡張し、3D 分類やセグメンテーションタスクにおいて強固な性能を発揮する「PlaneCycle」という新しい手法を提案するものである。
この論文は、対数尤度という観点から一般化平均を用いた密度集約を統一的に分析し、 の範囲(線形および幾何学的プーリングを含む)が個々の分布に対して体系的な改善を保証する唯一の領域であることを理論的に示し、深層アンサンブルを用いた実証評価でその妥当性を裏付けています。
本論文は、デジタルドキュメントベンチマーク「OmniDocBench」をスキャン、歪み、スクリーン撮影、照明、傾きという 5 つの現実世界シナリオで完全物理再構築した初のベンチマーク「Real5-OmniDocBench」を提案し、ドキュメント解析における「現実とのギャップ」を特定し、ロバストなモデル開発を導くための診断ツールを提供するものである。
この論文は、非パラメトリックな最近傍密度推定に基づく新しい損失関数と変分オートエンコーダを組み合わせて、敏感な変数との統計的依存性を明示的に推定・修正し、既存の手法よりも優れた公平性・プライバシー保護とデータ有用性の両立を実現するエンコーダベースのアプローチを提案するものである。
本論文は、拡散トランスフォーマー(DiT)における表現の多様性が学習に重要であるという洞察に基づき、長残差接続と表現多様性損失を導入して表現の多様性を明示的に促進する新たなフレームワーク「DiverseDiT」を提案し、ImageNet での生成性能向上と収束加速を実証しています。
本論文は、病理画像における核の検出と分類を結合最適化する際の表現劣化と計算コストの問題を解決するため、軽量モデルによる検出と病理ファウンデーションモデルによる分類を分離する「DeNuC」を提案し、既存の最先端手法を大幅に上回る性能を達成したことを示しています。
本論文は、ストリーミング画像からオンラインかつほぼリアルタイムに3D幾何復元とオープンボキャブラリ意味理解を同時に行うための、フィードフォワード設計の新しい3Dガウススプラッティング手法「EmbodiedSplat」を提案し、CLIPの汎用性を維持しつつメモリ効率を最適化するアーキテクチャによって、既存のオフラインまたはシーン固有最適化に依存する手法の限界を克服したことを示しています。
この論文は、従来の色変換の近似手法が引き起こすアーティファクトを解消し、飽和度と輝度を円周上の値として扱うことで真の色共変性を達成し、細粒度分類や医療画像タスクにおいて優れた性能を示すハイパートーロイド被覆に基づく共変アーキテクチャを提案するものである。
本論文は、学習プロセスに手続き的知識を明示的に統合する「可微分ビタビ層」を備えた ViterbiPlanNet を提案し、既存の手法よりもはるかに少ないパラメータで、より高いサンプル効率と頑健性を実現する最先端の指示動画計画モデルを構築したことを示しています。
本論文は、大規模言語モデルによる圧縮が可能なテキスト記述と、それと相補的な情報を捉える軽量な画像特徴ベクトルを組み合わせる「Similarity Space Replication(SSR)」という新しいフレームワークを提案し、ロボティクスにおける地図のメモリおよび帯域幅の大幅な削減を実現しながら高精度な局所化を維持することを示しています。
この論文は、多施設にわたるデータを用いて、時系列情報を活用した深層学習手法が、大腸内視鏡検査におけるポリープの検出・分割精度の向上にどのように寄与するかを評価した研究です。
本論文は、6 つの面を持つキューブマップ表現を用いた時空間自己回帰拡散モデル「CubeComposer」を提案し、従来の計算制約を克服して VR 向けの高没入感を実現する 4K 解像度の 360 度動画をネイティブに生成する手法を確立したことを述べています。
この論文は、表情を他の運動情報から完全に分離し、任意の運動制御と教師なしフレームワークにおける連続的な表情補間を実現する新しい手法「MMFA」を提案し、既存の手法よりも高品質な顔アニメーション生成を可能にするものです。
本論文は、大規模なマルチモーダルデータセットを活用し、テキストや画像からの直接マッピングにより 10 秒未満で高品質な 3D アバターを生成する「PromptAvatar」というデュアル拡散モデルフレームワークを提案し、既存手法の推論速度や制御性の課題を解決したものである。
CREST-2 試験の 500 個の頸動脈プラークを対象に、コヒーレンス損失とグループ疎正則化を組み合わせた新しいカーネルベースの加法モデルを開発し、B モード超音波画像の放射線学的特徴と臨床的リスクとの関連を解釈可能かつ高精度に評価しました。