RBF Weighted Hyper-Involution for RGB-D Object Detection
この論文は、深度画像とカラー画像の特性差を克服し、リアルタイムかつ高精度な物体検出を実現するために、動的な RBF 重み付きハイパー・インボリューションと学習可能なアップサンプリング融合層を導入した新しい 2 ストリーム RGB-D 物体検出モデルを提案し、NYU Depth V2 および SUN RGB-D ベンチマークで最先端の性能を達成したことを示しています。
4029 件の論文
この論文は、深度画像とカラー画像の特性差を克服し、リアルタイムかつ高精度な物体検出を実現するために、動的な RBF 重み付きハイパー・インボリューションと学習可能なアップサンプリング融合層を導入した新しい 2 ストリーム RGB-D 物体検出モデルを提案し、NYU Depth V2 および SUN RGB-D ベンチマークで最先端の性能を達成したことを示しています。
この論文は、ポーズ情報を活用した文脈内視覚学習(PA-ICVL)を視覚言語モデルに組み込むことで、アニメーションキャラクター画像における構造的な視覚的幻覚の検出精度を大幅に向上させる新しい手法を提案し、その有効性を示しています。
この論文は、医療画像分割タスクの性能向上を目的として、下流のセグメンテーション結果から得られるセマンティック勾配によって融合プロセスを最適化する「Fuse4Seg」という二階層最適化フレームワークを提案し、従来の視覚重視の手法を凌駕する高精度な分割と臨床的な解釈可能性を両立させることを示しています。
本論文は、パラメータ効率型微調整(PEFT)における汎化性能の向上と事前学習モデルの知識保持を両立させるため、アダプタ学習特徴への乗法的ノイズ付加による一貫性正則化を導入した「PACE」という手法を提案し、理論的・実験的にその有効性を示しています。
本論文は、UAV 映像における背景ノイズの影響を排除し、物体中心の未来予測とマスク付きオートエンコーディングを統合した自己教師あり事前学習手法「FALCON」を提案し、UAV 行動認識タスクにおいて既存の教師あり手法を凌ぐ精度と推論速度を実現したことを報告しています。
AuthFace は、プロの撮影による高解像度データセットを用いた顔特化の拡散モデル事前学習と、写真家の指導による注釈付け、そして時間意識型潜在顔特徴損失の導入を通じて、非顔部分の誤生成や細部の不足を解消し、実世界で実用的な高品質な盲目顔復元を実現する新しいフレームワークを提案しています。
本論文は、追加データなしで地震波データの不規則な欠損を高精度に復元するよう、自己整合性学習戦略と軽量ネットワークを組み合わせた効率的な自己教師あり手法を提案し、公開データセットによる検証でその有効性を示しています。
この論文は、動画コンテンツの冗長性を解決し、ユーザーの指示に基づいて視覚トークンを最大18倍圧縮しながらも高性能を維持する「PPLLaVA」という新しいプーリング戦略を提案し、動画理解タスクにおける推論効率と精度の両方を大幅に向上させたことを報告しています。
この論文は、生成速度と制御性の課題を解決し、細かな制御とリアルタイム推論を可能にする拡散トランスフォーマーに基づく新しい話者合成フレームワーク「Ditto」を提案し、AI アシスタントなどの双方向アプリケーションに不可欠な性能を実現したことを示しています。
本論文は、マルチモーダル大規模言語モデルにおける視覚理解を強化するため、複数の視覚エンコーダを効率的に統合する軽量なアーキテクチャ「LEO」を提案し、多様なベンチマークおよび自律走行分野において既存の手法を上回る性能と汎用性を示すことを実証しています。
3D ガウススプラッティングの幾何学的精度向上と浮遊アーティファクトの削減、およびメモリ効率の改善を実現するため、ガウスの固有値に基づく幾何学的損失項を導入した「FeatureGS」を提案し、DTU ベンチマークで高い精度と効率性を示した。
本論文は、NeRF や 3DGS による新規視点合成の欠点を拡散モデルで補完しつつ、再投影誤差に基づく段階的なフィルタリングで信頼性の高い画素のみを抽出する「PoI」フレームワークを提案し、これによりシーンスケード回帰(SCR)に基づく視覚的局所化の精度を大幅に向上させることを示しています。
この論文は、大規模言語モデルが科学文献の検索からアイデア生成、実験、コンテンツ作成、マルチモーダルな図表の作成、そして査読に至るまで、科学者の研究ライフサイクル全体を支援する新たなエコシステムを包括的に調査し、手法や評価、倫理的課題を概説するものである。
この論文は、大規模データに依存しない自己教師あり表現学習を可能にする浅いトークナイザー「SCOTT」と、潜在空間で動作する MIM-JEPA 枠組みを提案し、限られたデータと計算資源でも最先端の性能を達成できることを示しています。
この論文は、解像度に応じた段階的な生成プロセスと BridgeFlow モジュールを導入することで、画像生成の推論時間を 64% 削減しつつ高品質な結果を達成する「NAMI」と呼ばれる新しい Rectified Flow トランスフォーマーアーキテクチャを提案しています。
臨床 MRI 画像の厚いスライスやスライス間ギャップによる解像度低下を解決するため、外部データに依存せずスライスプロファイル推定と自己学習に基づく効率的な超解像手法「ECLARE」を提案し、信号回復および下流タスクにおいて既存手法を上回る性能を実証した論文です。
この論文は、デジタル標高モデルや空中写真、地形特徴、水文・インフラベクトルデータを統合した AI 対応のマルチモーダルデータセット「EarthScape」を提案し、地表地質図作成におけるマルチモーダル融合やドメイン適応のための基盤ベンチマークを提供するものです。
この論文は、低次視覚の心理物理的測定(コントラスト感度、コントラストマスキング、コントラストマッチング)に基づいた新たなテスト枠組みを導入し、34 種類の既存の画質評価指標の特性と限界を明らかにするものである。
本論文は、ビジョン・言語特徴を物体レベルで集約して効率的に保存する「FindAnything」というフレームワークを提案し、大規模な未知環境におけるリアルタイムかつメモリ効率の高いオープンボキャブラリ3D マッピングを実現し、自律型MAV による探索タスクなどへの実用性を示しています。
本論文は、多層プrompting と双ブランチ推論、および適応的テキストフィルタリングを導入することで、CLIP の汎用性を高め、未見カテゴリに対するゼロショット異常検出の安定性と信頼性を向上させる新しいフレームワーク「GenCLIP」を提案しています。