Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering
本論文は、イベントカメラの生データからプロペラ回転数を抽出し、これを考慮したカルマンフィルタを適用することで、RGB 画像や学習データに依存せずドローンの軌道を高精度に予測する手法を提案し、FRED データセットにおける評価で既存の学習ベース手法や標準的なカルマンフィルタを上回る性能を実証したものである。
6605 件の論文
本論文は、イベントカメラの生データからプロペラ回転数を抽出し、これを考慮したカルマンフィルタを適用することで、RGB 画像や学習データに依存せずドローンの軌道を高精度に予測する手法を提案し、FRED データセットにおける評価で既存の学習ベース手法や標準的なカルマンフィルタを上回る性能を実証したものである。
この論文は、2D 画像の Field of Junctions を 3D 空間に拡張した「3D Field of Junctions」を提案し、学習データが不要でハルシネーションのリスクがなく、低 SNR 環境における 3D 画像のノイズ除去や構造復元において、従来の古典的および深層学習手法を上回る性能を発揮することを示しています。
この論文は、可視光画像から合成開口レーダー(SAR)画像への変換を行うサイクル整合型 GAN を用いた混合クラス補間手法(C2GMA)を提案し、SAR 画像のデータ不足を解消して分類精度を大幅に向上させることを実証しています。
本論文は、長距離依存関係のモデル化と計算コストの削減を両立させるため、動的分割畳み込みと適応的コンテキストモデリングを導入した軽量な高解像度ネットワーク「Dite-HRNet」を提案し、COCO および MPII データセットにおいて最先端の軽量ネットワークを上回る性能を達成したことを報告しています。
本論文は、屋外シーンにおける移動物体やセンサーの制約を克服し、車載および路側 LiDAR の協調的対照学習と文脈的形状予測を導入することで、自律運転向けに高精度な 3 次元点雲表現を教師なしで学習する手法「CO^3」を提案し、既存手法を大幅に上回る性能を達成したことを示しています。
この論文は、太陽光パネルの画像を faulty/normal の二値分類や欠陥種類の多値分類に用いることで、既存の研究を上回る高い精度(それぞれ 91.1%、88.6%)で故障を検出する簡便かつ効果的な畳み込みニューラルネットワーク(CNN)ベースの手法を提案しています。
この論文は、拡散モデルの時間的帰納バイアスとクリティックモデルのプライマシーバイアスを分析し、これらを克服して報酬過最適化を抑制する新しい方策勾配アルゴリズム「TDPO-R」を提案しています。
本論文は、多様なモバイルカメラに対応し、新しい応用を可能にする汎用的な画像信号処理(ISP)学習パイプライン「Uni-ISP」を提案し、その有効性を実世界データセット「FiveCam」を用いた実験で実証しています。
本論文は、Mamba を用いた効率的な視覚バックボーンと、正負の関連サンプルからの文脈情報の抽出を組み合わせることで、LLM を活用した高精度な放射線レポート生成を実現する新フレームワーク「R2GenCSR」を提案し、複数のデータセットでその有効性を検証したものです。
この論文は、固定された走査戦略に起因するバイアスを解消し、多モーダル画像融合の性能を向上させるため、ランダムシャッフルと逆シャッフルを組み合わせた新しい走査戦略「Shuffle Mamba」を提案し、その有効性を広範な実験で実証したものである。
この論文は、ラベルが重要な入力かつ機密情報という二重の役割を果たす垂直フェデレーテッドラーニングにおいて、マンフォールドミックスアップと勾配ベースの最適化を組み合わせて、データ開示なしに少数のサンプルで効率的にラベルの学習忘却を実現する初の手法を提案し、その有効性を多様なデータセットで実証したものである。
この論文は、LLM の事前知識を活用したモーション生成と、視点および領域をガイドする混合専門家(MoE)機構を組み合わせた「Stereo-Talker」を提案し、音声入力から高精度な口形同期、表現豊かな身振り、連続視点制御が可能な 3D talker ビデオを生成するシステムを開発したものである。
本論文は、既存の強化学習手法の限界を克服し、ノイズ状態と予測クリーン状態の両方を追跡する双状態軌道サンプリングや潜在類似性に基づく密な報酬予測戦略などを導入した「Stepwise Diffusion Policy Optimization (SDPO)」を提案することで、少数ステップの拡散モデルを効率的に特定の目的に整合させる手法を開発したことを示しています。
本論文は、LiDAR 点群のラベル付け負担を軽減するため、従来の単一フレーム処理や対比学習・マスク自己符号化とは異なり、再帰的埋め込みと時間的ニューラル場を用いて未来の観測を予測する「TREND」という教師なし 3 次元表現学習手法を提案し、NuScenes などのデータセットにおける 3 次元物体検出タスクで既存の最善手法を大幅に上回る性能向上を実現したことを示しています。
本論文は、画像と点群の両方の情報を効率的に活用して融合 3D 感知タスクの性能を大幅に向上させるため、曲率サンプリングと学習可能なプロトタイプを用いた教師なし事前学習手法「CLAP」を提案し、NuScenes や Waymo データセットにおいて既存の最先端手法を凌駕する成果を示しています。
本論文は、AI 生成動画の検出を促進するために、11 の最先端生成モデルから収集された 678 万本を超える大規模かつ多様なデータセット「GenVidBench」を提案し、その有効性を示したものです。
この論文は、画像スケールの影響を考慮し、マルチスケール画像から推定された多粒度の照明分布マップを注意機構を用いて融合するトリブランチ畳み込みネットワークを提案することで、多光源色収差補正の性能を最先端レベルまで向上させたことを示しています。
本論文は、動画生成における拡散トランスフォーマー(DiT)の訓練を加速するため、動的なアテンションの疎性を低ランク近似で捉え、カスタムカーネルとハイブリッドな疎性対応コンテキスト並列化を組み合わせる「DSV」を提案し、画質を維持したまま最大 3.02 倍の訓練スループット向上を実現したことを報告しています。
この論文は、生成モデルの再学習を必要とせず、推論時に透かしを埋め込むことで、生成コンテンツの検出と利用者特定を可能にし、かつ付加的な摂動や合成的な透かし除去攻撃に対して頑健な新しい透かし手法を提案するものである。
本論文は、シミュレーションデータと実世界の少量ラベルデータ(2.5%)のみで、全量の実データを用いたモデルと同等の性能を達成し、かつ未ラベルの物体検知においても大幅な改善を実現する、自動運転 LiDAR 感知のためのプラグアンドプレイ手法「JiSAM」を提案しています。