UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation
本論文は、超音波心臓検査のプローブナビゲーションにおいて、ノイズの多い過去の軌跡を単純な時系列ではなく、代表的なキーフレームを空間的アンカーとして直接現在の視点に接続する「星型グラフ」モデル(UltraStar)を提案し、冗長性を排除しつつ長系列データでも高精度な位置特定を実現する手法を提示しています。
8925 件の論文
本論文は、超音波心臓検査のプローブナビゲーションにおいて、ノイズの多い過去の軌跡を単純な時系列ではなく、代表的なキーフレームを空間的アンカーとして直接現在の視点に接続する「星型グラフ」モデル(UltraStar)を提案し、冗長性を排除しつつ長系列データでも高精度な位置特定を実現する手法を提示しています。
本論文は、構造化された都市環境に偏る既存のデータセットの限界を克服し、複雑な自然環境におけるロボティクス研究を支援するため、RGB 画像、密な LiDAR 部分地図、正確な 6 自由度姿勢、および半密な深度と法線注釈を含む大規模なクロスモーダルデータセット「WildCross」を提案し、場所認識とメトリック深度推定におけるその有効性を示しています。
本論文は、LiDAR 追跡における新規オブジェクトの検出漏れを解消し、従来の検出ベース手法との性能差を埋めるため、アサインメントの再試行と追跡クエリのドロップアウトを導入した新しい追跡モデル「SCATR」を提案し、nuScenes ベンチマークで最先端の性能を達成したことを示しています。
本論文は、追加の学習や注釈を必要とせず、アテンションマップとアクションに基づく領域に注目するプラグアンドプレイ型のフレームワーク「ATA」を提案し、視覚言語行動モデルの推論効率を維持・向上させながらタスク成功率とロバスト性を高めることを示しています。
本論文は、未観測視点からの間接光のモデル化を可能にする物理ベースの制約「放射測度的一貫性」を導入し、高効率かつ高精度な逆レンダリングを実現する「Radiometrically Consistent Gaussian Surfels (RadioGS)」を提案するものである。
既存のWeb 画像データに依存するベンチマークの限界を克服するため、個人の生活軌跡に基づいた多様なメタデータと視覚情報を統合した「PhotoBench」を提案し、単なる視覚一致から意図駆動型の多ソース推論へとパーソナル写真検索のパラダイム転換を促すとともに、現在の統合埋め込みモデルや自律エージェントシステムの課題を明らかにしました。
この論文は、レート歪み理論に基づく新しい枠組みを導入し、視覚システム(人間と深層学習モデル)の一般化と頑健性のトレードオフを「傾き」と「曲率」という幾何学的な署名で定量化・比較することで、両者が異なる損失圧縮原理に従っていることを明らかにしています。
本論文は、人間視覚モデルを活用しつつタスク駆動型の損失関数とデータセットを構築することで、セマンティックセグメンテーションや物体検出などの下流タスクの性能向上に特化した水中画像強調フレームワーク「DTI-UIE」を提案し、その有効性を検証した研究です。
本論文は、離散的・線形なモード積の限界を克服し、連続かつ非線形なニューラル作用素に基づくモード演算子を導入することで、メッシュ構造の有無を問わず複雑な実世界データを忠実に表現・近似可能な「ニューラル作用素接地連続テンソル関数表現(NO-CTR)」を提案し、その有効性を多様なデータを用いた実験で実証したものである。
本論文は、一般の VLM を高品質な OCR 専門モデルへと変換する「FireRed-OCR」フレームワークを提案し、幾何学的特徴と意味情報を組み合わせたデータファクトリーと、3 段階の段階的学習戦略(マルチタスク事前整合、SFT、GRPO)を採用することで、OmniDocBench v1.5 において DeepSeek-OCR 2 や OCRVerse を凌ぐ SOTA 性能を達成したことを報告するものです。
本論文は、極小のドローンが抱える厳しい計算リソース制約を克服するため、Instant-NGP を基盤とした軽量ニューラル放射場モデル「Tiny-DroNeRF」を開発し、超低消費電力マイクロコントローラ上での実行と、複数ドローン間での協調学習による高精度な 3 次元シーン再構成を可能にしたことを報告しています。
本論文は、イベントカメラの生データからプロペラ回転数を抽出し、これを考慮したカルマンフィルタを適用することで、RGB 画像や学習データに依存せずドローンの軌道を高精度に予測する手法を提案し、FRED データセットにおける評価で既存の学習ベース手法や標準的なカルマンフィルタを上回る性能を実証したものである。
この論文は、2D 画像の Field of Junctions を 3D 空間に拡張した「3D Field of Junctions」を提案し、学習データが不要でハルシネーションのリスクがなく、低 SNR 環境における 3D 画像のノイズ除去や構造復元において、従来の古典的および深層学習手法を上回る性能を発揮することを示しています。
この論文は、可視光画像から合成開口レーダー(SAR)画像への変換を行うサイクル整合型 GAN を用いた混合クラス補間手法(C2GMA)を提案し、SAR 画像のデータ不足を解消して分類精度を大幅に向上させることを実証しています。
本論文は、長距離依存関係のモデル化と計算コストの削減を両立させるため、動的分割畳み込みと適応的コンテキストモデリングを導入した軽量な高解像度ネットワーク「Dite-HRNet」を提案し、COCO および MPII データセットにおいて最先端の軽量ネットワークを上回る性能を達成したことを報告しています。
本論文は、屋外シーンにおける移動物体やセンサーの制約を克服し、車載および路側 LiDAR の協調的対照学習と文脈的形状予測を導入することで、自律運転向けに高精度な 3 次元点雲表現を教師なしで学習する手法「CO^3」を提案し、既存手法を大幅に上回る性能を達成したことを示しています。
この論文は、太陽光パネルの画像を faulty/normal の二値分類や欠陥種類の多値分類に用いることで、既存の研究を上回る高い精度(それぞれ 91.1%、88.6%)で故障を検出する簡便かつ効果的な畳み込みニューラルネットワーク(CNN)ベースの手法を提案しています。
この論文は、拡散モデルの時間的帰納バイアスとクリティックモデルのプライマシーバイアスを分析し、これらを克服して報酬過最適化を抑制する新しい方策勾配アルゴリズム「TDPO-R」を提案しています。
本論文は、多様なモバイルカメラに対応し、新しい応用を可能にする汎用的な画像信号処理(ISP)学習パイプライン「Uni-ISP」を提案し、その有効性を実世界データセット「FiveCam」を用いた実験で実証しています。
本論文は、Mamba を用いた効率的な視覚バックボーンと、正負の関連サンプルからの文脈情報の抽出を組み合わせることで、LLM を活用した高精度な放射線レポート生成を実現する新フレームワーク「R2GenCSR」を提案し、複数のデータセットでその有効性を検証したものです。