An Extended Topological Model For High-Contrast Optical Flow
この論文は、Sintel データセットから抽出された高コントラストなオプティカルフローパッチの低次元モデルとして、従来のトーラスモデルの限界を説明し、運動境界付近に集中する重要な二値ステップエッジパッチを記述する新しい 3 次元多様体モデルを提案し、視覚データ推論におけるトポロジーと幾何学の微妙な相互作用を解明したものである。
1896 件の論文
この論文は、Sintel データセットから抽出された高コントラストなオプティカルフローパッチの低次元モデルとして、従来のトーラスモデルの限界を説明し、運動境界付近に集中する重要な二値ステップエッジパッチを記述する新しい 3 次元多様体モデルを提案し、視覚データ推論におけるトポロジーと幾何学の微妙な相互作用を解明したものである。
この論文は、大腸内視鏡検査における複雑な蠕動運動を正確に再現する新しい動的ガウススプラッティング手法「ColonSplat」を提案し、その評価のために真の地対データを含む合成データセット「DynamicColon」を構築したことを述べています。
本論文は、重たい裾を持つコーシー CDF をゲートとして用いる新しい活性化関数 IGLU とその効率的な近似版 IGLU-Approx を提案し、これらが重なり合うデータセットにおいて勾配消失に強く、ReLU や GELU と同等かそれ以上の性能を発揮することを示しています。
本論文は、環境事前知識と二重トランスフォーマー・カスケード構造を統合した効率的な学習アーキテクチャを提案し、屋外テニスコートにおけるボールの着地点を高精度に予測する新しい手法を確立したものである。
PICS は、マスクガイドの混合専門家モデルと適応的αブレンディングを用いて、重なり合うオブジェクト間の相互作用を明示的にモデル化し、拡散ベースの画像合成における空間的整合性と物理的一貫性を大幅に向上させる自己教師ありの合成手法です。
この論文は、セグメント・Anything モデル 3(SAM 3)を用いたゼロショットセグメンテーション技術により、トラコーマの自動分類研究を促進するためのオープンソース前処理データセット「OPTED」を構築し、そのパイプラインと最適化されたプロンプト選定手法を公開したことを報告しています。
この論文は、産業設計の手法に着想を得て、参照曲面とモデリング手順に基づいて大規模言語モデルに CAD プログラムを生成させる新たなデータ拡張手法を提案し、既存データに不足していた有機的な形状やスプライン曲率を含む幾何学的多様性を大幅に向上させることを示しています。
本論文は、固定された学習可能クエリの限界を克服し、グローバルな意味を捉える共有潜在パターンとコンテンツ条件付き重み付けによる動的クエリ生成、および局所化・分類の一貫性に基づく品質認識アノテーション戦略を統合することで、物体検出の適応性と監督のバランスを向上させる「PaQ-DETR」を提案し、COCO や CityScapes などのベンチマークで既存 DETR モデルを 1.5%〜4.2% 上回る精度を達成したことを報告しています。
本論文は、エッジデバイス向けのマルチスペクトル融合物体検出において、低ランク行列分解による計算効率の向上と構造認識蒸留による精度維持を両立させた「DLRMamba」を提案し、Raspberry Pi 5 などのリソース制約環境でも既存の軽量モデルを上回る性能を実現したことを示しています。
本論文は、可視光と赤外線リモートセンシング画像の融合を用いた軽量な小物体検出ネットワーク「ESM-YOLO+」を提案し、ピクセルレベルのマスク強化アテンション融合モジュールと訓練時の構造表現強化により、複雑な背景における高精度な検出を実現しつつモデルの複雑さを大幅に削減したことを示しています。
この論文は、視覚的オートレグレッシブモデルの粗から細への生成階層を活用し、各スケールでクラストークンを注入して意味的増幅を行う「HIERAMP」を提案することで、大規模データセットを小規模な代理データセットに効率的に蒸留する手法を開発したことを示しています。
この論文は、前立腺がんの予後予測において、従来の2D組織病理学よりも3D組織形態計測特徴量(特に神経周囲浸潤に関連するもの)の方が優れていることを示す分析パイプラインを開発し、5 年間の生化学的再発予測において 3D 特徴量が 2D 特徴量を上回る性能(AUC 0.71 vs 0.52)を有することを報告しています。
本論文は、単眼内視鏡動画から得た 3D 再構成を用いて術中 CT を逐次更新する「仮想術中 CT(viCT)」手法を提案し、副鼻腔内視鏡手術における組織切除の進行をリアルタイムに可視化し、術前 CT の限界を克服する可能性を実証したものである。
本論文は、単眼内視鏡映像からの手術シーン再構成におけるデータ不足と長時間動画の性能低下という課題を解決するため、大規模な擬似正解深度マップの生成、ハイブリッドな教師あり学習、および累積的な姿勢ドリフトを抑制する階層的推論フレームワーク「SurgCUT3R」を提案し、手術環境における高精度かつ効率的な 3D 再構成を実現するものです。
この論文は、従来の条件付き最適輸送が持つ外れ値への敏感性という課題を解決するため、条件付き分布の整合制約を緩和する「条件付きアンバランス最適輸送(CUOT)」フレームワークと、それに基づく外れ値に頑健な生成モデル「CUOTM」を提案し、理論的裏付けと実験による有効性を示したものです。
この論文は、動画の時間的ダイナミクスを空間的理解タスクとして再定義し、オーバーラップするスライディングウィンドウを用いてフレームをグリッド画像に変換する「T2SGrid」と呼ばれる新規フレームワークを提案し、既存の手法の限界を克服して動画時間的グラウンディングの性能を向上させることを示しています。
本論文は、画像と点雲を事前整合されたエンコーダで共通空間に埋め込むアプローチと、マルチモーダルなハードコントラスト損失の導入により、ビュー合成や再学習なしにゼロショットおよび標準的な画像ベースの形状検索において最先端の性能を達成することを示しています。
この論文は、単一画像からの空間推論における既存の課題を克服するため、視覚的根拠と言語的推論を統合した「視覚参照トークン」に基づく知覚意識型マルチモーダル推論フレームワークと、これに対応するデータセットを提案し、強化学習を用いた既存手法を凌駕する性能向上を実現したことを示しています。
ADAS-TO は、327 人のドライバーによる 15,659 件の自然な運転データを含む大規模なマルチモーダルデータセットであり、ADAS から手動運転への移行(オーバーテイク)の特性を分析し、視覚言語モデルを用いて安全上のリスクを特定し、 kinematic 的なトリガーに先立つ 3 秒以上前に視覚的な手がかりが現れることを示すことで、意味理解に基づく早期警告システムの可能性を浮き彫りにした研究です。
本論文は、幾何情報に基づく数値積分による楕円適応型アンチエイリアシング(EAA)アルゴリズムと周波数領域での軌道推定を行うスペクトル感知ポーズグラフ最適化(SA-PGO)モジュールを導入し、高忠実度なアンチエイリアシング描画とロバストな位置推定を両立する新しい 3D ガウススプラッティング SLAM フレームワーク「MipSLAM」を提案するものである。