SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking
本論文は、非対称な設計と記憶検索モジュールを導入することで、既存のスパイクニューラルネットワーク追跡フレームワークの課題を解決し、LaSOT データセットで TransT を上回る精度を 1/26 のエネルギー消費で達成する、初の高精度かつ高効率なスパイク駆動型 RGB 追跡フレームワーク「SpikeTrack」を提案しています。
7585 件の論文
本論文は、非対称な設計と記憶検索モジュールを導入することで、既存のスパイクニューラルネットワーク追跡フレームワークの課題を解決し、LaSOT データセットで TransT を上回る精度を 1/26 のエネルギー消費で達成する、初の高精度かつ高効率なスパイク駆動型 RGB 追跡フレームワーク「SpikeTrack」を提案しています。
本論文は、単一ショットの制約を超えた長編動画生成の評価を可能にする初の包括的ベンチマーク「MSVBench」を提案し、大規模マルチモーダルモデルと専門モデルを融合させたハイブリッド評価枠組みにより、既存モデルが真の世界モデルではなく視覚的補間器に留まっていることを明らかにするとともに、人間の判断と高い相関を持つ信頼性の高い評価指標とスケーラブルな教師信号を提供するものである。
本論文は、写真撮影における美的指導(Aesthetic Guidance)と構図の最適化(Aesthetic Cropping)を可能にするため、大規模なデータセット「AesGuide」と段階的学習フレームワーク「Venus」を提案し、マルチモーダル大規模言語モデルの美的評価・改善能力を飛躍的に向上させた研究です。
本論文は、MRI 画像から学習した生体マーカーの構造を音声モデルに転移させる「MINT」というフレームワークを提案し、推論時に画像を必要とせずともアルツハイマー病の早期スクリーニングを可能にする生物学的に裏付けられた手法を開発したことを示しています。
本論文は、連続特徴とサンプリングされたトークンの両方を活用して特徴進化の平均速度場を学習する軽量モデル「MIGM-Shortcut」を提案し、生成品質を維持しながらマスク画像生成モデルの推論を 4 倍以上高速化することを可能にします。
この論文は、糖尿病網膜症の重症度という順序構造を明示的に組み込んだ順序潜在拡散モデルを提案し、従来のカテゴリカル条件付けモデルよりも臨床的に一貫性のある高品質な眼底画像の生成と病期間の滑らかな遷移を実現したことを示しています。
本論文は、スパースオートエンコーダを用いて視覚言語モデル内の社会的属性ニューロンを特定・無効化することで、モデルの性能を損なわずに社会的バイアスを解釈可能かつ効果的に軽減するフレームワーク「DeBiasLens」を提案するものである。
本論文は、既存の 3D 超解像手法が抱える制約を克服し、大規模データから 3D 固有の高周波情報を学習することで、未見のシーンに対しても強力なゼロショット汎化性能とリアルタイム性を実現する、スパースな低解像度画像から高解像度 3D ガウススプラッティングを直接予測する新しいフレームワーク「SR3R」を提案するものである。
本論文は、事前学習されたマルチモーダル大規模言語モデルの内部表現を能動的に操作・修正する新たなフレームワーク「SteerVAD」を提案し、ラベル付きデータの 1% だけで動画異常検知における最先端の性能を達成することを示しています。
本研究は、最適輸送を用いた安全検出とクロスモーダル注意機構による安全プレフィックスの適応的再配分という2つの戦略を組み合わせることで、追加学習なしにマルチモーダル大規模言語モデルの安全性を向上させつつ有用性を維持する「GuardAlign」というフレームワークを提案しています。
本論文は、過剰な視覚トークンによる干渉を抑制し、隠れ状態とパッチ埋め込みの整合性に基づいて最も一貫性のあるパッチのみを適応的に強化するトレーニング不要なフレームワーク「AIR」を提案し、マルチモーダル大規模言語モデルの幻覚を効果的に軽減することを示しています。
この論文は、単一画像や動画から高忠実度な 3D 衣類を再構築するための統合フレームワークを提案し、Implicit Sewing Patterns と拡散モデルを組み合わせることで、合成データのみで学習しながらも実世界の画像において既存手法を上回る精度で、細部まで再現された動的な衣類形状の生成を実現しています。
本論文は、視覚言語モデルのポストトレーニング量子化において、トークンごとの重要なチャネル分布の差異を考慮し、トークン非依存および依存のグループに対してそれぞれ共有およびルーティングされた低ランクアダプターを用いたミクスチャー・オブ・エキスパートを提案することで、フル精度モデルに匹敵する性能を維持しつつタスク精度を向上させる「Quant Experts (QE)」手法を提示しています。
この論文は、SMT ソルバーと臨床知識ベースを用いて放射線レポートの論理的整合性を形式的に検証するニューロシンボリックフレームワークを提案し、従来の指標では検出できない推論の欠陥を特定・排除することで、臨床推論の信頼性を保証する手法を示しています。
本論文は、RAG におけるページ単位のチャンキングがもたらす過剰なコンテキスト負荷とハルシネーションのリスクを解決するため、クエリ駆動で必要な領域のみを動的に抽出・認識する新たな OCR パラダイム「AgenticOCR」を提案し、視覚的ドキュメントの理解効率と精度を大幅に向上させることを示しています。
本論文は、再構成品質に基づいた適応的剪定と正負の密度を単一プリミティブで表現する「3 次元差のガウス」を導入することで、3D ガウススプラッティングのプリミティブ数を最大 90% 削減しつつ、最先端の手法と同等かそれ以上の視覚品質を達成する効率的な手法を提案しています。
本論文は、大規模な事前学習や外部データに依存せず、動画から生成されたテキスト情報と視覚特徴を組み合わせたマルチモーダル最適輸送手法「TASOT」を提案し、手術ロボティクスにおける教師なしの手術フェーズおよびステップ認識を高精度に実現するものである。
本論文は、単一の入力画像から人物の 360 度回転動画を生成する動画拡散モデル「HumanOrbit」を提案し、これにより一貫性のある多視点画像を生成して高品質なテクスチャ付きメッシュを再構築する手法を提示しています。
RAViT は、異なる解像度の画像を複数のブランチで処理し、推論時に精度と計算コストのトレードオフを動的に調整する早期終了メカニズムを導入することで、従来の Vision Transformer と同等の精度を維持しつつ FLOPs を約 70% に削減する新しい画像分類フレームワークです。
この論文は、高次元画像の属性空間と画像空間の両方での一貫した探索を可能にするため、ピクセルの空間配置を考慮して高次元属性多様体を反映した超ピクセル階層を構築する手法を提案し、その有効性を示すものである。