UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking
本論文は、視覚追跡における計算コストを削減しつつ精度を維持するため、検索領域とテンプレートを独立してではなく相互依存関係を考慮して統合的にトークンを剪定する新しいフレームワーク「UTPTrack」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。
7563 件の論文
本論文は、視覚追跡における計算コストを削減しつつ精度を維持するため、検索領域とテンプレートを独立してではなく相互依存関係を考慮して統合的にトークンを剪定する新しいフレームワーク「UTPTrack」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。
本論文は、言語、音声、動作、動画生成を単一のインタラクティブループで統合し、リアルタイムかつ高知能なマルチモーダル対話を実現する新フレームワーク「U-Mind」を提案し、そのクロスモーダル同期と推論能力の維持を可能にする技術と、実時間動画レンダリングによる表現豊かな視覚フィードバックの仕組みを詳述しています。
本論文は、連続的に補間された日本語文字形状を用いた実験を通じて、視覚言語モデル(VLM)と人間の曖昧な文字認識における意思決定パターンの乖離を明らかにし、文脈情報の付与が一部の条件下で人間との整合性を改善する可能性を示唆しています。
この論文は、皮膚画像診断における環境的交絡因子によるバイアスを除去し、透明性と解釈可能性を維持しながら診断精度を向上させるため、構造的因果モデルと情報ボトルネック制約を用いた教師なし因果プロトタイプネットワーク「CausalProto」を提案するものである。
本論文では、低ポリゴンメッシュのみをレンダリングしつつ、画像空間における多スケールニューラル変形とアトラス再割り当てを活用して、従来の幾何学的テッセレーションと同等の滑らかな輪郭とテクスチャの整合性を実現する軽量なポストプロセッシング手法「NIST」を提案しています。
この論文は、手動アノテーションや事前学習済みモデルを一切使用せず、自己教師あり学習と反復パッチ最適化(IPO)によって前景・背景を高精度に分離し、複数のベンチマークで既存の教師なし手法を凌駕するだけでなく、カモフラージュ物体検出などのゼロショットタスクにおいても最先端の教師あり手法に匹敵する性能を達成する「Selfment」と呼ばれる完全自己教師ありセグメンテーションフレームワークを提案するものである。
本論文は、大規模言語モデルに光学設計の専門知識を組み込み、物理法則に基づく報酬設計と専用最適化ルーチンを統合した「OPTIAGENT」を開発することで、光学の専門知識を持たないユーザーでも高品質なレンズ系を自動設計可能にした初の試みを報告するものである。
本論文は、新生児の接触不要なバイタルサイン監視を可能にするため、多様な姿勢の新生児顔面動画から心拍数と SpO2 を高精度に推定するデータセット「VideoPulse」と、それを活用したエンドツーエンドの推定パイプラインを提案するものである。
本論文は、大規模な注釈データが不要な臨床環境において、事前学習済みビジョン基盤モデル(DINOv3)を 3D 血管セグメンテーション用に適応させる新たなフレームワークを提案し、極少量の学習データとドメインシフト下でも既存の最先端手法を大幅に上回る性能と頑健性を示したものである。
蛍光顕微鏡における焦点品質評価が染色特性に依存する課題を解決するため、本研究は新たなデータセット「FluoMix」と、染色情報を視覚特徴と統合して焦点品質を評価するフレームワーク「FluoCLIP」を提案し、染色依存性を考慮した焦点品質評価の基盤を確立しました。
本論文は、構造化された感情推論と視覚・テキストの整合性を基にした反省的報酬を導入する「EMO-R3」というフレームワークを提案し、マルチモーダル大規模言語モデルの感情推論能力と解釈可能性を大幅に向上させることを示しています。
本論文は、CTA 画像における大動脈解離の 3D セグメンテーション精度を向上させるため、スライス間依存性を効率的に捉える双方向深度マバと、血管構造を明確化する幾何学的注意機構を組み合わせた軽量フレームワーク「BiM-GeoAttn-Net」を提案し、既存手法を上回る性能を実証したものである。
本論文は、事前学習済みモデルを再学習させずに、視覚言語モデルを介した能動的な視点制御エージェントがスカラーな知覚フィードバックに基づいて最適な観測位置へ移動することで、ラベルなしで異分野の室内環境における視覚タスクの性能を大幅に向上させる「Sea²」という新しいパラダイムを提案しています。
本論文は、RGB 画像から直接 3D 構造を復元する事前学習済み幾何学基盤モデルを活用し、動作と未来の 3D 状態を同時に予測する拡散モデルベースのフレームワークを提案することで、実世界における両手操作の成功率、腕同士の協調性、および 3D 空間予測精度を大幅に向上させる手法を提案しています。
本論文は、過去のデータや例示画像を保存せずに、凍結されたパッチ埋め込み空間に構築したコンパクトなドメインフットプリントと疑似生成リプレイを用いて、病理画像からレポートを生成する際に発生するカタストロフィックフォージングを回避し、変化する臨床環境に適応可能な継続学習フレームワークを提案するものである。
本論文は、学習可能な大カーネル去雑音モジュール、PPA アテンション機構に基づく特徴抽出強化戦略、および正規化ワッサーシュタイン距離に基づくガウス類似度損失の 3 つの改良を導入した「CPN-YOLO」を提案し、複雑な SAR 画像における船舶検出の精度とロバスト性を大幅に向上させることを示しています。
本論文は、DICOM 画像の異質性、可変長、およびメタデータの欠損・不整合といった課題に特化した、画像とメタデータを双方向クロスアテンションと学習可能辞書を用いて統合するエンドツーエンドのマルチモーダル分類フレームワークを提案し、その有効性を検証したものである。
本論文は、拡散モデルの不確実性ガイダンスを用いて、既存の手法では再現が困難だった偏光特性(偏光度と偏光角)の高精度復元を実現する新しいカラー偏光画像デモザイク手法を提案しています。
NAU-QMUL チームは、BERT と CLIP を活用したマルチモーダル多タスクモデルと疑似ラベルによるデータ拡張を提案し、AI 生成画像の検出および生成モデルの特定を目的としたコンペティション「CT2」のタスク A と B でそれぞれ 5 位という好成績を収めました。
本論文は、SAM 生成マスクによる階層的注意制御と、多様なテキストプロンプトに基づく重み付けを備えた RS 専用 CLIP 変種のモデル構成を組み合わせることで、追加学習なしにリモートセンシングデータのオープンボキャブラリーセマンティックセグメンテーションにおいて最先端の性能を達成する「ReSeg-CLIP」を提案しています。