UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

本論文は、視覚追跡における計算コストを削減しつつ精度を維持するため、検索領域とテンプレートを独立してではなく相互依存関係を考慮して統合的にトークンを剪定する新しいフレームワーク「UTPTrack」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Hao Wu, Xudong Wang, Jialiang Zhang + 5 more2026-03-02💬 cs.CL

U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation

本論文は、言語、音声、動作、動画生成を単一のインタラクティブループで統合し、リアルタイムかつ高知能なマルチモーダル対話を実現する新フレームワーク「U-Mind」を提案し、そのクロスモーダル同期と推論能力の維持を可能にする技術と、実時間動画レンダリングによる表現豊かな視覚フィードバックの仕組みを詳述しています。

Xiang Deng, Feng Gao, Yong Zhang + 5 more2026-03-02💻 cs

Unsupervised Causal Prototypical Networks for De-biased Interpretable Dermoscopy Diagnosis

この論文は、皮膚画像診断における環境的交絡因子によるバイアスを除去し、透明性と解釈可能性を維持しながら診断精度を向上させるため、構造的因果モデルと情報ボトルネック制約を用いた教師なし因果プロトタイプネットワーク「CausalProto」を提案するものである。

Junhao Jia, Yueyi Wu, Huangwei Chen + 4 more2026-03-02⚡ eess

Learning Accurate Segmentation Purely from Self-Supervision

この論文は、手動アノテーションや事前学習済みモデルを一切使用せず、自己教師あり学習と反復パッチ最適化(IPO)によって前景・背景を高精度に分離し、複数のベンチマークで既存の教師なし手法を凌駕するだけでなく、カモフラージュ物体検出などのゼロショットタスクにおいても最先端の教師あり手法に匹敵する性能を達成する「Selfment」と呼ばれる完全自己教師ありセグメンテーションフレームワークを提案するものである。

Zuyao You, Zuxuan Wu, Yu-Gang Jiang2026-03-02💻 cs

VideoPulse: Neonatal heart rate and peripheral capillary oxygen saturation (SpO2) estimation from contact free video

本論文は、新生児の接触不要なバイタルサイン監視を可能にするため、多様な姿勢の新生児顔面動画から心拍数と SpO2 を高精度に推定するデータセット「VideoPulse」と、それを活用したエンドツーエンドの推定パイプラインを提案するものである。

Deependra Dewagiri, Kamesh Anuradha, Pabadhi Liyanage + 6 more2026-03-02⚡ eess

Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

本論文は、大規模な注釈データが不要な臨床環境において、事前学習済みビジョン基盤モデル(DINOv3)を 3D 血管セグメンテーション用に適応させる新たなフレームワークを提案し、極少量の学習データとドメインシフト下でも既存の最先端手法を大幅に上回る性能と頑健性を示したものである。

Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka + 1 more2026-03-02⚡ eess

BiM-GeoAttn-Net: Linear-Time Depth Modeling with Geometry-Aware Attention for 3D Aortic Dissection CTA Segmentation

本論文は、CTA 画像における大動脈解離の 3D セグメンテーション精度を向上させるため、スライス間依存性を効率的に捉える双方向深度マバと、血管構造を明確化する幾何学的注意機構を組み合わせた軽量フレームワーク「BiM-GeoAttn-Net」を提案し、既存手法を上回る性能を実証したものである。

Yuan Zhang, Lei Liu, Jialin Zhang + 3 more2026-03-02⚡ eess

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

本論文は、事前学習済みモデルを再学習させずに、視覚言語モデルを介した能動的な視点制御エージェントがスカラーな知覚フィードバックに基づいて最適な観測位置へ移動することで、ラベルなしで異分野の室内環境における視覚タスクの性能を大幅に向上させる「Sea²」という新しいパラダイムを提案しています。

Tianci Tang, Tielong Cai, Hongwei Wang + 1 more2026-03-02🤖 cs.AI

Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation

本論文は、RGB 画像から直接 3D 構造を復元する事前学習済み幾何学基盤モデルを活用し、動作と未来の 3D 状態を同時に予測する拡散モデルベースのフレームワークを提案することで、実世界における両手操作の成功率、腕同士の協調性、および 3D 空間予測精度を大幅に向上させる手法を提案しています。

Chongyang Xu, Haipeng Li, Shen Cheng + 4 more2026-03-02💻 cs

Footprint-Guided Exemplar-Free Continual Histopathology Report Generation

本論文は、過去のデータや例示画像を保存せずに、凍結されたパッチ埋め込み空間に構築したコンパクトなドメインフットプリントと疑似生成リプレイを用いて、病理画像からレポートを生成する際に発生するカタストロフィックフォージングを回避し、変化する臨床環境に適応可能な継続学習フレームワークを提案するものである。

Pratibha Kumari, Daniel Reisenbüchler, Afshin Bozorgpour + 3 more2026-03-02💻 cs

Denoising-Enhanced YOLO for Robust SAR Ship Detection

本論文は、学習可能な大カーネル去雑音モジュール、PPA アテンション機構に基づく特徴抽出強化戦略、および正規化ワッサーシュタイン距離に基づくガウス類似度損失の 3 つの改良を導入した「CPN-YOLO」を提案し、複雑な SAR 画像における船舶検出の精度とロバスト性を大幅に向上させることを示しています。

Xiaojing Zhao, Shiyang Li, Zena Chu + 5 more2026-03-02💻 cs

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

本論文は、DICOM 画像の異質性、可変長、およびメタデータの欠損・不整合といった課題に特化した、画像とメタデータを双方向クロスアテンションと学習可能辞書を用いて統合するエンドツーエンドのマルチモーダル分類フレームワークを提案し、その有効性を検証したものである。

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

本論文は、SAM 生成マスクによる階層的注意制御と、多様なテキストプロンプトに基づく重み付けを備えた RS 専用 CLIP 変種のモデル構成を組み合わせることで、追加学習なしにリモートセンシングデータのオープンボキャブラリーセマンティックセグメンテーションにおいて最先端の性能を達成する「ReSeg-CLIP」を提案しています。

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs