cs.CV 件の論文 | Gist.Science

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

この論文は、皮膚がんの画像検索タスクにおいて、参照画像とテキスト記述を組み合わせたクエリに対して、トランスフォーマーベースのフレームワークを用いて局所的な病変領域と大域的な意味情報を統合的に整合させることで、最先端の手法を上回る性能を達成する手法を提案し、Derm7pt データセットでその有効性を検証したものである。

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

この論文は、大規模言語モデル（LLM）を構造化された意味教師として活用して医療用ビジョントランスフォーマー（ViT）を事前学習させる「VIVID-Med」フレームワークを提案し、LLM を学習後に破棄することで軽量かつ展開可能なモデルを実現しつつ、BiomedCLIP を上回る高性能な医療画像分析を達成したことを報告しています。

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

本論文は、現実世界で頻繁に発生するモダリティの欠損やノイズに対処するため、信頼性推定とプログレッシブな相互作用により不完全なマルチモーダル感情分析を高度化する「PRLF」という新しいフレームワークを提案し、主要なデータセットにおいて最先端の性能を達成したことを報告しています。

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian YangWed, 11 Ma💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

この論文は、未知かつ非一様な劣化に直面する実世界環境において、不確実性に基づいてノイズ注入強度を適応的に調整する「不確実性誘導ノイズ生成（UNG）」モジュールと、マルチモーダル大規模言語モデル（MLLM）を用いた「品質認識事前知識（QAP）」を統合した新しい拡散モデル「QUSR」を提案し、高忠実度かつ高現実的な画像超解像を実現するものです。

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

本論文は、SegFormer 変換器を用いて HR-pQCT 画像から骨および周囲軟組織を自動セグメント化し、抽出した放射線学的特徴量を用いた骨粗鬆症の分類が、従来の骨ベースのモデルよりも高い精度を達成し、軟組織の評価が疾患検出に重要であることを示した研究です。

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. SurowiecWed, 11 Ma💻 cs

Rotation Equivariant Mamba for Vision Tasks

本論文は、画像の回転に対する不変性を欠く既存のビジョン用 Mamba アーキテクチャの課題を解決するため、回転等変性を組み込んだ初のモデル「EQ-VMamba」を提案し、理論的な等変性の保証と、分類・セグメンテーション・超解像などの多様なタスクにおける高い性能とパラメータ効率の向上を実証しています。

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben XuWed, 11 Ma💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

本論文は、6G ネットワークにおける分散学習の課題を解決するため、ネットワーク状態を認識してタスク目標を行動に変換する「エージェント型 AI」を制御層として導入し、クライアント選定やリソース割り当てなどの最適化を自律的に行う統合システムを提案し、その有効性を示したものである。

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

この論文は、低照度環境における RGB-T セマンティックセグメンテーションのロバスト性を向上させるため、融合とモダリティ適応を単一のネットワークで統合し、欠損信号に対しても頑健な推論を可能にする「RTFDNet」という新しいアーキテクチャを提案しています。

Kunyu Tan, Mingjian LiangWed, 11 Ma💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap は、LLM が作成した評価基準（ルブリック）に基づいて報酬信号を生成する強化学習フレームワークを導入し、高密度画像キャプション生成において既存の教師あり蒸留や RL 手法、さらには人間専門家やプロプライエタリモデルを上回る性能と効率を実現しました。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

この論文は、広視野・高ダイナミックレンジの条件に対応するパッチ単位の学習と非線形変換を導入して改良した深層学習モデル「POLISH」を提案し、シミュレーションデータを用いた検証により、従来の CLEAN 法に比べて重力レンズ発見の感度が 10 倍向上することを示しています。

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

画像復元において、Mamba モデルが抱える空間トポロジーの破綻と長距離依存性の減衰という課題を解決するため、幾何学的分割と対称なショートカット経路を導入した階層的状態空間モデル「Progressive Split-Mamba」を提案し、超解像やノイズ除去などのタスクで既存モデルを上回る性能を示した。

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim RadwanWed, 11 Ma💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

本論文は、事前学習済みの 3D エンコーダに依存せず、点群を離散トークンに変換して LLM の語彙として直接処理するエンドツーエンドのマルチモーダル大規模言語モデル「SAGE」を提案し、既存の手法を上回る性能と計算効率を実現したことを示しています。

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

本論文は、画像などの初期データが一切不要なゼロデータ環境で視覚言語モデル（VLM）の推論能力を自己進化させる初の強化学習フレームワーク「MM-Zero」を提案し、提案者・コーダー・ソルバーという 3 つの役割を単一モデルから GRPO により訓練することで、従来の 2 役割モデルの枠組みを超えた拡張可能な自己改善を実現したものである。

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

本論文は、カメラの視点やスケールに依存しない関節角度記述子を用いた幾何学的メトリック学習フレームワークを提案し、限られたターゲット言語のデータで多言語手話認識の精度を大幅に向上させる手法を明らかにしています。

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

本論文は、医療用血管様解剖の複雑なトポロジーを自然言語プロンプトと視覚表現を統合したマルチモーダル基盤モデル「TubeMLLM」によってモデル化し、15 のデータセットで分布外性能やゼロショット転移能力において既存手法を凌駕する新たなベンチマーク「TubeMData」を提案するものである。

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

Distributed Convolutional Neural Networks for Object Recognition

この論文は、正のクラスを高次元空間のコンパクトな集合に、負のクラスを原点にマッピングする新しい損失関数を提案し、これにより正のクラスの特徴のみを抽出・解離できる軽量で汎化性能に優れた分散畳み込みニューラルネットワーク（DisCNN）を構築し、複雑な背景における物体検出を可能にすることを示しています。

Liang SunWed, 11 Ma💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

本論文は、MRI 画像の画質向上において、3D 基盤モデルの活用、物理メカニズムに基づくスペクトル補正、および大規模なマルチフィールド対データセットの構築を通じて、異なる磁場強度間での汎化性能を飛躍的に向上させる統合フレームワーク「UniField」を提案し、既存手法を大幅に上回る性能を実現したことを報告するものです。

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan YuanWed, 11 Ma💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

本論文は、ドローンや回転機械の安全な知覚のために、従来のフレームベースやイベントベースの追跡手法が苦手とするプロペラ状物体の高速な周期性運動を、イベントカメラを用いた「HelixTrack」という手法でリアルタイムかつマイクロ秒レベルの遅延で追跡・回転数推定し、その評価のために新規データセット「TQE」を公開したことを提案するものです。

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri MatasWed, 11 Ma💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

本論文は、着用状態の画像から平らな衣服表現を生成する仮想試着（VTOFF）において、部分的な視認性からの連続的な詳細の推論と構造的な安定性を向上させるため、衣服の条件を橋渡しするモジュールと平らな構造の制約を注入するモジュールを組み合わせた拡散モデル「BridgeDiff」を提案し、最先端の性能を達成したことを示しています。

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

本論文は、従来の潜在空間に依存せず DINOv2 の密な視覚特徴空間でナビゲーションダイナミクスをモデル化し、CDiT-DH と時間駆動ゲート機構を用いて構造安定性と動作精度を向上させた「RAE-NWM」を提案するものである。

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

← 前へ次へ →