cs.CV 件の論文 | Gist.Science

Spectral-Structured Diffusion for Single-Image Rain Removal

この論文は、拡散モデルの空間ドメインにおける限界を克服し、構造化されたスペクトル摂動と畳み込み定理を活用したフルプロダクトU-Netを導入することで、単一画像からの雨除去において高性能かつ効率的な「SpectralDiff」フレームワークを提案するものである。

Yucheng Xing, Xin Wang2026-03-11💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

この論文は、9,860 枚の画像で学習した強化された YOLOv8 双モデルフレームワークを用いて、火災・煙の検出と周囲物体との距離推定を統合し、定量的なリスク評価スコアを生成する、工場の現場向けインテリジェントな火災ハザード推定システムを提案しています。

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

本論文は、2D パッチトークンに代わるアノトロピック 3D ガウスプリミティブを用いた「ガウス空間トークナイザー（GST）」と、3D 物体接地や把持幾何学などを明示的に生成する「3D 深度認識推論（DA-CoT）」を統合した VLA モデル「GST-VLA」を提案し、複雑な 3D 操作タスクにおいて既存モデルを上回る精度を達成したことを報告するものである。

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

OmniEdit は、事前学習済みモデルの教師あり微調整に依存せず、FlowEdit の編集シーケンスを目標シーケンスに置換することでバイアスを排除し、確率的要素を除去して滑らかな編集軌道を確立する、トレーニング不要のリップシンクおよび音声・映像編集フレームワークを提案するものです。

Lixiang Lin, Siyuan Jin, Jinshan Zhang2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

この論文は、物理法則に基づく因果関係を明確化するための「物理駆動型イベント連鎖推論」と、イベント間の連続性を保つ「遷移認識型クロスモーダルプロンプティング」という 2 つのモジュールを導入することで、現実の物理現象を忠実に再現する動画生成を実現する新たな枠組みを提案しています。

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

本論文は、マルチモーダル大規模言語モデルにおけるテキスト画像入力時の性能低下（モダリティギャップ）を体系的に分析し、その原因が計算やフォーマットなどの「読解エラー」の増幅にあることを明らかにするとともに、モデル自身のテキスト推論履歴を用いた自己蒸留法によって画像入力時の精度を劇的に向上させる手法を提案するものです。

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

本論文は、医療画像の分布シフト下での表現学習を改善するため、診断感度やクラス内代表性に基づくデータ順序付けと非対称コントラスト損失を組み合わせた「知識駆動型認知編成（MedKCO）」を提案し、多様な医療視覚言語タスクで既存手法を大幅に上回る性能を実証したものです。

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

この論文は、複雑な動きを「静止」「剛体運動」「非剛体運動」の 3 つに分解し、生成前に動きの法則を推論して構造化する「計画先行」のフレームワークを提案することで、既存の手法が見過ごしていた多様な動きの指定を可能にするトレーニングフリーのコンポーザショナル動画生成手法を構築したことを示しています。

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

この論文は、皮膚がんの画像検索タスクにおいて、参照画像とテキスト記述を組み合わせたクエリに対して、トランスフォーマーベースのフレームワークを用いて局所的な病変領域と大域的な意味情報を統合的に整合させることで、最先端の手法を上回る性能を達成する手法を提案し、Derm7pt データセットでその有効性を検証したものである。

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

この論文は、大規模言語モデル（LLM）を構造化された意味教師として活用して医療用ビジョントランスフォーマー（ViT）を事前学習させる「VIVID-Med」フレームワークを提案し、LLM を学習後に破棄することで軽量かつ展開可能なモデルを実現しつつ、BiomedCLIP を上回る高性能な医療画像分析を達成したことを報告しています。

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

本論文は、現実世界で頻繁に発生するモダリティの欠損やノイズに対処するため、信頼性推定とプログレッシブな相互作用により不完全なマルチモーダル感情分析を高度化する「PRLF」という新しいフレームワークを提案し、主要なデータセットにおいて最先端の性能を達成したことを報告しています。

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian Yang2026-03-11💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

この論文は、未知かつ非一様な劣化に直面する実世界環境において、不確実性に基づいてノイズ注入強度を適応的に調整する「不確実性誘導ノイズ生成（UNG）」モジュールと、マルチモーダル大規模言語モデル（MLLM）を用いた「品質認識事前知識（QAP）」を統合した新しい拡散モデル「QUSR」を提案し、高忠実度かつ高現実的な画像超解像を実現するものです。

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

本論文は、SegFormer 変換器を用いて HR-pQCT 画像から骨および周囲軟組織を自動セグメント化し、抽出した放射線学的特徴量を用いた骨粗鬆症の分類が、従来の骨ベースのモデルよりも高い精度を達成し、軟組織の評価が疾患検出に重要であることを示した研究です。

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs

Rotation Equivariant Mamba for Vision Tasks

本論文は、画像の回転に対する不変性を欠く既存のビジョン用 Mamba アーキテクチャの課題を解決するため、回転等変性を組み込んだ初のモデル「EQ-VMamba」を提案し、理論的な等変性の保証と、分類・セグメンテーション・超解像などの多様なタスクにおける高い性能とパラメータ効率の向上を実証しています。

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben Xu2026-03-11💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

本論文は、6G ネットワークにおける分散学習の課題を解決するため、ネットワーク状態を認識してタスク目標を行動に変換する「エージェント型 AI」を制御層として導入し、クライアント選定やリソース割り当てなどの最適化を自律的に行う統合システムを提案し、その有効性を示したものである。

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon Hong2026-03-11💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

この論文は、低照度環境における RGB-T セマンティックセグメンテーションのロバスト性を向上させるため、融合とモダリティ適応を単一のネットワークで統合し、欠損信号に対しても頑健な推論を可能にする「RTFDNet」という新しいアーキテクチャを提案しています。

Kunyu Tan, Mingjian Liang2026-03-11💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap は、LLM が作成した評価基準（ルブリック）に基づいて報酬信号を生成する強化学習フレームワークを導入し、高密度画像キャプション生成において既存の教師あり蒸留や RL 手法、さらには人間専門家やプロプライエタリモデルを上回る性能と効率を実現しました。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

この論文は、広視野・高ダイナミックレンジの条件に対応するパッチ単位の学習と非線形変換を導入して改良した深層学習モデル「POLISH」を提案し、シミュレーションデータを用いた検証により、従来の CLEAN 法に比べて重力レンズ発見の感度が 10 倍向上することを示しています。

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

画像復元において、Mamba モデルが抱える空間トポロジーの破綻と長距離依存性の減衰という課題を解決するため、幾何学的分割と対称なショートカット経路を導入した階層的状態空間モデル「Progressive Split-Mamba」を提案し、超解像やノイズ除去などのタスクで既存モデルを上回る性能を示した。

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim Radwan2026-03-11💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

本論文は、事前学習済みの 3D エンコーダに依存せず、点群を離散トークンに変換して LLM の語彙として直接処理するエンドツーエンドのマルチモーダル大規模言語モデル「SAGE」を提案し、既存の手法を上回る性能と計算効率を実現したことを示しています。

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

← 前へ次へ →