cs.CV 件の論文 | Gist.Science

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

本論文は、視覚と触覚のモダリティを効果的に融合し、タスクに依存しない汎用的な表現学習とゼロショット一般化を実現するために、局所および大域の位置符号化を段階的に注入するトランスフォーマーベースのアーキテクチャ「ViTaPEs」を提案し、実世界データセットおよびロボティクスタスクにおいて最先端の性能を示すことを報告しています。

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

この論文は、農業分野における密集・自己遮蔽物体のインスタンスセグメンテーション課題を解決するため、最小限の人手注釈で形状やテクスチャに焦点を当てた「GLMask」を用いた半自己教師あり学習アプローチを提案し、小麦の穂の検出で mAP@50 98.5% の最高精度を達成したことを報告しています。

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

本論文は、ピラミッド型 pix2pix の損失関数に分散ペナルティを導入してモード崩壊を抑制し、H&E 染色画像から高忠実度の HER2 免疫組織化学画像を生成する深層学習フレームワークを提案することで、乳がん診断の精度向上とコスト削減を実現するものである。

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

本論文は、照明と法線ベクトルを明確に分離する「Light Register トークン」や「Wavelet 基盤の双枝アーキテクチャ」を提案し、大規模合成データセット「PS-Verse」を用いたカリキュラム学習を通じて、任意の照明条件下で高精度かつ汎用的なフォトメトリックステレオを実現する「LINO UniPS」を構築したものである。

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

本論文は、視覚言語モデル（VLM）から得られる特徴を明示的なプロンプトとしてセグメンテーションモデル（SAM）に活用し、さらに分類段階でドメインギャップを回避する「ソフトな空間事前分布」を導入するカスケード型フレームワークを提案することで、任意のクラスの擬態物体を高精度にセグメント化・分類するオープンボキャブラリ擬態物体セグメンテーション（OVCOS）の課題を解決するものです。

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

本論文は、事前学習された潜在拡散モデルとマルチモーダル理解モデルを活用し、対データなしで多様な画像劣化をゼロショットで統一復元する「LD-RPS」を提案し、既存手法を上回る性能を実証したものです。

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

この論文は、人間の視覚発達の過程（視力やコントラスト感度など）を模倣した「発達的視覚食」を導入することで、AI がテクスチャ依存から脱却し、形状に基づく頑健で人間に近い視覚能力を獲得できることを実証しています。

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

本論文は、複数のデータセットをまたぐ汎用的な視覚的場所認識を実現するため、学習されたクエリを参照コードブックとして活用し、計算コストを大幅に増やさずに特徴集約の能力を向上させる「クエリベース適応集約（QAA）」を提案し、既存の単一データセット特化モデルと同等の性能を維持しながら多様なデータセット間でのバランスの取れた汎化性能を達成することを示しています。

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

本論文は、センサー故障やプライバシー保護により生じる不完全なマルチモーダルデータの問題に対処するため、モダリティ組合せごとの共有情報と固有特徴を分離し、表現空間の分離性に基づいて動的に学習比率を調整する新しいパラメータ効率型学習フレームワーク「MCULoRA」を提案し、感情認識タスクにおいて既存手法を上回る性能を達成したことを示しています。

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

本論文は、状態空間モデルを活用した新しいディープスネークフレームワーク「Mamba Snake」を提案し、多スケールの構造的異質性や器官間の関係性を効果的にモデル化することで、医用画像の統一セグメンテーションにおいて最先端の手法を上回る性能を達成したことを示しています。

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

この論文は、特定の基準視点に依存せず入力順序に対して置換等価性を備えたニューラルネットワーク「 $π^3$ 」を提案し、カメラ姿勢推定や深度推定など多様な視覚幾何学タスクにおいて最先端の性能を達成することを示しています。

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

本論文は、X 線非破壊検査の信頼性と解釈性を向上させるため、検出器と証拠に基づく反省ツールを LMM エージェントが調整する新たなフレームワーク「InsightX Agent」を提案し、GDXray+ データセットにおいて高い検出精度と信頼性の高い分析を実現したことを示しています。

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

本論文は、台湾宇宙機関（TASA）の緊急付加価値製品（EVAP）を支援するため、Sentinel-2 と Formosat-5 画像を用いた主成分分析と信頼度指標に基づく弱教師あり学習により、ViT（Vision Transformer）ベースのモデルで災害被災域のセグメンテーション精度と信頼性を向上させるフレームワークを提案するものである。

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

本論文は、マイクロ交通シミュレータの拡張性を維持しつつ、高レベル特徴量のみから現実的な LiDAR 検出を生成する代理モデル「MIDAR」を提案し、大規模な交通シミュレーションにおける自律走行車の知覚能力を効率的に強化する手法を提示しています。

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Diabetic foot ulcer segmentation の課題である長距離依存性のモデル化と説明可能性を解決するため、Vision Transformer と U-Net を融合した TransUNet-GradCAM 手法を提案し、公開データセットおよび外部臨床データセットにおける高い汎化性能と臨床的有用性を検証しました。

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

← 前へ次へ →

cs.CV

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Adopting a human developmental visual diet yields robust, shape-based AI vision

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Unified Medical Image Segmentation with State Space Modeling Snake

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

cs.CV

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Adopting a human developmental visual diet yields robust, shape-based AI vision

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Unified Medical Image Segmentation with State Space Modeling Snake

π3\pi^3π3: Permutation-Equivariant Visual Geometry Learning

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

S2^22Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation