cs.CV 件の論文 | Gist.Science

From Explanations to Architecture: Explainability-Driven CNN Refinement for Brain Tumor Classification in MRI

この論文は、Grad-CAM による層の寄与度分析に基づいて不要な層を削減し、SHAP や LIME による検証を組み合わせることで、脳腫瘍 MRI 画像分類において高い精度を維持しつつモデルの透明性と信頼性を向上させる手法を提案しています。

Rajan Das Gupta, Md Imrul Hasan Showmick, Lei Wei, Mushfiqur Rahman Abir, Shanjida Akter, Md. Yeasin Rahat, Md. Jakir Hossen2026-03-24⚡ eess

Symmetrical Flow Matching: Unified Image Generation, Segmentation, and Classification with Score-Based Generative Models

本論文は、対称的な学習目標を用いて画像生成、セマンティックセグメンテーション、分類を単一のモデルで統合し、高品質な生成と効率的な推論を両立させる「Symmetrical Flow Matching（SymmFlow）」を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。

Francisco Caetano, Christiaan Viviers, Peter H. N. De With, Fons van der Sommen2026-03-24🤖 cs.AI

Segmenting Visuals With Querying Words: Language Anchors For Semi-Supervised Image Segmentation

本論文は、事前学習済み VLM のテキスト埋め込みをデータセットや画像固有の文脈に適応させることで視覚と言語の整合性を高め、1% 未満の教師データで PASCAL VOC や COCO などの主要ベンチマークにおいて最先端の性能を達成する半教師あり画像セグメンテーション手法「HVLFormer」を提案しています。

Numair Nadeem, Saeed Anwar, Muhammad Hamza Asad, Abdul Bais2026-03-24🤖 cs.AI

Ctrl-Z Sampling: Scaling Diffusion Sampling with Controlled Random Zigzag Explorations

この論文は、拡散モデルの推論時に品質の局所最適解に陥る問題を解決するため、品質の停滞を検知してノイズ状態を巻き戻し、代替の生成経路を探索する「Ctrl-Z サンプリング」というスケーラブルでモデル非依存の手法を提案し、計算コストと生成品質のトレードオフを改善することを示しています。

Shunqi Mao, Wei Guo, Chaoyi Zhang, Jieting Long, Ke Xie, Weidong Cai2026-03-24💻 cs

PoseMaster: A Unified 3D Native Framework for Stylized Pose Generation

この論文は、2D 画像から 3D スケルトンへの変換を介した従来のカスケード手法の限界を克服し、3D スケルトンを直接条件として用いることで、高精度かつ多様な 3D ポーズ生成と自動リギング対応アセットの作成を可能にする統合フレームワーク「PoseMaster」を提案するものです。

Hongyu Yan, Kunming Luo, Weiyu Li, Kaiyi Zhang, Yixun Liang, Jingwei Huang, Chunchao Guo, Ping Tan2026-03-24💻 cs

Unleashing the Potential of All Test Samples: Mean-Shift Guided Test-Time Adaptation

本論文は、CLIP の特徴空間を超えて単一ステップの kNN 平均シフトを用いてすべてのテストサンプルを精緻化し、分布シフトに対するロバストな適応を可能にするトレーニングフリー手法「MS-TTA」を提案するものである。

Jizhou Han, Chenhao Ding, SongLin Dong, Yuhang He, Xinyuan Gao, Yihong Gong2026-03-24💻 cs

HUG-VAS: A Hierarchical NURBS-Based Generative Model for Aortic Geometry Synthesis and Controllable Editing

本論文は、NURBS 表現と階層的拡散モデルを統合し、患者固有の血管幾何形状を高精度に合成・編集可能にする新たな生成モデル「HUG-VAS」を提案し、限られた画像情報から CFD 解析に直結する水密な大動脈モデルをゼロショットで生成することを可能にします。

Pan Du, Mingqi Xu, Xiaozhi Zhu, Jian-xun Wang2026-03-24💻 cs

HeCoFuse: Cross-Modal Complementary V2X Cooperative Perception with Heterogeneous Sensors

本論文は、車両とインフラのセンサー構成が不均一な環境下でも高信頼な協働知覚を実現するため、異種センサー間の特徴融合を最適化する階層的融合メカニズムと適応的解像度調整を採用した新フレームワーク「HeCoFuse」を提案し、TUMTraf-V2X データセットおよび CVPR 2025 DriveX チャレンジにおいて最先端の性能を達成したことを報告しています。

Chuheng Wei, Ziye Qin, Walter Zimmer, Guoyuan Wu, Matthew J. Barth2026-03-24🤖 cs.AI

OCRGenBench: A Comprehensive Benchmark for Evaluating OCR Generative Capabilities

本論文は、既存のベンチマークの限界を克服し、テキスト生成・編集・OCR 関連タスクを包括的に評価する新たな基準「OCRGenBench」と統合評価指標「OCRGenScore」を提案し、最先端モデルの視覚的テキスト合成能力における重大な課題を明らかにしたものである。

Peirong Zhang, Haowei Xu, Jiaxin Zhang, Xuhan Zheng, Guitao Xu, Yuyi Zhang, Junle Liu, Zhenhua Yang, Wei Zhou, Lianwen Jin2026-03-24💻 cs

Patho-AgenticRAG: Towards Multimodal Agentic Retrieval-Augmented Generation for Pathology VLMs via Reinforcement Learning

この論文は、病理画像の超高解像度や複雑な組織構造といった課題に対処し、テキストベースの知識ベースの限界を克服するため、教科書のページレベル埋め込みに基づくマルチモーダル検索と推論機能を備えた新しいアジェンティック RAG フレームワーク「Patho-AgenticRAG」を提案し、その診断タスクにおける性能向上を実証するものです。

Wenchuan Zhang, Jingru Guo, Hengzhe Zhang, Penghao Zhang, Jie Chen, Shuwan Zhang, Zhang Zhang, Yuhao Yi, Hong Bu2026-03-24💻 cs

← 前へ次へ →