cs.CV 件の論文 | Gist.Science

Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner

本研究は、病理学テキストや専門家からの高品質な推論指向データセットを活用し、3 段階の学習パイプライン（継続的事前学習、推論を促す教師あり微調整、強化学習）により訓練されたマルチモーダル強化学習ベースの病理専門推論モデル「Patho-R1」を提案し、その卓越した性能を実証したものである。

Wenchuan Zhang, Penghao Zhang, Jingru Guo, Tao Cheng, Jie Chen, Shuwan Zhang, Zhang Zhang, Yuhao Yi, Hong Bu2026-03-24🤖 cs.AI

CompBench: Benchmarking Complex Instruction-guided Image Editing

この論文は、複雑な指示に基づく画像編集の能力を包括的に評価するための大規模ベンチマーク「CompBench」を提案し、MLLM と人間の協働フレームワークおよび指示の解離戦略を用いて、既存モデルの限界を浮き彫りにし、次世代システムの開発に貢献するものです。

Bohan Jia, Wenxuan Huang, Yuntian Tang, Junbo Qiao, Jincheng Liao, Shaosheng Cao, Fei Zhao, Zhaopeng Feng, Zhouhong Gu, Zhenfei Yin, Lei Bai, Wanli Ouyang, Lin Chen, Fei Zhao, Yao Hu, Zihan Wang, Yuan (…)2026-03-24💻 cs

SPKLIP: Aligning Spike Video Streams with Natural Language

本論文は、スパイクカメラの非同期かつスパースな出力と自然言語を直接対応させるために、階層的スパイク特徴抽出器とスパイク・テキスト対照学習を採用し、数ショット学習やエネルギー効率の向上を実現する初のスパイク動画・言語アライメントモデル「SPKLIP」を提案するものです。

Yongchang Gao, Meiling Jin, Zhaofei Yu, Tiejun Huang, Guozhang Chen2026-03-24💻 cs

Foresight Diffusion: Improving Sampling Consistency in Predictive Diffusion Models

本論文は、予測学習におけるサンプリングの一貫性を向上させるため、条件理解とターゲットのノイズ除去を分離し、事前学習済み予測器を活用した新しいフレームワーク「Foresight Diffusion (ForeDiff)」を提案し、ロボット動画予測や科学時空間予測において高精度かつ一貫性のある生成を実現することを示しています。

Yu Zhang, Xingzhuo Guo, Haoran Xu, Jialong Wu, Mingsheng Long2026-03-24💻 cs

Frequency-Adaptive Discrete Cosine-ViT-ResNet Architecture for Sparse-Data Vision

この論文は、希少動物の画像分類におけるデータ不足という課題に対処するため、適応的 DCT 前処理、ViT-B16 と ResNet50 のハイブリッドバックボーン、およびベイズ線形分類器を組み合わせた新しい深層学習フレームワークを提案し、極端なサンプル不足条件下で最先端の精度を達成したことを示しています。

Ziyue Kang, Weichuan Zhang2026-03-24💻 cs

SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning

本論文は、大規模言語モデルの部分的な支援を活用した効率的な好対データ構築パイプラインと、参照モデルを不要としながら言語能力の維持と負の好対の支配を防ぐ新たな最適化手法「SynPO」を提案し、これによりビデオ詳細キャプション生成の性能と学習効率を大幅に向上させることを示しています。

Jisheng Dang, Yizhou Zhang, Hao Ye, Teng Wang, Siming Chen, Huicheng Zheng, Yulan Guo, Jianhuang Lai, Bin Hu2026-03-24🤖 cs.AI

ReSpace: Text-Driven Autoregressive 3D Indoor Scene Synthesis and Editing

ReSpace は、自然言語による指示と明示的な部屋境界を備えたコンパクトな構造化シーン表現を用いて、物体の追加・削除・入れ替えを含む 3D 室内シーンの自動生成と編集を実現する新しい生成フレームワークです。

Martin JJ. Bucher, Iro Armeni2026-03-24💻 cs

Go Beyond Earth: Understanding Human Actions and Scenes in Microgravity Environments

本論文は、宇宙環境における人間の行動とシーンの理解を可能にする初のベンチマーク「MicroG-4M」を提案し、実際の宇宙ミッションや映画シミュレーションから収集されたデータを用いて、微重力下での動作認識、動画キャプション生成、視覚的質問応答といったタスクの評価基盤を確立したものである。

Di Wen, Lei Qi, Kunyu Peng, Kailun Yang, Fei Teng, Ao Luo, Jia Fu, Yufan Chen, Ruiping Liu, Yitian Shi, M. Saquib Sarfraz, Rainer Stiefelhagen2026-03-24💻 cs

From Explanations to Architecture: Explainability-Driven CNN Refinement for Brain Tumor Classification in MRI

この論文は、Grad-CAM による層の寄与度分析に基づいて不要な層を削減し、SHAP や LIME による検証を組み合わせることで、脳腫瘍 MRI 画像分類において高い精度を維持しつつモデルの透明性と信頼性を向上させる手法を提案しています。

Rajan Das Gupta, Md Imrul Hasan Showmick, Lei Wei, Mushfiqur Rahman Abir, Shanjida Akter, Md. Yeasin Rahat, Md. Jakir Hossen2026-03-24⚡ eess

Symmetrical Flow Matching: Unified Image Generation, Segmentation, and Classification with Score-Based Generative Models

本論文は、対称的な学習目標を用いて画像生成、セマンティックセグメンテーション、分類を単一のモデルで統合し、高品質な生成と効率的な推論を両立させる「Symmetrical Flow Matching（SymmFlow）」を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。

Francisco Caetano, Christiaan Viviers, Peter H. N. De With, Fons van der Sommen2026-03-24🤖 cs.AI

← 前へ次へ →