cs.CV 件の論文 | Gist.Science

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

本論文は、2D 向けに設計されたマルチモーダル大規模言語モデル（MLLM）を 3D 医療画像解析に適用可能にするため、複雑なタスクを段階的に分解し構造化された記憶を活用する統合エージェント「3DMedAgent」を提案し、40 以上のタスクで既存手法を上回る性能を実証した研究です。

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

この論文は、回転や並進などの対称変換に対する頑健な物体認識を実現するために、事前知識を必要とせず対称変換の例から潜在空間で等変な演算子を学習するアーキテクチャの有効性を MNIST データセットで実証しつつ、複雑なデータセットへの拡張における課題を論じています。

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

本論文は、自然言語で記述されたミッション要件と衛星画像からゼロショットで実行可能なコストマップを生成するモジュール型フレームワーク「OVerSeeC」を提案し、固定されたオントロジーに依存せず、未知の地形や複雑な優先順位付けに対応した自律航行のグローバル計画を可能にすることを示しています。

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

この論文は、都市環境セグメンテーションにおける既知のドメインとカテゴリの両方を扱えない既存の課題を解決するため、新しい設定「OVDG-SS」とそのためのベンチマークを提案し、ドメインシフトによるテキスト - 画像相関の歪みを状態空間ベースの手法「S2-Corr」で補正することで、未知の環境とカテゴリに対するロバストなセグメンテーションを実現する手法を提示しています。

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

この論文は、事前の形状仮定やカテゴリ制限なしに、大規模言語モデルによるセマンティックな粗い対応付けとランクベースの対照学習を組み合わせた「UniMatch」というフレームワークを提案し、非等長な異種オブジェクト間の密な対応付けを可能にする手法を提示しています。

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

本論文は、拡散モデルの計算コストとメモリ制約を克服し、可変サイズの画像に対して境界アーティファクトを排除した高品質な超解像を実現するために、重なり合うパッチ間での結合デノイジングを効率的に実行する「InfScene-SR」という手法を提案するものである。

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

本論文は、単眼 3D 物体検出のデータ効率を向上させるため、画像から物体・背景・カメラ姿勢を分解し、これらを動的に再構成して多様な合成訓練データを生成するオンライン手法を提案し、KITTI および Waymo データセットにおいて複数のモデルで有効性を検証したものである。

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

本論文は、拡散モデルの軽量微調整とサイクル整合性に基づく双方向学習、および自己改善プロセスを導入することで、ロゴと背景の複雑な相互作用を高精度に分解・再構成する汎用的な画像層分解フレームワークを提案するものです。

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

この論文は、強化学習を必要とせず、推論の各段階で視覚的証拠を動的に抽出・統合して多モーダル推論を反復的に補正する、軽量かつトレーニングフリーのプラグアンドプレイ型フレームワーク「See It, Say It, Sorted」を提案し、大規模視覚言語モデルの視覚的ハルシネーションを大幅に低減しながら推論精度を向上させることを実証しています。

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

この論文は、セグメンテーションマスクをランレングス符号化（RLE）で離散化し、言語モデルによる自己回帰生成を通じて画像および動画のセマンティックセグメンテーションとパン옵ティックセグメンテーションを統一的に実現する新しい手法を提案し、限られた計算資源下でも最先端の性能を達成できることを示しています。

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

この論文は、ゼロショット合成画像検索（ZS-CIR）において、テキストから画像（T2I）と画像から画像（I2I）の両方の利点を「検索・検証・洗練」というパイプラインで動的に統合し、トレーニング不要で既存の手法を大幅に上回る性能を実現するフレームワーク「WISER」を提案するものです。

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

本論文は、従来のガウススプラッティング手法が抱える長期シーケンスや大規模運動への対応困難、および既存の動画コーデックとの非互換性を解決するため、ガウス属性を構造化された UV アトラスに変換し標準動画コーデックと互換性のある効率的な 4 次元 volumetric video 表現「PackUV」とその最適化手法「PackUV-GS」を提案し、大規模データセット「PackUV-2B」を用いた実験で高品質かつ長期にわたるレンダリングの成功を実証したものである。

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

この論文は、高価なアノテーションを必要とせず、強化学習に基づく AP-GRPO 手法を用いて大規模マルチモーダルモデルが高解像度画像の重要な領域を自律的に特定・検証し、推論性能を向上させる「HART」というフレームワークを提案するものです。

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

この論文は、アテンションの二次的な計算コストを回避し、高解像度画像処理においてスケーラビリティとエネルギー効率を大幅に向上させるために、拡散過程とマルコフ連鎖の中心性指標に基づいた「無限自己アテンション（InfSA）」とその線形近似版「Linear-InfSA」を提案し、ImageNet での精度向上と超大解像度推論の実現を実証しています。

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

本論文は、大規模データセット「Actor-18M」を基に、多様な視点や動きにおいても全身の同一性を維持する動画生成フレームワーク「WildActor」を提案し、既存手法が抱える顔中心の偏りや rigid な動きの問題を解決するものです。

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

この論文は、生成モデルや知覚指向の手法が主流となった現代において、画像処理システムの評価を単一の数値指標に依存するのではなく、人間の知覚やユーザーの好みに即した人間中心のアプローチへと転換すべきであると主張しています。

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

既存の層中心の仮説を覆し、VLM の深い層におけるアテンションヘッドの役割（属性、汎化、混合）を「概念エントロピー」で分解・分類し、役割に応じたトークンとアテンションマスクを導入することで、タスク適応とゼロショット汎化性能の両立を実現する DeAR 枠組みを提案する論文です。

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

MSP-ReID: Hairstyle-Robust Cloth-Changing Person Re-Identification

本論文は、髪型の変化に頑健な衣服変更人物再識別（CC-ReID）を実現するため、髪型の依存を軽減し顔や身体の特徴への注意を高める「髪型指向拡張」、構造情報を保持しつつ衣服のテクスチャバイアスを抑制する「衣服保存ランダム消去」、そして髪の特徴を抑制して顔や四肢を強調する「領域基盤パースング注意」を組み合わせた MSP フレームワークを提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Xiangyang He, Lin Wan2026-03-10💻 cs

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

この論文は、局所化器とセグメンテーション器を統合し、時間的一貫性ラッパーを備えた検出ゲート型パイプラインを提案することで、高速度ビデオエンドスコピーにおける喉頭領域波形の抽出精度と臨床的病理評価のための生体マーカーの一般化性を飛躍的に向上させたことを報告しています。

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

本論文は、メコンデルタの無形文化遺産画像分類におけるデータ不足と過学習の問題に対し、CoAtNet 構造とモデルスープ（モデルの重み平均化）を組み合わせることで、分散を低減し、既存の強固なベースラインを凌ぐ最先端の精度を達成したことを示しています。

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

← 前へ次へ →