cs.CV 件の論文 | Gist.Science

Towards High-resolution and Disentangled Reference-based Sketch Colorization

本論文は、トレーニングデータと推論データの分布シフトを直接最小化し、セマンティック整合・非整合の双ブランチ構造と Gram 正則化、さらに SDXL 向けのアニメ固有タグネットワークを組み合わせることで、高解像度かつ制御性の高い参照ベースのスケッチ彩色を実現する新たなフレームワークを提案しています。

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

この論文は、奥行き情報や幾何学的較正を意図的に排除し、VR 遠隔操作による少量のデータで VLA ポリシーを微調整することで、複雑な環境下でのイチゴ収穫タスクにおいて 74.0% の成功率を達成した初の研究を紹介しています。

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

この技術報告書は、パキスタン製医療器具の製造欠陥を特定・修正し、患者の安全を確保するために、YOLOv8 や ResNet-152 などの深層学習アーキテクチャを活用した 4,414 枚の画像データセットを用いた自動光学検査（AOI）システムの開発と産業への応用を提案するものである。

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

本論文は、非同期かつ不均等な間隔で観測される時系列データ（ISTS）の予測精度を向上させるため、視覚・言語・時系列の各モダリティを統合し、大規模言語モデルを活用して文脈的意味や微細な時間的パターンを学習するマルチモーダルフレームワーク「MM-ISTS」を提案するものである。

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

本論文は、事前学習された透視図法のパターンを維持しつつ、ERP と CP の 2 種類の投影から得られるモジュレーション信号と自己条件付き AdaLN-Zero 機構を導入することで、全景画像の深度推定において少量データで高い性能を実現する「RePer-360」というフレームワークを提案しています。

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

本論文は、視覚的バイアスにより言語指示を無視する「言語的盲目性」という VLA モデルの欠陥を特定し、再学習なしで推論時に注意機構を再調整する IGAR 手法を提案することで、矛盾する指示下でのロボットの誤作動を効果的に防止することを示しています。

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

この論文は、CNN の構造的効率と KAN の非線形表現力を統合した「RepKAN」と呼ばれる新しいアーキテクチャを提案し、EuroSAT や NWPU-RESISC45 などのデータセットを用いた実験で、最先端モデルを上回る性能を維持しつつ、リモートセンシング画像分類において物理的に解釈可能な推論を実現したことを示しています。

Minjong Cheon2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

本論文は、大規模言語モデルによる意味論的推論と拡散トランスフォーマーによる文脈内学習を統合し、個別の微調整を不要とする大規模合成データセット「EffectData」を活用することで、高品質かつ汎用的なカスタマイズ型視覚効果生成を実現するフレームワーク「EffectMaker」を提案するものです。

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

本論文は、動画から連続的な物体ごとの物理パラメータを推定する新たな課題「MOSIV」を提案し、幾何学的目標に基づく微分可能なシミュレータと新しい合成ベンチマークを用いて、既存手法を上回る精度とシミュレーション忠実度を実現するフレームワークを開発したことを報告しています。

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

本論文は、複数の視点にまたがる空間推論において、視点間の関係性を明示的に推論する「空間的思考連鎖」を中間ワークスペースとして構築し、これを基に質問に応答する二段階フレームワーク「ViewFusion」を提案し、MMSI-Bench において既存モデルを大幅に上回る精度を達成したことを報告しています。

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

この論文は、中間的な画像生成に依存せずテキストベースの構造化視覚表現を用いて多様な画像生成モデルと統合可能な新しいフレームワーク「StruVis」を提案し、推論に基づくテキストから画像への生成タスクの性能を大幅に向上させることを示しています。

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

この論文は、部分的な遮蔽に起因する位置コストの混同を解決し、遮蔽状態を分析する「Occlusion-Aware Module」やその情報を活用する「Occlusion-Aware Offset」および「Bias-Aware Momentum」を含む、トレーニング不要のプラグ＆プレイ型マルチオブジェクト追跡フレームワーク「OA-SORT」を提案し、複数のデータセットで追跡性能の向上を実証したものです。

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

この論文は、生体視覚に着想を得た高次元ハイパーカラムの計算コスト課題を解決するため、VGG16 ベースのハイパーカラムに層化サンプリングを適用し、脳腫瘍データセットでの実験により、特に少量データ（N≤20）の条件下で単純なロジスティック回帰が過学習しやすい標準的な UNet よりも統計的に有意に優れたセグメンテーション性能を示すことを明らかにしています。

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

この論文は、フォントスタイルと使用ケースを明示的に記述した大規模な注釈付きデータセット「FontUse」を構築し、既存の画像生成モデルをアーキテクチャ変更なしで微調整することで、提示されたテキストの視覚的スタイルと用途を高精度に反映させるデータ中心のアプローチを提案しています。

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

本論文は、統一マルチモーダルモデルが自らの理解能力を生成評価に活用する「GvU」というトークンレベルの内在的報酬メカニズムと自己教師あり強化学習フレームワークを提案し、理解と生成の能力格差を解消して両者の性能を相互に向上させる手法を提示しています。

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

本論文は、事前学習済み動画生成モデルに、参照オブジェクト情報を時間的に均等かつ空間的に選択的に注入する軽量拡張手法「GenHOI」を提案し、これにより野外の複雑なシーンにおいても物体の同一性を維持しつつ物理的に妥当な手と物体の相互作用を生成する能力を大幅に向上させることを示しています。

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

← 前へ次へ →

cs.CV

Towards High-resolution and Disentangled Reference-based Sketch Colorization

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Technical Report: Automated Optical Inspection of Surgical Instruments

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Demystifying KAN for Vision Tasks: The RepKAN Approach

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

MOSIV: Multi-Object System Identification from Videos

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

Ensemble Learning with Sparse Hypercolumns

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

cs.CV

Towards High-resolution and Disentangled Reference-based Sketch Colorization

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Technical Report: Automated Optical Inspection of Surgical Instruments

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

RePer-360: Releasing Perspective Priors for 360∘^\circ∘ Depth Estimation via Self-Modulation

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Demystifying KAN for Vision Tasks: The RepKAN Approach

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

MOSIV: Multi-Object System Identification from Videos

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

Ensemble Learning with Sparse Hypercolumns

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation