cs.CV 篇论文 | Gist.Science

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

该论文提出了 HarvestFlex 系统，首次通过视觉 - 语言 - 动作（VLA）策略迁移，利用仅 3.71 小时的 VR 遥操作数据和多视角 RGB 感知，在无需深度云和显式几何校准的情况下，成功实现了温室草莓采摘任务中 74.0% 的成功率。

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

该报告通过与巴基斯坦 Sialkot 地区行业领袖合作，利用包含 4,414 张高分辨率图像的新数据集，结合 YOLOv8、ResNet-152 和 EfficientNet-b4 等深度学习架构，开发自动化光学检测系统以识别和修复手术器械缺陷，从而提升制造标准并保障患者安全。

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

本文提出了 MM-ISTS，一种利用多模态视觉 - 文本大语言模型，通过双阶段编码机制、自适应查询特征提取及多模态对齐模块，有效解决不规则采样时间序列预测中上下文语义缺失与细粒度时序模式捕捉难题的框架。

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

RePer-360 提出了一种基于自调制的畸变感知框架，通过轻量级几何对齐引导模块和自条件 AdaLN-Zero 机制，在保留预训练透视先验的同时实现了对全景深度估计的高效领域适配，仅需 1% 的训练数据即可显著超越标准微调方法。

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

该论文针对视觉 - 语言 - 动作（VLA）模型在指令与场景冲突时表现出的“语言盲视”问题，提出了无需训练且即插即用的指令引导注意力重校准（IGAR）方法，通过重构注意力分布显著提升了模型在分布外矛盾指令下的可靠性，同时保持了基线任务性能。

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

该论文提出了名为 RepKAN 的新型架构，通过融合 CNN 的结构效率与 KAN 的非线性表征能力，在 EuroSAT 和 NWPU-RESISC45 数据集上实现了超越现有最先进模型的分类性能，同时为遥感图像分类提供了可解释的物理推理机制。

Minjong Cheon2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

本文提出了 EffectMaker，这是一个通过结合多模态大语言模型进行语义推理与扩散 Transformer 进行上下文视觉学习，从而实现无需针对特定效果微调即可生成高质量、可控且一致的定制化视觉特效的统一框架，并构建了包含 13 万条视频的大规模 EffectData 数据集以增强其泛化能力。

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

本文提出了 MOSIV 框架，通过利用视频中的几何目标指导可微模拟器直接优化连续的单物体材料参数，并发布了新的合成基准，从而有效解决了现有方法难以处理的多物体系统识别难题。

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

ViewFusion 提出了一种将跨视图空间预对齐与问答推理显式分离的两阶段框架，通过合成监督与 GRPO 强化学习训练，显著提升了视觉语言模型在多视图空间推理任务中的表现。

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

本文提出了 StruVis 框架，通过利用文本化的结构化视觉表示作为中间推理状态，使多模态大语言模型能够在无需生成中间图像的情况下进行“结构化视觉思考”，从而在降低计算成本的同时显著提升了基于推理的文本到图像生成性能。

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

本文提出了一种无需训练且即插即用的 Occlusion-Aware SORT (OA-SORT) 框架，通过引入遮挡感知模块、偏移量及偏差感知动量机制有效缓解部分遮挡导致的位置成本混淆问题，从而在多个基准数据集上显著提升了多目标跟踪的精度与鲁棒性。

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

该论文针对高维超列在图像分割中计算复杂度过高的问题，提出通过分层子采样构建稀疏超列并结合集成学习方法，在极低样本量（ $N \leq 20$ ）的脑肿瘤分割任务中显著优于传统多尺度 UNet 基线。

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

该论文提出了名为 FontUse 的数据驱动方法，通过构建包含约 7 万张图像的大规模字体专用数据集，利用自动标注流程将字体风格与使用场景相结合，使现有文生图模型无需架构修改即可显著提升对图像排版要求的遵循度。

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

该论文提出了一种名为 GvU 的基于理解的内在奖励机制，通过让统一多模态模型利用其理解分支自我评估并指导生成，在无需外部监督的情况下有效缩小了模型在视觉理解与生成能力之间的差距。

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

本文提出了 GenHOI，一种针对预训练视频生成模型的轻量级增强方法，通过引入头滑动 RoPE 实现时间平衡以及设计两级空间注意力门控实现空间选择性，从而在复杂野外场景中显著提升了手 - 物交互视频的物体一致性与生成质量。

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

cs.CV

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Technical Report: Automated Optical Inspection of Surgical Instruments

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Demystifying KAN for Vision Tasks: The RepKAN Approach

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

MOSIV: Multi-Object System Identification from Videos

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

Ensemble Learning with Sparse Hypercolumns

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

Text-Driven Emotionally Continuous Talking Face Generation

cs.CV

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Technical Report: Automated Optical Inspection of Surgical Instruments

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

RePer-360: Releasing Perspective Priors for 360∘^\circ∘ Depth Estimation via Self-Modulation

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Demystifying KAN for Vision Tasks: The RepKAN Approach

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

MOSIV: Multi-Object System Identification from Videos

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

Ensemble Learning with Sparse Hypercolumns

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

Text-Driven Emotionally Continuous Talking Face Generation

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation