cs.CV 篇论文 | Gist.Science

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

本文提出了 EffectMaker，这是一个通过结合多模态大语言模型进行语义推理与扩散 Transformer 进行上下文视觉学习，从而实现无需针对特定效果微调即可生成高质量、可控且一致的定制化视觉特效的统一框架，并构建了包含 13 万条视频的大规模 EffectData 数据集以增强其泛化能力。

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

本文提出了 MOSIV 框架，通过利用视频中的几何目标指导可微模拟器直接优化连续的单物体材料参数，并发布了新的合成基准，从而有效解决了现有方法难以处理的多物体系统识别难题。

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

ViewFusion 提出了一种将跨视图空间预对齐与问答推理显式分离的两阶段框架，通过合成监督与 GRPO 强化学习训练，显著提升了视觉语言模型在多视图空间推理任务中的表现。

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

本文提出了 StruVis 框架，通过利用文本化的结构化视觉表示作为中间推理状态，使多模态大语言模型能够在无需生成中间图像的情况下进行“结构化视觉思考”，从而在降低计算成本的同时显著提升了基于推理的文本到图像生成性能。

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

本文提出了一种无需训练且即插即用的 Occlusion-Aware SORT (OA-SORT) 框架，通过引入遮挡感知模块、偏移量及偏差感知动量机制有效缓解部分遮挡导致的位置成本混淆问题，从而在多个基准数据集上显著提升了多目标跟踪的精度与鲁棒性。

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

该论文针对高维超列在图像分割中计算复杂度过高的问题，提出通过分层子采样构建稀疏超列并结合集成学习方法，在极低样本量（ $N \leq 20$ ）的脑肿瘤分割任务中显著优于传统多尺度 UNet 基线。

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

该论文提出了名为 FontUse 的数据驱动方法，通过构建包含约 7 万张图像的大规模字体专用数据集，利用自动标注流程将字体风格与使用场景相结合，使现有文生图模型无需架构修改即可显著提升对图像排版要求的遵循度。

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

该论文提出了一种名为 GvU 的基于理解的内在奖励机制，通过让统一多模态模型利用其理解分支自我评估并指导生成，在无需外部监督的情况下有效缩小了模型在视觉理解与生成能力之间的差距。

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

本文提出了 GenHOI，一种针对预训练视频生成模型的轻量级增强方法，通过引入头滑动 RoPE 实现时间平衡以及设计两级空间注意力门控实现空间选择性，从而在复杂野外场景中显著提升了手 - 物交互视频的物体一致性与生成质量。

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

该论文针对自动驾驶 VLA 模型中因模仿学习导致探索不足的问题，提出了名为 Curious-VLA 的两阶段框架，通过可行轨迹扩展策略和自适应多样性采样等创新方法有效平衡了利用与探索，从而在 Navsim 基准测试中取得了当前最优的性能表现。

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

该论文通过构建反事实图像集并训练线性探针，分析了轻量级视觉语言模型在自动驾驶场景中对视觉概念的编码机制，揭示了感知失败（概念未线性编码）与认知失败（概念存在但语义对齐错误）两种主要故障模式，并发现物体距离增加会显著降低视觉概念的可分性。

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

该论文提出了 TempoSyncDiff，一种基于参考条件的潜在扩散框架，通过教师 - 学生蒸馏技术将推理步数大幅减少，从而在保持身份一致性和时序稳定性的同时，实现了低延迟、适合边缘部署的音频驱动说话头生成。

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

本文提出了一种将废弃的全向 RGB-LiDAR 日志转化为 3D 高斯泼溅（3DGS）鲁棒初始化资产的高效流水线，通过解决畸变校正、点云降采样及多模态配准等挑战，实现了从标准传感器数据到高质量数字孪生的确定性构建。

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

该论文提出了名为“情感连续口型生成”（EC-TFG）的新任务及相应的 TIE-TFG 模型，旨在通过文本和动态情感描述驱动生成能够展现自然、平滑情感过渡的高保真说话人脸视频，从而解决现有方法难以模拟人类连续情感变化的问题。

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

该论文提出了一种名为"Lyapunov Probes"的轻量级方法，通过将大语言模型视为动力系统并引入基于导数的稳定性约束，利用扰动下的置信度单调衰减特性来有效区分事实性知识与幻觉区域。

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

本文提出了首个专注于深度感知的多模态大语言模型 DeepSight，通过构建深度指令数据集、改进 ViT 编码器以捕捉深度细微变化，并利用 GLPN 和 GPT-4 生成训练数据，显著提升了模型在三维场景理解及空间推理方面的能力。

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

该论文提出了一种针对静态场景视频的神经视频压缩新方法，通过引入“正向激励噪声”将短期时序变化与持久背景解耦，在保持像素级保真度的同时显著降低了数据传输量，实现了计算与带宽的高效权衡。

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

针对现有联邦域泛化行人重识别方法因依赖全局特征和简单平均聚合而导致的局部细节捕捉不足及高质量客户端贡献被稀释的问题，本文提出了 FedARKS 框架，通过鲁棒知识提取与知识选择机制实现更有效的模型聚合，从而在保护隐私的同时提升模型在未见域上的泛化能力。

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

Cross-Resolution Distribution Matching for Diffusion Distillation

该论文提出了一种名为 RMD 的跨分辨率分布匹配蒸馏框架，通过利用对数信噪比映射和预测噪声重注入机制，有效弥合了跨分辨率分布差异，从而在保持高视觉保真度的同时，显著加速了扩散模型的推理过程（如在 SDXL 和 Wan2.1-14B 上分别实现了高达 33.4 倍和 25.6 倍的加速）。

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

本文提出了 Place-it-R1 框架，通过利用多模态大语言模型的思维链推理能力来引导视频扩散模型，实现了能够感知环境、符合物理因果逻辑且支持用户灵活权衡“合理性”与“保真度”的视频物体插入。

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI