cs.CV 篇论文 | Gist.Science

Text-Driven Emotionally Continuous Talking Face Generation

该论文提出了名为“情感连续口型生成”（EC-TFG）的新任务及相应的 TIE-TFG 模型，旨在通过文本和动态情感描述驱动生成能够展现自然、平滑情感过渡的高保真说话人脸视频，从而解决现有方法难以模拟人类连续情感变化的问题。

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

该论文提出了一种名为"Lyapunov Probes"的轻量级方法，通过将大语言模型视为动力系统并引入基于导数的稳定性约束，利用扰动下的置信度单调衰减特性来有效区分事实性知识与幻觉区域。

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

本文提出了首个专注于深度感知的多模态大语言模型 DeepSight，通过构建深度指令数据集、改进 ViT 编码器以捕捉深度细微变化，并利用 GLPN 和 GPT-4 生成训练数据，显著提升了模型在三维场景理解及空间推理方面的能力。

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

该论文提出了一种针对静态场景视频的神经视频压缩新方法，通过引入“正向激励噪声”将短期时序变化与持久背景解耦，在保持像素级保真度的同时显著降低了数据传输量，实现了计算与带宽的高效权衡。

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

针对现有联邦域泛化行人重识别方法因依赖全局特征和简单平均聚合而导致的局部细节捕捉不足及高质量客户端贡献被稀释的问题，本文提出了 FedARKS 框架，通过鲁棒知识提取与知识选择机制实现更有效的模型聚合，从而在保护隐私的同时提升模型在未见域上的泛化能力。

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

Cross-Resolution Distribution Matching for Diffusion Distillation

该论文提出了一种名为 RMD 的跨分辨率分布匹配蒸馏框架，通过利用对数信噪比映射和预测噪声重注入机制，有效弥合了跨分辨率分布差异，从而在保持高视觉保真度的同时，显著加速了扩散模型的推理过程（如在 SDXL 和 Wan2.1-14B 上分别实现了高达 33.4 倍和 25.6 倍的加速）。

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

本文提出了 Place-it-R1 框架，通过利用多模态大语言模型的思维链推理能力来引导视频扩散模型，实现了能够感知环境、符合物理因果逻辑且支持用户灵活权衡“合理性”与“保真度”的视频物体插入。

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

该论文提出“空间色彩混合”作为视觉语言模型的感知压力测试，揭示了现有模型在面对结构化色彩失真时存在严重且无法通过单纯扩展语言模型规模来缓解的感知缺陷，而人类在此类任务中表现显著更优，并证明受人类启发的预处理策略可有效提升模型鲁棒性。

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

该论文提出了一种名为虚拟治疗（VT）的多模态生成框架，通过结合 CT 影像、临床变量及辐射剂量增量来模拟非小细胞肺癌（NSCLC）在放疗期间的纵向演变，并验证了基于扩散模型的方案在生成解剖学上更合理且稳定的肿瘤演化轨迹方面优于 GAN 基线，从而为 NSCLC 的虚拟治疗监测和自适应放疗研究提供了有力工具。

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

本文提出了 VLM-RobustBench 基准，通过涵盖 49 种增强类型和 133 种扰动设置，评估了主流视觉语言模型在多种图像失真下的鲁棒性，揭示了当前模型虽语义能力强但空间脆弱，且低严重度几何扰动（如玻璃模糊）往往比高严重度光度扰动造成更显著的性能下降。

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

该论文提出了名为“反思流采样”（RF-Sampling）的训练无关推理增强框架，通过形式化推导证明其能隐式执行文本 - 图像对齐得分的梯度上升，从而有效解决了现有增强策略在 FLUX 等流匹配模型上表现不佳的问题，并显著提升了生成质量、提示词对齐度及测试时扩展能力。

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

该论文提出了 FreeOcc，一种无需训练即可利用预训练基础模型从多视角图像中恢复语义与几何信息的管道，通过融合提示分割、3D 重建及确定性优化，在 Occ3D-nuScenes 数据集上实现了与弱监督方法相当的无监督全景占据预测性能，并显著提升了弱监督场景下的训练效果。

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

该论文提出了一种无需训练伪标签生成与标签精化的半监督框架，通过利用视觉语言模型基于外观描述跨域生成结构一致的伪标签，并结合不确定性加权融合与反向对比学习，在仅使用 2.5% 标注数据的情况下实现了与全监督模型相当的乳腺超声图像分割性能。

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

cs.CV

Text-Driven Emotionally Continuous Talking Face Generation

Lyapunov Probes for Hallucination Detection in Large Foundation Models

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

Cross-Resolution Distribution Matching for Diffusion Distillation

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Reflective Flow Sampling Enhancement

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Making Training-Free Diffusion Segmentors Scale with the Generative Power

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection