cs.CV 篇论文 | Gist.Science

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

本文提出了 AuthFace 框架，通过构建包含 1.5K 张 8K 级专业摄影图像的高质量数据集并引入摄影师指导的标注流程，微调文本到图像扩散模型以获取面向人脸的生成先验，同时结合时间感知的潜在人脸特征损失，实现了在盲人脸复原任务中兼具高保真度与丰富细节的真实感恢复。

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

该论文提出了一种基于自一致性学习的轻量级自监督方法，无需额外数据集即可利用地震数据内部相关性实现高质量的不规则数据重建，有效解决了传统监督学习方法依赖外部数据及现有无监督方法约束不足的问题。

Mingwei Wang, Junheng Peng, Yingtian Liu, Yong Li2026-03-09🤖 cs.LG

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

PPLLaVA 提出了一种基于提示引导的池化策略，通过识别指令相关区域并自适应压缩视觉令牌，在显著降低计算开销（最高减少 18 倍）的同时，实现了在长视频理解任务中的高效推理与卓越性能。

Shangkun Sun, Ruyang Liu, Haoran Tang, Yixiao Ge, Haibo Lu, Jiankun Yang, Chen Li2026-03-09💻 cs

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

本文提出了 Ditto，一种基于扩散模型的实时可控说话人合成框架，通过引入运动空间扩散变换器、优化架构与训练策略以及建立运动表征与面部语义的映射，在显著提升推理速度和可控性的同时实现了低延迟的流式处理。

Tianqi Li, Ruobing Zheng, Minghui Yang + 2 more2026-03-09⚡ eess

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

该论文通过系统研究混合视觉编码器（MoVE）的融合设计，提出了一种名为 LEO 的轻量级架构，其采用独立投影器后融合、图块级序列交错及动态分块全局上下文等策略，在 11 个视觉语言基准测试和自动驾驶领域均展现出优于现有方法的性能与泛化能力。

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

本文提出了 FeatureGS 方法，通过引入基于特征值的几何损失项来优化 3D 高斯泼溅，从而显著提升了重建的几何精度、消除了漂浮伪影并大幅降低了存储需求，同时保持了与原始方法相当的渲染质量。

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

该论文提出了 PoI 框架，通过结合 3D 高斯溅射与单步扩散模型生成新视角，并利用基于重投影误差的渐进式像素过滤策略剔除不可靠合成像素，从而有效解决了新视角合成数据在场景坐标回归任务中因几何失真导致的精度下降问题，实现了显著优于现有基线的视觉定位性能。

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

这篇综述系统梳理了大型多模态语言模型在文献检索、研究构思与实验、内容生成、多模态创作及科学评估等五大关键环节中的应用，深入探讨了相关数据集、方法、评估策略、局限性及伦理风险，旨在为“人工智能驱动科学”（AI4Science）领域的新进者提供指南并推动未来系统的整合与发展。

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Escaping The Big Data Paradigm in Self-Supervised Representation Learning

该论文提出了 SCOTT 架构与 MIM-JEPA 训练框架，通过引入卷积归纳偏置并在潜在空间进行联合嵌入预测，成功证明了在无需大规模数据和预训练的情况下，仅凭小数据集即可训练出具有竞争力的自监督视觉表示，从而挑战了视觉领域依赖“大数据”范式的传统观念。

Carlos Vélez García, Miguel Cazorla, Jorge Pomares2026-03-09💻 cs

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

本文提出了名为 NAMI 的桥接渐进式整流流 Transformer，通过跨时空维度的多分辨率级联生成策略与 BridgeFlow 模块，在确保图像质量的同时将 1024 分辨率图像的推理时间减少了 64%。

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin2026-03-09💻 cs

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

本文提出了 ECLARE 方法，这是一种无需外部训练数据的自超分辨率技术，通过利用从多切片 2D MR 体积中估计的切片轮廓和抗混叠机制，有效解决了临床成像中厚切片与层间间隙导致的各向异性分辨率问题，并在信号恢复及下游任务中优于现有方法。

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

本文介绍了 EarthScape，这是一个集成了数字高程模型、航空影像、多尺度地形特征及水文基础设施矢量数据的 AI 就绪多模态数据集，旨在通过统一可复现的流程解决地表地质制图工作流中劳动密集且难以扩展的问题，并提供了跨模态融合与域适应的基准评估。

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

本文提出了一套基于对比敏感度、对比掩蔽和对比匹配等低层视觉心理物理原理的测试框架，用于评估 34 种现有图像和视频质量指标在模拟人类视觉感知方面的能力，并揭示了它们在预测特定视觉特性时的优势与局限。

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

本文提出了 FindAnything 框架，通过基于 eSAM 分割的物体级特征聚合，将视觉语言信息高效融入致密体素子地图，从而在显著降低计算与存储开销的同时，实现了适用于大型未知环境及资源受限设备（如微型飞行器）的实时开放词汇与物体中心建图。

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection

本文提出了 GenCLIP 框架，通过多层提示机制融合多尺度视觉特征、采用双分支推理策略平衡泛化性与特异性，并引入自适应文本过滤机制，从而显著提升了 CLIP 在未见类别上的零样本异常检测性能。

Donghyeong Kim, Chaewon Park, Suhwan Cho + 4 more2026-03-09💻 cs

Maximizing Asynchronicity in Event-based Neural Networks

本文提出了名为 EVA 的新型事件异步特征学习框架，该框架借鉴语言建模中的线性注意力与自监督学习技术，在保持事件相机高时效性优势的同时显著提升了特征表达力与泛化能力，并在识别与检测任务中超越了现有异步方法。

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

本文针对现有 AI 生成视频检测在数据、评估及可解释性方面的局限，提出了包含 20 万高质量视频的 GenBuster-200K 数据集、涵盖多场景演变的 GenBuster-Bench 基准以及基于强化学习的 BusterX 模型，通过将检测重构为视觉推理任务，实现了在检测精度与解释质量上的双重突破。

Haiquan Wen, Yiwei He, Zhenglin Huang + 7 more2026-03-09💻 cs

DVD-Quant: Data-free Video Diffusion Transformers Quantization

本文提出了 DVD-Quant，一种针对视频扩散 Transformer 的新型无数据量化框架，通过引入 BGR、ARQ 和 $\delta$ -GBS 三项创新技术，在无需校准数据的情况下实现了 W4A4 量化，在保持视频质量的同时使推理速度提升约 2 倍。

Zhiteng Li, Hanxuan Li, Junyi Wu, Kai Liu, Haotong Qin, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang2026-03-09💻 cs

Alchemist: Turning Public Text-to-Image Data into Generative Gold

该论文提出了一种利用预训练生成模型作为高影响力样本估计器的新方法，构建了名为 Alchemist 的紧凑且高效的通用监督微调数据集，显著提升了五种公开文生图模型的生成质量、多样性及风格保持能力，并公开了相关数据集与模型权重。

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin2026-03-09💻 cs

Instance Data Condensation for Image Super-Resolution

本文提出了一种专为图像超分辨率任务设计的实例数据压缩（IDC）框架，通过随机局部傅里叶特征提取与多级特征分布匹配技术，在仅使用 10% 数据量的情况下生成了性能媲美原始完整数据集的高质量合成训练数据。

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs