AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

本文提出了 AuthFace 框架,通过构建包含 1.5K 张 8K 级专业摄影图像的高质量数据集并引入摄影师指导的标注流程,微调文本到图像扩散模型以获取面向人脸的生成先验,同时结合时间感知的潜在人脸特征损失,实现了在盲人脸复原任务中兼具高保真度与丰富细节的真实感恢复。

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

该论文通过系统研究混合视觉编码器(MoVE)的融合设计,提出了一种名为 LEO 的轻量级架构,其采用独立投影器后融合、图块级序列交错及动态分块全局上下文等策略,在 11 个视觉语言基准测试和自动驾驶领域均展现出优于现有方法的性能与泛化能力。

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

该论文提出了 PoI 框架,通过结合 3D 高斯溅射与单步扩散模型生成新视角,并利用基于重投影误差的渐进式像素过滤策略剔除不可靠合成像素,从而有效解决了新视角合成数据在场景坐标回归任务中因几何失真导致的精度下降问题,实现了显著优于现有基线的视觉定位性能。

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

这篇综述系统梳理了大型多模态语言模型在文献检索、研究构思与实验、内容生成、多模态创作及科学评估等五大关键环节中的应用,深入探讨了相关数据集、方法、评估策略、局限性及伦理风险,旨在为“人工智能驱动科学”(AI4Science)领域的新进者提供指南并推动未来系统的整合与发展。

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

本文提出了 ECLARE 方法,这是一种无需外部训练数据的自超分辨率技术,通过利用从多切片 2D MR 体积中估计的切片轮廓和抗混叠机制,有效解决了临床成像中厚切片与层间间隙导致的各向异性分辨率问题,并在信号恢复及下游任务中优于现有方法。

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

本文介绍了 EarthScape,这是一个集成了数字高程模型、航空影像、多尺度地形特征及水文基础设施矢量数据的 AI 就绪多模态数据集,旨在通过统一可复现的流程解决地表地质制图工作流中劳动密集且难以扩展的问题,并提供了跨模态融合与域适应的基准评估。

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

本文提出了 FindAnything 框架,通过基于 eSAM 分割的物体级特征聚合,将视觉语言信息高效融入致密体素子地图,从而在显著降低计算与存储开销的同时,实现了适用于大型未知环境及资源受限设备(如微型飞行器)的实时开放词汇与物体中心建图。

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI