Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

该论文针对现有文本生成图像评估中因偏好鲜艳风格而导致真实感不足的问题,提出了包含百万级数据的色彩保真度数据集(CFD)、基于多模态编码器的评估指标(CFM)以及无需训练的自适应色彩保真度优化方法(CFR),共同构建了一个用于评估和提升写实风格图像色彩真实性的渐进式框架。

Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-12💻 cs

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

本文通过计算机科学家与艺术史学家的跨学科合作,利用潜在空间分解、定量评估及因果分析等方法,揭示了视觉语言模型在识别艺术风格时提取的概念中有 73% 被判定为语义连贯且 90% 与风格预测相关,表明其识别机制在很大程度上与艺术史学家的判断标准相一致。

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

本文提出了 V2M-Zero,一种无需成对数据即可实现视频与音乐时间对齐生成的零样本方法,其核心在于利用跨模态共享的时序变化结构(通过模态内事件曲线捕捉),仅需微调文本转音乐模型并在推理阶段替换为视频事件曲线,即可在音频质量、语义对齐及时间同步性上显著超越现有基线。

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

该论文提出了一种将量化和稀疏化统一建模为加性噪声的框架,通过引入基于岭回归的去噪反量化变换来构建明确的梯度路径,从而解决了传统直通估计器在超低精度和稀疏训练中的不稳定性问题,实现了任意精度与稀疏度下的鲁棒训练并取得了最先进的性能。

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

Image Compression Using Novel View Synthesis Priors

该论文提出了一种利用先验任务信息和训练好的新视图合成模型,通过梯度下降优化潜在表示来生成可压缩差异的基于模型的图像压缩技术,旨在解决水下遥控机器人实时视觉反馈的带宽受限问题,并在人工海洋盆地数据集上验证了其优于现有方法的压缩率、图像质量及对场景中新物体的鲁棒性。

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan2026-03-11⚡ eess