cs.CV 篇论文 | Gist.Science

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

本文提出了名为 BlackMirror 的通用无训练黑盒检测框架，通过镜像匹配与镜像验证机制分析指令与生成图像间的语义偏差及其稳定性，从而有效识别现有基于图像相似性方法难以检测的多样化文本到图像模型后门攻击。

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

本文提出了一种受整流流启发的 RAC 模型，通过利用整流流的直线路径实现可修正的多步解码与双向推理，在降低约 41% 参数和 70% 计算成本的同时，显著超越了现有最先进 VAE 的重建与生成性能。

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

本文提出了名为 RAID 的大规模驾驶场景数据集及一种弱监督风险感知框架，通过建模驾驶员意图与响应关系来识别潜在风险源，并在 RAID 和 HDDS 数据集上显著提升了风险识别性能。

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

本文提出了 TAR-ViTPose，一种专为视频 2D 人体姿态估计设计的时序聚合与恢复视觉 Transformer，通过引入关节中心时序聚合（JTA）和全局恢复注意力（GRA）机制，有效利用帧间时序信息以解决静态模型在遮挡和运动模糊等场景下的不稳定性问题，从而在 PoseTrack2017 基准上显著提升了精度并实现了更高的实时运行帧率。

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs

FTSplat: Feed-forward Triangle Splatting Network

FTSplat 提出了一种前馈三角形点阵网络，通过从多视图图像直接预测连续三角形表面，实现了无需单场景优化即可生成适用于机器人仿真的高保真、流形几何 3D 重建。

Xiong Jinlin, Li Can, Shen Jiawei, Qi Zhigang, Sun Lei, Zhao Dongyang2026-03-09💻 cs

OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

本文提出了名为 OD-RASE 的框架，通过结合领域本体、大型视觉语言模型与扩散模型，主动识别导致交通事故的道路结构并生成相应的基础设施改进方案及可视化图像，从而提升自动驾驶系统的安全性与适应性。

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

Facial Expression Recognition Using Residual Masking Network

该论文提出了一种结合深度残差网络与 U-Net 架构的残差掩蔽网络，利用分割网络优化特征图以增强注意力机制，从而在 FER2013 和 VEMO 数据集上实现了面部表情识别的当前最优性能。

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

本文提出了 SLER-IR 框架，通过球面分层专家路由、基于对比学习的球面均匀退化嵌入以及全局 - 局部粒度融合模块，有效解决了统一图像恢复中的特征干扰与专家专业化不足问题，并在多项基准测试中取得了优于现有最先进方法的性能。

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

Adaptive Radial Projection on Fourier Magnitude Spectrum for Document Image Skew Estimation

该论文提出了一种基于二维离散傅里叶幅度谱自适应径向投影的文档图像倾斜估计新方法，并发布了 DISE-2021 数据集以验证其性能，结果表明该方法在鲁棒性和准确性上均优于现有技术。

Luan Pham, Phu Hao Hoang, Xuan Toan Mai, Tuan Anh Tran2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

LucidNFT 提出了一种基于流匹配的生成式真实世界超分辨率多奖励强化学习框架，通过引入抗退化的语义一致性评估器（LucidConsistency）、解耦的优势归一化策略以及大规模真实退化数据集（LucidLR），有效解决了现有方法中语义幻觉、多奖励优化导致的优势坍缩及退化覆盖不足等关键问题，实现了感知质量与低分辨率锚定忠实度之间的更优平衡。

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

本文提出了 E-AdaPrune，一种基于视觉特征奇异值谱能量驱动的自适应视觉 Token 剪枝框架，它无需额外参数即可根据图像信息密度动态分配 Token 预算，在保持极低延迟的同时显著提升了多模态大模型的性能。

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

本文提出了 VINE 框架，通过构建空间 - 视图图来建模结构一致性，并利用判别性先验增强前景特征，从而在少样本分割任务中有效解决大视角变化下的结构错位与跨视图不一致问题。

Hongli Liu, Yu Wang, Shengjie Zhao2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

OVGGT 是一种无需训练的框架，通过自选择性缓存和动态锚点保护技术，在保持恒定显存与计算成本的同时，实现了任意长度视频流的高精度 3D 几何重建。

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

该论文提出了一种基于“分割后识别”两阶段策略的开放词汇目标识别框架，通过结合 CLIP 与 CNN/MLP 特征对齐及 SVD 降维技术，在无需复杂重训练和人工标注的情况下，于多个基准数据集上实现了超越现有最先进方法的训练免费识别性能。

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

该论文提出了一种名为“骨骼到图像编码”（S2I）的新方法，通过将骨骼序列转换为类图像格式，成功利用大规模预训练视觉模型进行自监督骨骼表征学习，有效解决了骨骼数据格式差异大及多模态动作识别中引入额外分支的难题，并在多个基准数据集上验证了其优越的泛化能力。

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

该论文针对开放词汇目标检测模型在极端低比特量化下性能严重下降的问题，提出了一种结合分阶段优化与文本中心关系知识蒸馏的“课程关系量化感知训练”（CR-QAT）框架，通过逐步量化和关系结构迁移有效缓解了误差累积并保持了细粒度对齐，在 LVIS 和 COCO 零-shot 基准上显著优于现有方法。

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

本文提出了 PROBE，一种无需学习的 LiDAR 三维地点识别描述子，它通过将鸟瞰图（BEV）单元建模为伯努利随机变量并利用极坐标雅可比行列式解析地边缘化连续平移，实现了跨传感器泛化且无需针对特定数据集进行调优，在多个数据集上取得了优于现有手工描述子的性能。

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

本文提出了 ProCap 框架，通过从静态图像对比转向动态过程建模，利用稀疏关键帧和可学习的过程查询来显式捕捉变化过程，从而生成更准确描述图像间差异及其发生方式的变化描述。

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

本文针对现有无人机多目标跟踪基准缺乏复杂动态场景的问题，提出了包含 42 个序列和超 170 万标注框的 DynUAV 基准，该基准通过引入剧烈自运动、尺度变化及运动模糊等挑战，揭示了当前最先进跟踪器的局限性并推动了真实场景下的研究进展。

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

该论文提出了一种通过双分支架构和 Gram 正则化损失直接最小化训练与推理分布差异，并结合动漫特定标签网络与 SDXL 微调来实现高分辨率、解耦且可控的参考图素描上色新框架，从而在质量和可控性上达到最先进水平。

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs