cs.CV 篇论文 | Gist.Science

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

本文提出了一种名为 SFDE 的轻量级网络，通过并行利用空间域与频域的多分支架构，有效解决了跨视角地理定位中因几何不对称和纹理不一致导致的特征匹配难题，并在多项实验中超越了现有最先进方法。

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

该论文针对多模态大语言模型在遥感视觉问答中因视觉定位失败导致的幻觉问题，提出了无需训练的 RADAR 推理方法，通过利用模型内在注意力机制引导渐进式定位与细粒度推理，有效提升了模型性能并减少了事实与逻辑幻觉。

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

本文提出了 HiLoRA，一种通过根、簇、叶三级分层低秩适配器结合正交约束与自适应聚类机制，以解决联邦学习中未见客户端泛化难题并提升个性化性能的视觉 Transformer 微调框架。

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

本文介绍了 UNICORN，这是一个旨在通过统一协议、标准化少样本评估及跨机构多模态数据集，系统评估医学基础模型在计算病理学、放射学和自然语言处理领域泛化能力的公开基准。

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

R3GW: Relightable 3D Gaussians for Outdoor Scenes in the Wild

本文提出了 R3GW 方法，通过利用两套高斯点分别建模前景的可重光照反射与天空的非反射背景，并结合物理渲染技术，实现了在任意光照条件下对野外户外场景进行高质量的重光照与新视角合成。

Margherita Lea Corona, Wieland Morgenstern, Peter Eisert + 1 more2026-03-04💻 cs

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

本文提出了名为 NOVA 的无需配对数据的视频编辑框架，通过结合用户编辑关键帧的稀疏控制与原始视频运动纹理的密集合成，并采用退化模拟训练策略，在无需大规模配对数据的情况下实现了高保真、运动一致且时序连贯的视频编辑效果。

Tianlin Pan, Jiayi Dai, Chenpu Yuan + 7 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

本文针对古代希腊批判版文本的复杂结构识别难题，构建了大规模合成语料与真实基准数据集，评估了视觉语言模型的表现并发现 Qwen3VL-8B 在微调后能以 1.0% 的中位字符错误率实现最先进的识别效果，揭示了当前模型在处理此类结构化历史文献时的局限与潜力。

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

本文提出了 ScribeTokens，一种将数字墨迹分解为固定 10 词表单元像素步长的新型分词方法，结合自监督的“下一墨迹词预测”预训练策略，在无需预训练的情况下实现了优于向量的手写识别性能，并在生成任务中大幅超越了传统向量表示。

Douglass Wang2026-03-04💻 cs

Scale-invariant Gaussian derivative residual networks

本文提出了一种由尺度协方差高斯导数残差块级联构成的尺度不变高斯导数残差网络（GaussDerResNets），通过引入残差连接在显著提升精度的同时保持优异的尺度泛化能力，并在多个重缩放数据集上验证了其跨尺度泛化与选择性能。

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

该研究通过探测实验发现，大型视觉语言模型中节点和全局结构信息在视觉编码器阶段即已线性可分，而边信息仅在语言模型的文本令牌中才形成线性表示，这种边信息的延迟涌现解释了模型在理解节点与边等关系时面临的困难。

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

本文提出了一种用于稀疏视图新视图合成的多模态先验引导重要性采样方法，通过融合光度、语义和几何先验来指导分层 3D 高斯泼溅的粗到细构建与保留策略，从而在减少过拟合和噪声的同时实现了 DTU 基准上领先的重建质量。

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark 提出了一种面向视频扩散模型的可扩展生成式盲提取水印框架，通过全局帧伪随机编码（GF-PRC）实现无需密钥存储的低成本盲提取，并借助针对因果 3D VAE 设计的片段组排序（SGO）模块显著增强了抗时序干扰的鲁棒性。

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

本文提出了 SemanticDialect，一种通过结合基于查找表的块级混合格式选择、激活分解残差校正以及语义感知的方言分配策略，在显著降低视频扩散 Transformer 计算与存储成本的同时，有效保持语义与时间一致性并逼近 FP16 生成质量的量化方法。

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

本文提出了 StegaFFD 框架，通过利用细粒度隐写术将人脸图像隐藏于自然载体中并在隐写域直接进行伪造检测，结合低频感知分解、空频差分注意力及隐写域对齐等创新机制，在有效保护隐私且避免引起攻击者怀疑的同时，显著提升了人脸伪造检测的准确率。

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

本文提出了 LLandMark 框架，这是一个专为处理复杂查询而设计的多智能体系统，通过集成地标感知推理、多模态检索及针对越南语场景优化的 OCR 与图像生成技术，实现了具有文化适应性和可解释性的交互式视频检索。

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

本文提出了 MVD-HuGaS 方法，通过利用在高质量数据集上微调的多视图扩散模型生成带有几何先验的图像，并结合相机姿态联合优化与基于深度的面部畸变抑制模块，实现了从单张图像到高质量自由视角 3D 人体渲染的突破。

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

3D-DRES: Detailed 3D Referring Expression Segmentation

本文提出了名为 3D-DRES 的新任务，旨在通过短语到 3D 实例的映射实现细粒度的 3D 视觉语言理解，并为此发布了包含短语级标注的 DetailRefer 数据集以及支持双模式分割的 DetailBase 基线模型。

Qi Chen, Changli Wu, Jiayi Ji + 2 more2026-03-04💻 cs

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

本文提出了基于残差矢量量化和轻量级骨干网络的渐进式生成图像压缩方法 ProGIC，该方法在实现与现有方法相当甚至更优的感知压缩性能（最高节省 57.57% 码率）的同时，显著提升了编解码速度并支持灵活的渐进式传输。

Hao Cao, Chengbin Liang, Wenqi Guo + 2 more2026-03-04💻 cs

Harmonic Beltrami Signature Network: a Shape Prior Module in Deep Learning Framework

本文提出了一种名为谐波贝尔特拉米签名网络（HBSN）的新型深度学习架构，该架构通过结合预空间变换网络、UNet 骨干和后空间变换网络，能够高效地从图像中提取具有平移、缩放和旋转不变性的形状特征，并作为通用模块嵌入现有分割模型中以利用形状先验信息提升性能。

Chenran Lin, Lok Ming Lui2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

本文提出了名为“运动中的关节”（AiM）的新框架，通过动态 - 静态解耦和无需先验知识的顺序 RANSAC 聚类，仅凭用户交互视频和初始 3D 扫描即可实现高保真度的可动物体部件分割、运动学分析及交互式 3D 数字重建。

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs