cs.CV 篇论文 | Gist.Science

GaussianPile: A Unified Sparse Gaussian Splatting Framework for Slice-based Volumetric Reconstruction

GaussianPile 是一种统一的稀疏高斯泼溅框架，它通过结合切片感知堆叠策略、可微投影算子及联合优化流程，实现了针对切片式体积成像的高效压缩重建，在显著降低存储与计算成本的同时保留了高频内部细节并大幅提升了处理速度。

Di Kong, Yikai Wang, Wenjie Guo, Yifan Bu, Boya Zhang, Yuexin Duan, Xiawei Yue, Wenbiao Du, Yiman Zhong, Yuwen Chen, Cheng Ma2026-03-24💻 cs

ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework

该论文提出了完全开源的 ScaleEditor 多智能体框架，成功构建了迄今规模最大的开源图像编辑数据集 ScaleEdit-12M（包含 1200 万数据及 23 种任务类型），并通过微调实验证明该方法能以低成本实现媲美商业级数据的质量，显著提升统一多模态模型在各类图像编辑基准上的性能。

Guanzhou Chen, Erfei Cui, Changyao Tian, Danni Yang, Ganlin Yang, Yu Qiao, Hongsheng Li, Gen Luo, Hongjie Zhang2026-03-24💻 cs

A Multihead Continual Learning Framework for Fine-Grained Fashion Image Retrieval with Contrastive Learning and Exponential Moving Average Distillation

本文提出了一种名为 MCL-FIR 的多头持续学习框架，通过结合对比学习与指数移动平均蒸馏技术，有效解决了细粒度时尚图像检索在动态场景下面临的类别增量学习难题，在显著降低训练成本的同时实现了与静态方法相当的性能。

Ling Xiao, Toshihiko Yamasaki2026-03-24🤖 cs.AI

Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning

该论文通过构建 CogVSR 数据集和探针框架，揭示了视觉语言模型中负责空间推理的注意力头具有稀疏性和功能特异性，并证实通过干预这些功能头可显著提升模型的空间理解与推理能力。

Xueqi Ma, Shuo Yang, Yanbei Jiang, Shu Liu, Zhenzhen Liu, Jiayang Ao, Xingjun Ma, Sarah Monazam Erfani, James Bailey2026-03-24🤖 cs.AI

ToFormer: Towards Large-scale Scenario Depth Completion for Lightweight ToF Camera

该论文提出了一种面向短程 ToF 相机的全栈式框架，通过构建首个大规模场景深度补全数据集（LASER-ToF）并设计融合 3D-2D 联合传播池化与多模态交叉协方差注意力的轻量化网络，有效解决了 ToF 相机在大规模场景下的测距局限，实现了高精度的深度补全与实时机器人部署。

Juncheng Chen, Tiancheng Lai, Xingpeng Wang, Bingxin Liao, Baozhe Zhang, Chao Xu, Yanjun Cao2026-03-24💻 cs

IBCapsNet: Information Bottleneck Capsule Network for Noise-Robust Representation Learning

本文提出了基于信息瓶颈原理的 IBCapsNet 模型，通过引入单次变分聚合机制替代传统的迭代路由，在保持与 CapsNet 相当清洁数据精度的同时，显著提升了模型在噪声环境下的鲁棒性，并实现了更快的训练推理速度及更少的参数量。

Canqun Xiang, Chen Yang, Jiaoyan Zhao2026-03-24💻 cs

MFSR: MeanFlow Distillation for One Step Real-World Image Super Resolution

本文提出了 MFSR 框架，通过利用 MeanFlow 作为学习目标并结合教师 CFG 蒸馏策略，实现了在单步推理下即可生成媲美多步模型的高质量真实世界图像超分辨率结果，同时保留了通过增加步数进一步优化图像质量的灵活性。

Ruiqing Wang, Kai Zhang, Yuanzhi Zhu, Hanshu Yan, Shilin Lu, Jian Yang2026-03-24💻 cs

Satellite-to-Street: Synthesizing Post-Disaster Views from Satellite Imagery via Generative Vision Models

该论文提出了一种利用视觉语言模型引导和损伤敏感混合专家策略，从卫星图像合成灾后街景的生成式方法，并通过多维评估框架揭示了在感知逼真度与关键结构信息保真度之间存在显著权衡，为灾后评估中的跨视角合成奠定了可信基准。

Yifan Yang, Lei Zou, Wendy Jepson2026-03-24🤖 cs.AI

Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs

本文提出了名为 CogAlign 的新框架，通过构建分层临床认知数据集进行监督微调以对齐专家诊断逻辑，并引入基于反事实推理的强化学习策略以消除视觉偏差、确保诊断基于因果病灶特征，从而在胃肠内镜诊断中实现了最先进的性能。

Huan Zheng, Yucheng Zhou, Tianyi Yan, Dubing Chen, Hongbo Lu, Wenlong Liao, Tao He, Pai Peng, Jianbing Shen2026-03-24💬 cs.CL

High-Quality and Efficient Turbulence Mitigation with Events

该论文提出了一种名为 EHETM 的高效湍流抑制方法，利用事件相机捕捉到的极性交替梯度和动态物体“事件管”特征，在显著降低数据开销与系统延迟的同时，实现了高质量且适用于动态场景的图像恢复。

Xiaoran Zhang, Jian Ding, Yuxing Duan, Haoyue Liu, Gang Chen, Yi Chang, Luxin Yan2026-03-24💻 cs

← 上一页下一页 →