cs.CV 篇论文 | Gist.Science

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

该论文提出了一种结合自适应修剪策略与 3D 高斯差分原语的紧凑化 3D 高斯泼溅方法，通过动态优化修剪时机及利用正负密度联合建模，在显著减少高斯数量（最高达 90%）的同时保持了甚至提升了渲染质量。

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

本文提出了一种名为 TASOT 的无监督方法，通过将视频帧与文本信息结合并构建多模态最优传输问题，在不依赖大规模预训练或外部监督的情况下，显著提升了手术机器人视频中的时序分割性能。

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

本文提出了 HumanOrbit，一种基于视频扩散模型的单图 360°环绕视频生成方法，能够生成几何一致且保持身份特征的连续视角图像，并据此重建出高保真、高完整度的 3D 纹理网格。

Keito Suzuki, Kunyao Chen, Lei Wang + 5 more2026-03-02💻 cs

RAViT: Resolution-Adaptive Vision Transformer

本文提出了一种名为 RAViT 的分辨率自适应视觉 Transformer 框架，该框架通过多分支网络处理不同分辨率的图像副本并结合早期退出机制，在保持与经典 Vision Transformer 相当精度的同时，显著降低了计算成本（仅需约 70% 的 FLOPs）。

Martial Guidez, Stefan Duffner, Christophe Garcia2026-03-02🤖 cs.LG

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

该论文提出了一种在构建过程中兼顾高维属性流形与空间布局的超像素层次结构，解决了现有方法因忽视空间信息而导致图像区域与属性抽象不一致的问题，从而实现了对高维图像在图像空间与属性空间中的协同探索。

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

该论文提出了一种名为“全食视觉编码器”的新框架，通过联合优化多模态特征对齐与知识蒸馏目标，使原本在跨模态表征上表现不佳的 DINO 模型能够学习模态无关的特征空间，从而实现对 RGB、深度图等不同输入模态的一致且强大的场景理解。

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson + 5 more2026-03-02🤖 cs.AI

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

该论文提出了一种面向医疗图像分类的首个自动审计框架，通过扩展多模态表示的切片发现方法，有效解决了现有单模态或元数据分析在可解释性及捕捉隐藏系统性故障方面的局限性，并在 MIMIC-CXR-JPG 数据集上验证了其在故障发现与解释生成方面的卓越能力。

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

本文提出了名为 UMPIRE 的训练-free 不确定性量化框架，通过利用模型内部特征计算响应样本的“非一致性调整语义体积”，有效解决了多模态大语言模型在多种模态及分布外场景下现有不确定性指标受限的问题，显著提升了错误检测与校准性能。

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

本文提出了名为 SenCache 的敏感性感知缓存框架，通过分析模型输出对去噪输入扰动的敏感性来动态选择缓存时机，从而在无需训练的情况下显著提升了扩散视频生成模型的推理效率与视觉质量。

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

本文提出了 MuViT，一种专为显微镜多尺度分析设计的多分辨率 Transformer 架构，它通过将图像块嵌入共享的世界坐标系并扩展旋转位置编码，实现了在同一编码器中融合广域上下文与高分辨率细节，从而在多个基准测试中显著优于现有的 ViT 和 CNN 模型。

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

该论文提出了一种通过构建包含 8 万多对偏好数据的 SpatialReward-Dataset 并训练出超越现有领先模型的 SpatialScore 奖励模型，从而利用在线强化学习显著增强文本到图像生成模型空间理解能力的新方法。

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

本文提出了 GTASR，一种针对真实世界图像超分辨率的轻量级一致性训练范式，通过轨迹对齐策略和双重参考结构校正机制，有效解决了现有方法中的累积漂移与几何解耦问题，在保持极低延迟的同时实现了卓越的生成质量。

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

本文提出了一种名为潜在流形压缩（LMC）的无监督表示学习框架，通过显式压缩染色诱导的潜在流形来学习批次不变嵌入，从而有效消除组织病理学图像中的批次效应，显著提升了模型在跨批次分类和检测任务中的泛化性能。

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

本文提出了基于分层因果生成过程与分层金字塔 Transformer 的弱监督动作分割模型 HAL，通过利用高低层变量演化速率差异及稀疏过渡约束实现潜在动作变量的严格可辨识性，从而在多个基准测试中显著优于现有方法。

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

Mode Seeking meets Mean Seeking for Fast Long Video Generation

该论文提出了一种名为“模式寻求与均值寻求”（Mode Seeking meets Mean Seeking）的训练范式，通过解耦局部保真度与长期连贯性，利用全局流匹配头学习长视频叙事结构并结合局部分布匹配头对齐短视频教师模型，从而实现了快速生成高保真、长时程一致的视频。

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection

本文提出了一种名为 BSDM 的背景抑制扩散模型，通过利用伪背景噪声学习潜在分布、引入统计偏移模块实现跨域泛化，以及改进推理过程将背景视为噪声去除，从而在无标签样本条件下有效解决了高光谱异常检测中复杂背景干扰和模型泛化能力不足的问题。

Jitao Ma, Weiying Xie, Yunsong Li + 1 more2026-02-27💻 cs

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

本文提出了 StableMaterials，一种结合半监督学习与潜在扩散模型的新技术，通过对抗训练、扩散细化、潜在一致性蒸馏及平铺去噪技术，实现了仅需少量标注数据即可生成多样化、高分辨率且无缝的逼真物理渲染（PBR）材质。

Giuseppe Vecchio2026-02-27💻 cs

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

本文提出了 SGIFormer，一种通过语义引导混合查询初始化与几何增强交错 Transformer 解码器，在 ScanNet 等数据集上实现高精度且高效 3D 实例分割的新方法。

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture

该论文提出了一种基于参数高效适配的开放集人脸伪造检测方法，通过构建伪造风格混合策略增强模型泛化能力，并利用轻量级模块微调预训练 ViT 模型，在显著降低训练参数量的同时实现了跨未知伪造域的高性能检测。

Chenqi Kong, Anwei Luo, Peijun Bao + 5 more2026-02-27💻 cs

Abstracted Gaussian Prototypes for True One-Shot Concept Learning

本文提出了一种基于高斯混合模型的抽象高斯原型（AGP）框架，通过从单一样本中推断拓扑子部分并生成增强原型，在无需预训练或知识工程的情况下，实现了兼具分类与生成能力的“真正”单样本概念学习。

Chelsea Zou, Kenneth J. Kurtz2026-02-27🤖 cs.AI