cs.CV 篇论文 | Gist.Science

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

本文提出了一种名为 CliReg 的新型确定性算法，通过利用特征对应关系兼容性图上的最大团搜索来替代传统的 RANSAC 验证，从而在 3D LiDAR SLAM 中实现了比 RANSAC 更鲁棒、更准确的闭环检测与位姿估计。

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

本文提出了一种基于 YOLOv11 检测器与多目标跟踪框架的视频分析系统，通过估算苏拉威西米鱼的游动方向和速度来实现鱼类健康监测，并在公开数据集上验证了其有效性。

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

该论文提出了面向移动胎儿超声分析的“选择性排斥知识蒸馏”方法，通过解构对比蒸馏并引入排斥机制，成功训练出仅 1140 万参数的轻量级模型，其在零-shot 生物测量有效性和脑切面分类性能上均超越了 3 亿参数的教师模型，并能在 iPhone 16 Pro 上实现 1.6 毫秒的实时推理。

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

RelaxFlow: Text-Driven Amodal 3D Generation

本文提出了无需训练的 RelaxFlow 框架，通过解耦刚性观测控制与松弛的结构提示控制，实现了在严格保持输入观测的同时，依据文本指令生成被遮挡区域的 3D 对象。

Jiayin Zhu, Guoji Fu, Xiaolu Liu + 3 more2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

本文提出了 SAIL 框架，通过跨模态对齐构建语义感知掩码以优化弱监督稠密视频描述中的事件定位，并引入基于大语言模型的跨掩码增强策略生成合成 caption 以缓解标注稀疏问题，从而在 ActivityNet Captions 和 YouCook2 数据集上实现了最先进的性能。

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

该论文提出了 CompACT 离散分词器，将每个观测压缩至仅 8 个 token，从而在保留规划所需关键信息的同时，显著降低了基于世界模型的决策规划计算成本，使其更适用于实时控制场景。

Dongwon Kim, Gawon Seo, Jinsung Lee + 2 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

本文提出了名为 NaiLIA 的多模态检索方法，旨在通过结合密集意图描述与调色板查询来克服现有视觉语言模型在复杂美甲设计检索中的局限，并在包含 10,625 张图像的大规模基准测试中取得了优于标准方法的性能。

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

RealWonder: Real-Time Physical Action-Conditioned Video Generation

RealWonder 是首个基于单张图像实现实时物理动作条件视频生成的系统，它通过将物理模拟作为中间桥梁，将连续动作转化为视觉表征，从而在仅需 4 步扩散的情况下实现 13.2 FPS 的生成速度，支持对刚性物体、可变形体、流体及颗粒材料等复杂物理交互的实时模拟。

Wei Liu, Ziyu Chen, Zizhang Li + 3 more2026-03-06🤖 cs.AI

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

本文提出了无需训练且与模型无关的“最长稳定前缀”（LSP）调度器，通过以原子方式吸收连续的稳定前缀来替代传统的碎片化接受机制，从而在保持生成质量的同时将扩散语言模型的推理速度提升高达 3.4 倍。

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

EdgeDAM: Real-time Object Tracking for Mobile Devices

本文提出了 EdgeDAM，一种专为移动设备设计的轻量级检测引导跟踪框架，通过双缓冲干扰感知记忆机制和基于置信度的切换策略，在严格资源约束下实现了兼具高精度抗干扰能力与实时性的单目标跟踪。

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

该论文提出了一种名为 HALP 的新方法，通过单次前向传播探测视觉语言模型（VLM）的内部表征（如查询令牌或视觉特征），在无需生成任何文本的情况下即可高效预测幻觉风险，从而为早期干预、选择性路由和自适应解码提供了可能。

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun + 1 more2026-03-06💻 cs

Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields

本文提出了一种结合稀疏视图技术与自适应加权损失函数的改进神经辐射场（NeRF）方法，利用长波红外高光谱图像实现了气体羽流的三维场景重建，并证明了其在气体检测任务中的有效性。

Scout Jarman, Zigfried Hampel-Arias, Adra Carr + 1 more2026-03-06💻 cs

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

本文提出了名为 MM-Lifelong 的长周期多模态数据集及递归多模态智能体（ReMA）基线，旨在解决现有模型在处理自然日常长视频时面临的上下文饱和与全局定位失效问题，从而推动多模态终身理解的研究。

Guo Chen, Lidong Lu, Yicheng Liu + 17 more2026-03-06💻 cs

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

本文提出了一种名为 CalibAtt 的免训练方法，通过离线校准识别并跳过视频生成扩散模型中冗余的时空注意力计算，从而在保持生成质量的同时实现了高达 1.58 倍的端到端加速。

Shai Yehezkel, Shahar Yadin, Noam Elata + 2 more2026-03-06💻 cs

FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning

FaceCam 提出了一种面向人脸的尺度感知相机控制方法，通过结合多视角工作室数据与在野单目视频训练，并采用合成运动与多视角拼接的数据生成策略，有效解决了现有方法在单目人脸视频生成中常见的几何畸变与尺度模糊问题，实现了高质量的定制化相机轨迹控制。

Weijie Lyu, Ming-Hsuan Yang, Zhixin Shu2026-03-06💻 cs

Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

本文提出了一种基于 Transformer 的实时 3D 流媒体图像修复方法，通过引入多视图感知架构与自适应策略，在稀疏多相机设置下有效解决了视图缺失导致的表面不完整问题，实现了质量与速度的最佳平衡。

Leif Van Holland, Domenic Zingsheim, Mana Takhsha + 4 more2026-03-06💻 cs

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference)

本文提出了一种名为“Volley Revolver"的新型矩阵编码方法，通过同态加密实现了在云端对加密 MNIST 图像进行高效的隐私保护卷积神经网络推理，仅需上传约 19.8 MB 的单个密文即可在 40 核云服务器上于 287 秒内完成 32 张图像的批量分类。

John Chiang2026-03-05💻 cs

Schrödinger's Camera: First Steps Towards a Quantum-Based Privacy Preserving Camera

该论文提出了一种基于量子态的隐私保护相机新设计，利用量子态在测量前兼具隐私与可用性的特性，并结合双深度 Q 学习算法在模拟中成功实现了对图像隐私与效用平衡的可控管理。

Hannah Kirkland, Sanjeev J. Koppal2026-03-05⚛️ quant-ph

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

本文提出了名为 GeoTop 的数学原理框架，通过融合拓扑数据分析与 Lipschitz-Killing 曲率，有效解决了诊断影像中良恶性结构拓扑等价但几何细节不同的难题，在皮肤病变分类等任务中显著提升了准确率并降低了误诊率，同时兼具可解释性与高效性。

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

本文提出了一种基于扩散模型的新方法，通过融合多尺度文本 - 视觉特征来解决开放词汇伪装实例分割（OVCIS）中目标与背景边界模糊的难题，从而实现对未见类别伪装目标的有效分割。

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI