cs 篇论文 | Gist.Science

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

本文提出了 AnyPcc 通用点云压缩框架，通过引入具备多粒度先验的通用上下文模型和实例自适应微调策略，有效解决了现有方法在跨密度场景及分布外数据上的泛化难题，在 15 个多样化数据集上实现了低复杂度下的最新压缩性能。

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

本文提出了一种结合主动机械臂搅拌与启发式置信度闭环控制的自动化方法，通过优化搅拌模式（四圈）和自适应调速策略，有效解决了水陷阱中害虫因遮挡导致的计数不准问题，显著降低了计数误差并缩短了任务执行时间。

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

本文提出了 CountFormer 框架，通过结合 DINOv2 自监督视觉基础模型与位置编码，在严格无样本设置下探索了利用视觉重复和结构特征提升类无关物体计数性能的有效性，并在 FSC-147 基准上取得了具有竞争力的结果。

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

本文提出了 LagMemo，一种利用语言 3D 高斯泼溅记忆构建统一 3D 语言记忆库的导航系统，通过高效查询与动态验证机制实现了多模态开放词汇及多目标视觉导航，并在其构建的 GOAT-Core 基准测试中显著超越了现有最先进方法。

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

SAGE 提出了一种无需微调的零样本方法，通过结合线稿与光流的结构引导及生成式合成技术，有效解决了在语义差异大或时间跨度长的多样化视频片段之间生成高质量、结构连贯过渡帧的难题。

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

MobiDock: Design and Control of A Modular Self Reconfigurable Bimanual Mobile Manipulator via Robotic Docking

本文提出了名为 MobiDock 的模块化自重构双臂移动机器人系统，该系统通过基于视觉的自主对接和螺纹锁紧机制将两个独立机器人物理连接为统一平台，从而将复杂的多机器人协同控制简化为单系统管理，显著提升了动态稳定性、操作精度及任务执行效率。

Xuan-Thuan Nguyen, Khac Nam Nguyen, Ngoc Duy Tran, Thi Thoa Mac, Anh Nguyen, Hoang Hiep Ly, Tung D. Ta2026-03-10💻 cs

Vectorized Online POMDP Planning

本文提出了向量化在线 POMDP 规划器（VOPP），这是一种利用张量表示和完全向量化计算来消除并行依赖与同步瓶颈的新型在线求解器，其计算效率比现有最先进并行求解器高出至少 20 倍，且在仅需千分之一规划预算的情况下性能优于最先进序列求解器。

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

该论文提出了一种名为“扩散回弹”的取证方法，通过分析图像在扩散模型重建过程中的感知相似性变化来检测 AI 生成图像，在 4000 张图像数据集上实现了 0.993 的 AUROC 高精度，并展现出对压缩和噪声等常见失真的鲁棒性。

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

PhantomFetch: Obfuscating Loads against Prefetcher Side-Channel Attacks

本文提出了首个名为 PhantomFetch 的硬件无关防御方案，通过混淆敏感加载效应来阻断 IP 步长预取器侧信道攻击，在无需硬件修改且保持预取性能的同时，以极小开销实现了安全加固。

Xingzhi Zhang, Buyi Lv, Yimin Lu, Kai Bu2026-03-10💻 cs

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

本文针对高斯泼溅（GS）重建质量评估的挑战，提出了一种模拟人类真实观看行为的多距离主观评估方法，并构建了首个考虑输入数据多重不确定性的 MUGSQA 数据集及相应基准，旨在全面评估不同 GS 方法的鲁棒性及现有质量指标的准确性。

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

本文提出了名为 CountOCC 的开放世界遮挡计数框架，通过分层多模态引导重建被遮挡物体的特征并引入视觉等价目标，有效解决了现有方法在遮挡场景下的失效问题，并在多个数据集上实现了显著的性能提升。

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-Making

该论文提出了名为 LAMP 的语言增强多智能体策略框架，通过“思考 - 表达 - 决策”流程将非结构化语言信息融入经济决策，显著提升了多智能体强化学习在模拟经济环境中的累积收益、鲁棒性及可解释性。

Heyang Ma, Qirui Mi, Qipeng Yang, Zijun Fan, Bo Li, Haifeng Zhang2026-03-10💻 cs

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

本文提出了 Video2Layout 框架，通过利用连续物体边界坐标构建度量级认知地图，替代传统的离散网格表示，从而显著提升了多模态大语言模型在空间推理任务中的精度与泛化能力。

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

本文提出了一种名为 MOMNet 的无对齐多阶匹配网络，通过联合执行零阶、一阶和二阶匹配来自适应检索并整合与深度图一致的 RGB 信息，从而在无需严格对齐的情况下实现了鲁棒且领先的深度超分辨率性能。

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

本文提出了一种名为 DualMindVLM 的视觉语言模型，通过利用预训练模型对不同任务自然响应长度的差异，结合 GRPO 算法构建显式的双模式思维机制，使其能根据问题复杂度自主或手动选择快速直觉或慢速推理模式，从而在显著提升视觉推理性能的同时实现了高效的 Token 利用。

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

本文提出了一种辐射结构化神经算子（RSNO），通过结合物理先验、神经算子连续映射及角一致性投影（ACP）优化，实现了从多光谱图像到连续且物理一致的高光谱图像的超分辨率重建。

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

本文提出了 UnfoldLDM，一种将深度展开网络与潜在扩散模型相结合的新型盲图像恢复框架，通过多粒度退化感知模块估计未知退化，并利用抗退化扩散先验与过平滑校正 Transformer 协同解决现有方法对退化模型的依赖及纹理过平滑问题，从而在多种盲恢复任务中实现领先性能。

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Privacy Concerns and ChatGPT: Exploring Online Discourse through the Lens of Information Practice on Reddit

本研究基于信息实践理论，通过分析 Reddit 上 426 篇帖子和 1900 条评论，揭示了用户如何通过风险警示、规范建立、无奈接受以及集体排查和倡导隐私保护替代方案等话语与实践，在集体层面协商并应对 ChatGPT 引发的隐私担忧。

S M Mehedi Zaman, Saubhagya Joshi, Yiyi Wu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

本文提出了一种结合高效视觉检测、轻量级多目标跟踪、GNSS 三角测量及置信度加权扩展卡尔曼滤波的多无人机系统，通过跨无人机 ID 对齐算法实现了海洋机器人在水面及近水面环境下的稳定、实时且高精度的全局跟踪。

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

本文提出了 Yo'City，一种利用大模型推理与组合能力的智能体框架，通过“城市 - 街区 - 网格”分层规划、基于自批评的图像合成循环以及关系引导的扩展机制，实现了个性化且无限可扩展的逼真 3D 城市场景生成。

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs