cs 篇论文 | Gist.Science

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

本文提出了 $π^3$ ，一种无需固定参考视图、采用全排列等变架构的自监督前馈神经网络，通过直接预测仿射不变相机姿态和尺度不变局部点图，在相机位姿估计、单目/视频深度估计及稠密点云重建等任务中实现了最先进的性能。

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

本文提出了一种基于 Vision Transformer 的深度学习框架，利用主成分分析扩展少量标注数据并融合多源遥感影像，以在缺乏精确地面真值的情况下提升灾后受灾区域分割的平滑度与可靠性，从而增强台湾太空总署的紧急增值产品（EVAP）效能。

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Auto-scaling Approaches for Microservice Applications: A Survey and Taxonomy

本文针对微服务应用自 2018 年以来在复杂交互与动态负载下的自动扩缩容挑战，系统综述了最新方法，并从基础设施、架构、扩缩容策略、优化目标及行为建模五个维度构建了分类体系，旨在平衡资源效率、成本与 SLA 保障。

Minxian Xu, Junhan Liao, Linfeng Wen, Huaming Wu, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs

本文提出了 BrownoutServe 框架，通过引入“联合专家”机制和动态褐出（Brownout）策略，有效解决了混合专家（MoE）大模型在突发负载下的静态部署效率低与 SLO 保障难的问题，显著提升了吞吐量并大幅降低了 SLO 违规率。

Jianmin Hu, Minxian Xu, Kejiang Ye + 1 more2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

本文针对大规模混部微服务集群中的资源竞争与干扰问题，提出并实现了基于 CPI 高精度预测的开源平台 C-Koordinator，有效提升了资源利用率并将应用延迟降低了 16.7% 至 36.1%。

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

本文提出了一种结合神经形态相机与滚动机制的新型触觉传感器，利用事件驱动多视图立体视觉和贝叶斯融合策略，实现了在 0.5 m/s 高速下对大型工业表面进行亚毫米级精度的连续 3D 扫描，其速度比现有连续触觉传感方法快 11 倍。

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

Dynamic Symbolic Execution for Semantic Difference Analysis of Component and Connector Architectures

本文研究了动态符号执行在 MontiArc 组件与连接器架构语义差异分析中的应用，通过增强模型生成器收集运行时数据以识别关键执行路径，评估了多种执行策略并指出该方法虽具潜力但受限于可扩展性。

Johanna Grahl, Bernhard Rumpe, Max Stachon, Sebastian Stüber2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

本文提出了 MIDAR，一种基于几何感知图 Transformer 的代理 LiDAR 检测模型，它利用微观交通模拟器中的高层特征高效模拟真实的感知效果（包括遮挡和误检），从而在保持低计算成本的同时显著提升了大规模智能交通系统仿真中自动驾驶车辆感知建模的准确性与实用性。

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

本文提出了一种结合自注意力机制与可解释性可视化的混合 TransUNet-GradCAM 模型，通过融合 Transformer 的全局上下文建模能力与 U-Net 的精细空间定位优势，在多个数据集上实现了具有强泛化能力和高临床相关性的糖尿病足溃疡自动分割。

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

本文提出了 S²Q-VDiT 框架，通过结合感知 Hessian 的显著数据选择与注意力引导的稀疏令牌蒸馏技术，成功解决了视频扩散 Transformer 在量化过程中面临的长序列校准方差高与学习困难问题，实现了 W4A6 量化下的无损性能、3.9 倍模型压缩及 1.3 倍推理加速。

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

本文提出了首个面向光谱遥感影像地物提取的多模态大语言模型 SPEX，通过构建融合光谱先验的指令数据集（SPIE）并引入多尺度特征聚合等创新策略，显著提升了多光谱场景下的地物分类精度与可解释性。

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

本文首次评估了 3D 高斯泼溅技术在 200°超广角鱼眼图像上的表现，发现 160°视场角效果最佳，并创新性地引入 UniK3D 深度估计替代传统 SfM 初始化，成功解决了极端畸变及恶劣天气下的重建难题。

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Experimental Validation of Provably Covert Communication Using Software-Defined Radio

本文利用软件定义无线电（SDR）首次实现了射频环境下基于平方根律的数学可证明隐蔽通信实验验证，填补了该领域除光通信外的研究空白并推动了其实际部署。

Rohan Bali, Trevor E. Bailey, Michael S. Bullock, Boulat A. Bash2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

该论文提出了一种统一且语义 grounded 的医学图像分割域适应框架，通过构建域无关的解剖学概率流形来解耦图像内容，从而在不依赖显式跨域对齐策略的情况下，在源数据可访问和源数据不可访问两种设置下均实现了具有内在适应性的最先进性能。

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

本文提出了 Video-EM，一种无需训练的事件中心式情节记忆框架，通过利用大语言模型作为主动代理来构建、精炼并验证连贯的事件时间线，从而有效解决现有视频大模型在处理长视频时因上下文限制和孤立帧选择导致的叙事断裂与冗余问题。

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

本文提出了首个统一框架 UniUGG，通过结合大语言模型、潜在扩散模型解码器以及几何 - 语义预训练策略，实现了在 3D 模态下对场景的生成、想象及空间视觉问答任务的统一理解与生成。

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

UniCast: A Unified Framework for Instance-Conditioned Multimodal Time-Series Forecasting

本文提出了 UniCast，一种通过实例条件提示和动态模态路由机制，在冻结的时间序列基础模型上实现参数高效的多模态融合与实例自适应预测的统一框架。

Sehyuk Park, Soyeon Caren Han, Eduard Hovy2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

本文提出了 PhysGM 框架，通过结合预训练的物理感知重建模型与直接偏好优化（DPO），并辅以新构建的 PhysAssets 数据集，实现了仅需单张图像即可在一分钟内完成高保真 4D 物理模拟与渲染的端到端前馈生成。

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

本文提出了一种结合分层时序剪枝策略的高效扩散模型框架，通过时序相关性增强、稀疏注意力机制及语义剪枝技术，在显著降低计算成本并大幅提升推理速度的同时，实现了 3D 人体姿态估计的顶尖性能。

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

PointSlice 提出了一种将点云切片为 2D 数据并结合切片交互网络（SIN）的新型表示方法，在 Waymo、nuScenes 和 Argoverse 2 等数据集上实现了检测精度与推理效率的卓越平衡。

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

cs

π3\pi^3π3: Permutation-Equivariant Visual Geometry Learning