cs 篇论文 | Gist.Science

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

本文提出了 S2AM3D 框架，通过结合 2D 分割先验与 3D 一致性监督，利用点一致部分编码器和尺度感知提示解码器解决了现有 3D 点云部件分割中泛化性差和视图不一致的问题，并发布了大规模数据集以实现具有卓越鲁棒性和粒度可控性的分割性能。

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

Confidential, Attestable, and Efficient Inter-CVM Communication with Arm CCA

本文介绍了基于 Arm CCA 架构的 CAEC 系统，通过引入对 Hypervisor 不可见的机密共享内存（CSM）机制，在保持强隔离与可证明性的同时，显著解决了 CVM 间通信的性能瓶颈问题。

Sina Abdollahi, Amir Al Sadi, Marios Kogias, David Kotz, Hamed Haddadi2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

本文提出了 HiconAgent，一种通过动态上下文采样和锚点引导的历史压缩策略来优化历史上下文利用的 GUI 智能体，在显著降低计算成本的同时实现了优于更大规模模型的性能。

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

本文提出了 MAViD 框架，通过“指挥者 - 创作者”架构及结合自回归与扩散模型的双 DiT 结构，实现了能够生成身份、音色和语调一致且长时连贯的生动音视频对话交互。

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

该论文揭示了视觉大语言模型深层中存在“信息视界”现象，即视觉令牌信息随层数加深而逐渐均匀化直至消失，导致深层训练无关剪枝效果不优于随机剪枝，进而提出在深层结合随机剪枝的策略，在大幅降低计算成本的同时保持了模型的高性能。

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

IPPO Learns the Game, Not the Team: A Study on Generalization in Heterogeneous Agent Teams

该研究利用 HeMAC 环境发现，尽管缺乏多样化队友的训练，基于参数共享的 IPPO 基准方法在异构多智能体设置中仍能展现出与引入旋转策略训练（RPT）相当的泛化能力，表明其已习得基于游戏本质的通用协作策略而非过度拟合特定队友行为。

Ryan LeRoy, Jack Kolb2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

本文针对非结构化野外环境下的矢量路网提取难题，发布了大规模数据集 WildRoad 并提出了基于路径推理的 MaGRoad 框架，通过聚合多尺度视觉证据有效克服了现有节点中心方法的局限性，在显著提升野外场景拓扑精度的同时实现了更快的推理速度。

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

本文提出了无需训练的 ReMeDI-SAM3 方法，通过引入相关性感知记忆过滤、分段插值扩展及基于特征的时序投票重识别模块，有效解决了 SAM3 在手术视频分割中因频繁遮挡和长时重入导致的身份混淆问题，并在多个数据集上实现了超越现有训练方法的零样本性能提升。

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

该研究通过分析来自五个国家的 1000 名受访者的街景图像与主观感知数据，发现人口统计学特征和个性对绿视感知影响甚微，而居住地点（反映文化、环境及经验因素）是解释客观绿量与主观感知差异的最关键因素。

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

该论文针对单目 3D 语义场景补全中可见区域感知与遮挡区域推理相互干扰的问题，提出了一种通过离线可见区域标签提取策略分离监督信号，并采用可见 - 遮挡双解码器架构进行显式解耦与协同推理的 VOIC 方法，在多个基准测试中实现了最先进的性能。

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

该论文通过基于 Google BigQuery 的大规模实证研究，揭示了推理与非推理大语言模型在 Text-to-SQL 任务中的成本权衡，指出执行时间与云计费成本弱相关，且非推理模型因缺乏分区过滤等优化会导致高达 3.4 倍的成本波动，从而为企业部署提供了降低财务风险的关键指导。

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

NashOpt -- A Python Library for Computing Generalized Nash Equilibria

NashOpt 是一个开源 Python 库，利用 JAX 自动微分和混合整数线性规划等技术，通过联合 KKT 条件高效求解非线性及线性二次广义纳什均衡，并支持逆博弈与斯塔克尔伯格博弈设计问题。

Alberto Bemporad2026-03-10💻 cs

Toward a Physical Theory of Intelligence

本文提出了“守恒一致编码”（CCE）框架，将智能视为受守恒律约束的物理过程，通过推广兰道尔原理和 metriplectic 流，建立了连接热力学耗散、量子测量与宏观时空几何的统一理论，从而为理解自然与人工智能提供了物理约束和量化指标。

Peter David Fagan2026-03-10💻 cs

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

本文提出了 DrivingGen，这是首个针对自动驾驶生成式世界模型的综合基准，通过构建涵盖多样化场景的数据集和一套包含视觉真实感、轨迹合理性、时序一致性及可控性的新评估指标，解决了现有评估方法的局限性并揭示了当前模型的优劣权衡。

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Machine Learning Guided Cooling System Optimization for Data Center

本文提出了一种三阶段物理引导机器学习框架，利用 Frontier 超算一年的运行数据，通过构建单调性约束的代理模型识别并量化冷却系统能效浪费，进而证明在满足热安全约束的前提下，通过微调设定参数可回收高达 96% 的无效能耗。

Shrenik Jadhav, Zheng Liu2026-03-10💻 cs

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

本文提出了一种无需训练的“思维批处理”（BoT）方法，通过联合处理相关查询并利用多智能体反思架构（BoT-R）进行跨实例学习与一致性校验，在提升大语言模型推理准确率与置信度校准的同时，显著降低了推理成本。

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

本文提出了名为 R^4 的自改进智能体框架，通过路由、检索、反思与修复四个协同智能体，在不进行梯度微调的情况下显著提升了大型视觉语言模型在医学影像（如胸部 X 光）报告生成与弱监督检测任务中的准确性、安全性及空间定位能力。

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

cs