cs 篇论文 | Gist.Science

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

本文提出了一种名为“见即说，即排好”（See It, Say It, Sorted）的轻量级、无需训练且即插即用的迭代框架，通过在推理过程中动态引入视觉证据池来监督每一步生成，从而有效抑制多模态大模型中的视觉幻觉传播并显著提升推理准确率。

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

本文提出了 ARLArena 框架以系统分析智能体强化学习（ARL）的稳定性问题，并基于此设计了能显著缓解训练不稳定的 SAMPO 方法，为构建稳定且可复现的 LLM 智能体训练流程提供了统一视角与实践指导。

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

该论文提出了一种利用语言模型将图像和视频的语义分割掩码离散化为游程编码（RLE）序列的新方法，通过创新的令牌化策略有效压缩序列长度并支持实例信息以进行全景分割，在有限计算资源下实现了具有竞争力的性能。

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

EmoOmni: Bridging Emotional Understanding and Expression in Omni-Modal LLMs

本文提出了 EmoOmni 框架，通过引入情感思维链（E-CoT）机制解决现有全模态大模型在复杂场景下情感理解浅层化及表达不匹配的问题，并配套构建了数据集与评估基准，实现了在较小参数量下媲美更大规模模型的情感对话性能。

Wenjie Tian, Zhixian Zhao, Jingbin Hu, Huakang Chen, Haohe Liu, Binshen Mu, Lei Xie2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

CryoNet.Refine 是一种基于单步扩散模型的深度学习框架，它通过整合密度感知损失函数与立体化学约束，实现了比传统方法更快速、自动化且高质量的冷冻电镜结构模型优化。

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

本文提出“氛围研究”（vibe researching）概念，通过构建认知任务框架界定 AI 智能体在社会科学研究中的能力边界，论证其虽能大幅加速研究流程并辅助方法实施，但在理论原创性与隐性知识方面仍无法替代人类学者，进而警示了该变革带来的职业分层风险与教学危机。

Yongjun Zhang2026-03-10💻 cs

Decomposing Physician Disagreement in HealthBench

该研究通过分解 HealthBench 数据集中的医师分歧发现，尽管大部分分歧源于病例本身的结构性特征且难以通过常规元数据消除，但区分“可消除的不确定性”（如信息缺失）与“不可消除的不确定性”（如固有医学模糊性）为优化评估设计提供了关键方向，即通过填补信息缺口可在不增加固有模糊性的情况下降低分歧。

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

本文提出了无需训练的 WISER 框架，通过“检索 - 验证 - 优化”流程统一文本到图像和图像到图像两种检索范式，利用更广泛的搜索、自适应融合及基于自我反思的深度思考机制，显著提升了零样本组合图像检索的性能。

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

本文提出了 PackUV，一种将 4D 高斯属性映射为结构化 UV 图集的新型表示法，配合其时间一致性拟合算法 PackUV-GS 及新发布的包含 20 亿帧的大规模数据集 PackUV-2B，实现了兼容标准视频编码的高效、高质量长序列体素视频重建与流式传输。

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

On Sample-Efficient Generalized Planning via Learned Transition Models

本文提出了一种基于学习显式转移模型的广义规划方法，通过让神经网络自回归预测中间世界状态而非直接预测动作序列，在多个领域中以更少的训练样本和更小的模型实现了比直接动作预测更强的分布外泛化能力。

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

本文提出了名为 HART 的闭环框架，通过设计无需外部标注的 AP-GRPO 后训练范式，使大语言模型能够自主聚焦并验证高分辨率图像中的关键区域，从而在无需人工标注的情况下显著提升视觉推理性能。

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

PEPA: a Persistently Autonomous Embodied Agent with Personalities

本文提出了 PEPA，一种通过三层认知架构利用人格特质作为内在组织原则，使具身智能体能够在无需外部任务指令的情况下自主生成目标并实现持久自主运行的机器人系统。

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

该论文提出了无限自注意力（InfSA）及其线性变体 Linear-InfSA，通过将注意力层重构为基于折扣 Neumann 级数的扩散过程，在实现线性时间复杂度、支持超高分辨率推理的同时，显著提升了视觉 Transformer 的准确率与能效。

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

该论文提出了包含 1.6M 视频的大规模数据集 Actor-18M 及 WildActor 框架，通过非对称身份保持注意力机制和视点自适应蒙特卡洛采样策略，实现了在动态视角、大幅运动及复杂构图下严格保持全身身份一致性的无约束视频生成。

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

该立场论文主张，视觉处理系统的评估范式应从过度依赖单一客观指标转向以人为中心、具备情境感知能力的综合评价体系，以解决现有指标与人类感知及用户偏好日益脱节的问题，从而避免误导研究进展并释放创新潜力。

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

Sustainable Care: Designing Technologies That Support Children's Long-Term Engagement with Social Issues

该研讨会提出“可持续关怀”设计视角，旨在通过跨学科协作探索如何设计支持儿童长期参与社会议题的技术，以避免因恐惧驱动的内容导致其产生共情倦怠或退缩。

JaeWon Kim, Aayushi Dangol, Rotem Landesman, Alexis Hiniker, McKenna F. Parnes2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

本文提出了 DeAR 框架，通过解构深层注意力头的功能角色（属性、泛化与混合），利用概念熵指标分类并隔离泛化头与任务特定知识，从而在保持零样本泛化能力的同时实现了视觉语言模型的细粒度适配。

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

Digital Twin-Based Cooling System Optimization for Data Center

本文针对 Frontier 超算的液冷系统构建了基于 Modelica 的数字孪生模型，并通过分层优化框架量化分析发现，在考虑执行器速率约束的情况下，联合优化流量与供水温度相比单纯流量优化能将节能效果从 20.4% 提升至 27.8%，显著缩小了理论最优与可部署策略之间的差距。

Shrenik Jadhav, Zheng Liu2026-03-10💻 cs

Extended Empirical Validation of the Explainability Solution Space

该技术报告通过引入城市资源分配新案例，跨领域验证了可解释性解决方案空间（ESS）框架的通用性，证明其能根据治理角色、风险特征及利益相关者配置系统性地调整可解释 AI 策略，从而成为适用于各类社会技术系统的通用决策支持工具。

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano2026-03-10💻 cs

Energy Efficient Traffic Scheduling For Optical LEO Satellite Downlinks

本文针对光学低轨卫星下行链路受天气影响导致的能效问题，提出了阈值、启发式排序及强化学习等静态与自适应调度方案，在权衡交付率与能效的同时发现自适应技术虽提升了动态环境下的性能，但增加了计算复杂度。

Ethan Fettes, Pablo G. Madoery, Halim Yanikomeroglu, Gunes Karabulut Kurt, Abhishek Naik, Stéphane Martel2026-03-10💻 cs