cs 篇论文 | Gist.Science

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

该论文通过名为 M2RL 的研究，系统对比并分析了大语言模型在多领域强化学习验证奖励（RLVR）任务中“混合多任务训练”与“分域训练后模型融合”两种范式的表现，发现跨领域 RLVR 干扰极小且推理密集型领域存在协同增益，并从权重空间几何等角度揭示了其内在机制。

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

本文提出了 SkillsBench 基准，通过 86 个跨领域任务评估发现，精心策划的 Agent 技能能显著提升大语言模型的平均通过率（+16.2%），且小模型借助技能可媲美无技能的大模型，但模型自主生成的技能往往无效，且技能效果在不同领域间存在显著差异。

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

State Feedback Control of State-Delayed LPV Systems using Dynamic IQCs

本文提出了一种结合参数依赖李雅普诺夫函数与动态积分二次约束（IQC）的新框架，用于设计具有时变状态延迟的线性变参数（LPV）系统的状态反馈控制器，通过凸优化条件实现了降低保守性并提升闭环性能的目标。

Fen Wu2026-03-10💻 cs

Social Life of Code: Modeling Evolution through Code Embedding and Opinion Dynamics

本文提出了一种结合代码嵌入与意见动力学理论的新方法，通过量化分析开源项目中代码语义演化与开发者意见轨迹，揭示了协作模式、共识形成及开发者影响力等潜在的社会动态。

Yulong He, Nikita Verbin, Sergey Kovalchuk2026-03-10💻 cs

RIS Control through the Lens of Stochastic Network Calculus: An O-RAN Framework for Delay-Sensitive 6G Applications

本文提出了一种符合 O-RAN 标准的延迟感知 RIS 编排器（DARIO）框架，该框架利用随机网络演算模型动态分配 RIS 设备，以在满足异构用户延迟与可靠性需求的同时，显著降低 6G 上行链路的通信延迟。

Oscar Adamuz-Hinojosa, Lanfranco Zanzi, Vincenzo Sciancalepore, Marco Di Renzo, Xavier Costa-Pérez2026-03-10💻 cs

Graph Neural Model Predictive Control for High-Dimensional Systems

本文提出了一种将图神经网络动力学模型与利用结构特性的模型预测控制相结合的框架，通过图表示和定制化的消元算法实现了高维系统（如软体机器人）的实时高效控制，并在仿真与硬件实验中验证了其在千节点规模下的高精度跟踪与避障能力。

Patrick Benito Eberhard, Luis Pabon, Daniele Gammelli, Hugo Buurmeijer, Amon Lahr, Mark Leone, Andrea Carron, Marco Pavone2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

本文提出了 3DMedAgent，这是一种通过协调异构工具并利用长期结构化记忆，使现有的 2D 多模态大语言模型无需 3D 微调即可执行从感知到理解的渐进式 3D CT 分析的统一智能体，并在 DeepChestVQA 基准及 40 多项任务中展现了超越现有模型的卓越性能。

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

本文提出了 OVerSeeC，一种基于“理解 - 定位 - 合成”模块化流程的零-shot 框架，能够利用大语言模型和开放词汇分割技术，直接从卫星图像和自然语言指令中生成适应未知实体与复杂任务偏好的全局代价图，从而实现可扩展的自主导航规划。

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

On the Energy Cost of Post-Quantum Key Establishment in Wireless Low-Power Personal Area Networks

本文以蓝牙低功耗平台为例，通过真实硬件验证发现后量子密钥交换中的通信开销往往超过计算成本，从而指出实现高效量子安全组网需协同优化协议配置与底层通信机制。

Tao Liu, Gowri Ramachandra, Raja Jurdak2026-03-10💻 cs

ABD: Default Exception Abduction in Finite First Order Worlds

本文介绍了 ABD 基准，旨在评估前沿大语言模型在有限一阶世界中通过稀疏异常假设恢复可满足性的默认 - 异常归因能力，揭示了模型在有效性上的高表现与稀疏性差距及跨场景泛化失败模式。

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

本文针对开放词汇语义分割在未见域和未见类别上的泛化难题，提出了首个自动驾驶领域的开放词汇域泛化（OVDG-SS）基准，并设计了基于状态空间的 S2-Corr 机制以修正文本 - 图像关联失真，从而显著提升了模型在复杂城市场景中的跨域鲁棒性。

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

本文介绍了名为 INDUCTION 的基准测试，旨在评估大语言模型在有限结构中进行一阶逻辑概念合成的能力，通过精确模型检查验证公式正确性，并揭示了不同模型在任务难度、公式简洁性及泛化策略上的显著差异。

Serafim Batzoglou2026-03-10💻 cs

SKYLIGHT: A Scalable Hundred-Channel 3D Photonic In-Memory Tensor Core Architecture for Real-time AI Inference

本文提出了一种名为 SKYLIGHT 的可扩展三维光子存内张量核心架构，通过共设计拓扑、波长路由、信号累加及编程机制，实现了支持实时推理与本地学习的百通道光子 AI 加速器，在能效和推理速度上显著超越现有 GPU 方案并展现出对硬件非理想性的强鲁棒性。

Meng Zhang, Ziang Yin, Nicholas Gangi, Alexander Chen, Brett Bamfo, Tianle Xu, Jiaqi Gu, Zhaoran Rena Huang2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

本文提出了 UniMatch，一种通过结合类无关 3D 分割、多模态大语言模型引导以及基于排名的对比学习，实现跨类别强非等形物体间稠密语义匹配的粗到细框架。

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

Why iCloud Fails: The Category Mistake of Cloud Synchronization

该论文指出 iCloud 将分布式因果图强行投影为线性时间链的“范畴错误”导致了其与 Time Machine、Git 等工具的根本性不兼容及数据损坏，并主张采用 Open Atomic Ethernet 的原子事务语义来使协议行为回归物理现实以解决此类问题。

Paul Borrill2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

本文提出了 InfScene-SR，一种基于扩散模型的任意尺寸图像超分辨率方法，通过引入方差校正融合（VCF）和空间解耦方差校正（SDVC）技术，在消除大尺度场景拼接边界伪影的同时，将显存复杂度降至常数级，从而实现了高效、连续且分布式的超分辨率重建。

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

该论文提出了一种在线物体 - 场景 - 相机分解与重组的数据增强方案，通过将训练图像解耦为独立要素并动态重组，有效解决了单目 3D 目标检测中数据多样性不足和过拟合问题，从而在多种监督设置下显著提升了模型性能。

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

本文提出了一种基于扩散模型的上下文图像分解框架，通过轻量级 LoRA 微调、循环一致性联合训练策略以及渐进式自改进机制，有效解决了真实场景中（如 Logo 与表面）具有非线性耦合交互的复杂分层图像分解难题。

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

本文提出了一种名为“见即说，即排好”（See It, Say It, Sorted）的轻量级、无需训练且即插即用的迭代框架，通过在推理过程中动态引入视觉证据池来监督每一步生成，从而有效抑制多模态大模型中的视觉幻觉传播并显著提升推理准确率。

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

本文提出了 ARLArena 框架以系统分析智能体强化学习（ARL）的稳定性问题，并基于此设计了能显著缓解训练不稳定的 SAMPO 方法，为构建稳定且可复现的 LLM 智能体训练流程提供了统一视角与实践指导。

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

← 上一页下一页 →