Towards Instance Segmentation with Polygon Detection Transformers

该论文提出了将实例分割重构为稀疏顶点回归的 Polygon Detection Transformer (Poly-DETR),通过引入极坐标表示、极坐标可变形注意力及位置感知训练方案,在保持轻量级和高推理速度的同时显著提升了模型在高分辨率输入及特定领域规则形状实例上的分割性能。

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

该论文提出了名为"Reasoning-Oriented Programming"的新型攻击范式,通过构建框架\tool{}将语义正交的良性视觉组件编排为“语义小工具”,利用大视觉语言模型在后期推理阶段的逻辑合成漏洞来绕过感知层面的安全对齐,从而在多个基准测试中显著优于现有基线并成功诱导模型生成有害内容。

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

本文提出了 RF-Mem,一种受人类记忆双过程(熟悉感与回忆)启发的自适应检索框架,通过根据熟悉度不确定性动态切换直接匹配与迭代重构路径,在有限预算下实现了比现有方法更精准、可扩展的个性化大语言模型记忆检索。

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu Zhao2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

本文提出了一种名为“车队即服务”(PlaaS)的决策支持框架,通过建立以车队服务提供商为领导者的斯塔克尔伯格博弈模型来优化定价与行驶距离决策,并分析了政府补贴及运营参数对平台利润与碳排放的影响,从而为自动驾驶车辆编队行驶促进可持续交通提供了理论依据与管理启示。

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

该论文提出了一种利用网络视频和隐式几何表示的大规模视觉语言导航框架,通过从 RGB 帧直接提取空间线索来克服传统 3D 重建的局限性,从而在多个基准测试中实现了最先进的性能并推动了零样本导航的发展。

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

该论文通过对比虚拟现实(VR)与传统视频会议,利用主观实验分析了端到端延迟如何从感知层面的交互流畅性和认知层面的社会临场感两个维度影响用户体验,并揭示了两者在不同延迟条件下的内在关联机制,从而为优化沉浸式虚拟环境系统提供了指导。

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi Lin2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender 是一个旨在弥合文本到图像生成中语义内容与认知属性(如情绪效价、唤醒度、支配性及图像记忆性)之间鸿沟的框架,它通过建立认知空间与语义流形之间的映射,利用认知锚点重构流匹配过程中的速度场,从而实现了对生成图像认知特性的连续、多维且精细的干预。

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

本文提出了 ToolRosetta 框架,通过自动将开源代码库转换为可执行的 MCP 工具并集成安全检测,使大语言模型代理能够自主规划并调用现有工具以高效完成复杂任务,从而显著降低了代码复用与部署的人力成本。

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

本文提出了名为“见、规划、回退”(SPR)的进度感知视觉 - 语言 - 动作框架,该框架通过将语言指令动态转化为空间子目标序列,并在执行中持续监测进度、规划轨迹及在失败时回退至可恢复状态,从而在不依赖额外训练数据或辅助模型的情况下显著提升了机器人操作的鲁棒性与泛化能力。

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs