Towards Instance Segmentation with Polygon Detection Transformers
该论文提出了将实例分割重构为稀疏顶点回归的 Polygon Detection Transformer (Poly-DETR),通过引入极坐标表示、极坐标可变形注意力及位置感知训练方案,在保持轻量级和高推理速度的同时显著提升了模型在高分辨率输入及特定领域规则形状实例上的分割性能。
3470 篇论文
该论文提出了将实例分割重构为稀疏顶点回归的 Polygon Detection Transformer (Poly-DETR),通过引入极坐标表示、极坐标可变形注意力及位置感知训练方案,在保持轻量级和高推理速度的同时显著提升了模型在高分辨率输入及特定领域规则形状实例上的分割性能。
该论文提出了名为"Reasoning-Oriented Programming"的新型攻击范式,通过构建框架\tool{}将语义正交的良性视觉组件编排为“语义小工具”,利用大视觉语言模型在后期推理阶段的逻辑合成漏洞来绕过感知层面的安全对齐,从而在多个基准测试中显著优于现有基线并成功诱导模型生成有害内容。
本文提出了 RF-Mem,一种受人类记忆双过程(熟悉感与回忆)启发的自适应检索框架,通过根据熟悉度不确定性动态切换直接匹配与迭代重构路径,在有限预算下实现了比现有方法更精准、可扩展的个性化大语言模型记忆检索。
本文提出了一种名为“车队即服务”(PlaaS)的决策支持框架,通过建立以车队服务提供商为领导者的斯塔克尔伯格博弈模型来优化定价与行驶距离决策,并分析了政府补贴及运营参数对平台利润与碳排放的影响,从而为自动驾驶车辆编队行驶促进可持续交通提供了理论依据与管理启示。
本文提出了一种名为 DiP 的新型多模态图表示学习框架,通过引入模态特定伪节点和动态信息路径,实现了自适应、稀疏且高效的跨模态消息传递,从而在多个基准测试中显著优于现有基线方法。
该论文提出了一种利用网络视频和隐式几何表示的大规模视觉语言导航框架,通过从 RGB 帧直接提取空间线索来克服传统 3D 重建的局限性,从而在多个基准测试中实现了最先进的性能并推动了零样本导航的发展。
该论文通过对比虚拟现实(VR)与传统视频会议,利用主观实验分析了端到端延迟如何从感知层面的交互流畅性和认知层面的社会临场感两个维度影响用户体验,并揭示了两者在不同延迟条件下的内在关联机制,从而为优化沉浸式虚拟环境系统提供了指导。
本文研究了欧几里得平面上带权重的在线非交叉匹配问题,证明了确定性算法无法获得非平凡竞争比,但随机化算法可实现常数竞争比,并进一步探讨了可撤销机制、共线点情形及最优解的咨询复杂度上界。
本文提出了一种名为 TPIFM 的任务感知模型,该模型基于自由能原理,通过量化不同协作任务对网络延迟和卡顿的感知差异(即任务特定的最小可觉差),实现了对远程增强现实协作中感知交互流畅性的准确评估。
本文提出了名为 ForgeDreamer 的新框架,通过多专家 LoRA 集成机制解决工业领域的类别知识干扰问题,并利用跨视图超图几何增强方法捕捉高阶结构依赖,从而显著提升了工业文本到 3D 生成的语义泛化能力与几何精度。
本文介绍了《FungiSync》这一多人共址混合现实体验,它通过将参与者化身森林植物并让手部接触触发数字感知世界的交融,将菌根网络的共生互赖转化为一种具身化的仪式,旨在以“真菌认识论”批判技术加速时代的极端个人主义。
该论文提出了一种通过定期重置高斯尺度、引入熵约束优化混合权重以及结合渐进式分辨率调度,从而显著缩短渲染所需高斯列表长度,在保持渲染质量的同时大幅提升 3D 高斯泼溅(3DGS)训练效率的新方法。
本文提出了名为 SVOR 的鲁棒框架,通过掩码并集策略、去噪感知分割头及两阶段课程训练,有效解决了真实场景下阴影、剧烈运动及掩码缺陷导致的视频物体移除难题,实现了无闪烁且时序稳定的移除效果。
该论文提出了一种基于特征场学习的新方法,通过自监督几何目标将 3D 形状分解为凸体集合,首次实现了面向开放世界的、可泛化至多种 3D 表示形式的高质量前馈凸分解模型。
CogBlender 是一个旨在弥合文本到图像生成中语义内容与认知属性(如情绪效价、唤醒度、支配性及图像记忆性)之间鸿沟的框架,它通过建立认知空间与语义流形之间的映射,利用认知锚点重构流匹配过程中的速度场,从而实现了对生成图像认知特性的连续、多维且精细的干预。
本文提出了名为 MDTrack 的新型多模态目标跟踪框架,通过为不同模态分配专用专家实现模态感知融合,并利用解耦的状态空间模型与交叉注意力机制进行独立且协同的时序传播,从而在五个基准测试中取得了最先进的性能。
本文提出了 ToolRosetta 框架,通过自动将开源代码库转换为可执行的 MCP 工具并集成安全检测,使大语言模型代理能够自主规划并调用现有工具以高效完成复杂任务,从而显著降低了代码复用与部署的人力成本。
本文提出了名为“见、规划、回退”(SPR)的进度感知视觉 - 语言 - 动作框架,该框架通过将语言指令动态转化为空间子目标序列,并在执行中持续监测进度、规划轨迹及在失败时回退至可恢复状态,从而在不依赖额外训练数据或辅助模型的情况下显著提升了机器人操作的鲁棒性与泛化能力。
该研究通过控制实验,系统分析了网络延迟对网络虚拟白板中实用性与享乐性多维体验质量的影响,并深入探讨了这种影响在不同协作模式(顺序协作与自由协作)及不同呈现形式(有无虚拟化身)下的差异,旨在为优化此类系统的实际部署提供指导。
本文提出了 CORAL 框架,通过冻结预训练 VLA 骨干网络并为每个任务分配独立的轻量级 LoRA 专家,在运行时动态切换专家以彻底消除多任务学习中的梯度冲突与灾难性遗忘,从而在真实机器人和多个仿真基准上实现了高效、可扩展的终身多任务学习。