SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation
本文提出了 SurgCUT3R 框架,通过构建基于公开立体数据集的大规模伪真深度数据生成管线、采用混合监督策略以及设计分层推理架构,有效解决了单目内窥镜视频在手术场景下因缺乏监督数据及长序列累积漂移导致的 3D 重建难题,实现了兼具高精度与高效率的手术场景连续理解。
3947 篇论文
本文提出了 SurgCUT3R 框架,通过构建基于公开立体数据集的大规模伪真深度数据生成管线、采用混合监督策略以及设计分层推理架构,有效解决了单目内窥镜视频在手术场景下因缺乏监督数据及长序列累积漂移导致的 3D 重建难题,实现了兼具高精度与高效率的手术场景连续理解。
本文提出了 T2SGrid 框架,通过将视频片段内的帧按时间顺序重组为复合网格图像,将视频时序理解转化为空间理解任务,从而有效解决了现有方法在时序建模中面临的计算开销大、注意力稀疏及空间细节丢失等问题,并在视频时序定位基准上取得了优越性能。
本文提出了 VSL-Skin,一种首个实现厘米级精度独立寻址体素控制的变刚度晶格皮肤系统,通过相变材料在保持结构完整性的同时实现了近两个数量级的刚度调制、30% 轴向压缩及自修复功能,从而支持可编程虚拟关节并弥合了软体与刚性机器人之间的鸿沟。
本文提出了一种基于配置的运行时编排框架,通过请求时动态生成执行图并实现依赖感知的并行调度,解决了分布式系统中因工作流预定义而导致的集成灵活性不足问题,从而在无需重新部署代码的情况下实现了高效、低延迟的动态数据检索。
该论文提出利用预对齐的多模态编码器(如 OpenShape 与 Point-BERT)结合多模态硬对比学习(HCL),在无需视图合成或目标数据库重训练的情况下,实现了图像到 3D 形状的零样本及监督检索,并在多个数据集上取得了超越现有方法的性能。
该论文提出了一种感知感知的多模态空间推理框架,通过引入视觉参考令牌(VRT)实现对象级 grounding 并构建多模态思维链数据集,仅凭标准监督微调便在 SURDS 基准测试中大幅超越了包括强化学习后训练在内的现有方法,显著提升了单目驾驶场景下的空间理解能力。
本文发布了首个专注于 ADAS 向人工接管过渡的大规模自然驾驶数据集 ADAS-TO,该数据集包含来自 327 名驾驶员的 15,659 个同步视频与 CAN 日志片段,并通过结合运动学筛选与视觉语言模型分析,揭示了关键接管事件中的风险特征及提前 3 秒出现可操作视觉线索的规律,为开发语义感知预警系统提供了重要依据。
该论文提出了一种基于预训练视觉基础模型(Cosmos Tokenizer)压缩潜在空间的概率性世界模型,通过结合保形预测框架生成不确定性指标来构建运行时监控器,从而在无需显式定义故障模式的情况下,以极少的参数量实现了对双机械臂操作任务中异常故障的高效准确检测。
本文提出了 MipSLAM,一种通过椭圆自适应抗混叠算法、谱感知位姿图优化及局部频域感知损失,有效解决现有 3D 高斯泼溅 SLAM 系统混叠伪影与轨迹漂移问题,并在多分辨率下实现高保真渲染与鲁棒定位的实时框架。
AdaGen 提出了一种基于强化学习和对抗奖励机制的通用自适应框架,通过 Markov 决策过程动态优化图像生成过程中的步长参数调度,从而在降低推理成本的同时显著提升多种生成范式下的图像质量与多样性。
该论文提出了一种由大语言模型驱动的闭环进化框架,能够自动重构自适应大邻域搜索(ALNS)的全部七个核心组件,在 TSPLIB 基准测试中显著提升了求解质量并揭示了反直觉的设计模式。
该论文提出了 TrajPred 框架,通过编码手术器械轨迹引入时序运动线索,并结合提示微调与动词重述技术生成细粒度视觉语义嵌入,从而显著提升了机器人手术中器械 - 组织交互识别的精度与视 - 文对齐效果。
本文提出了一种面向医疗场景的隐私保护患者身份管理框架,通过结合根信任锚、匿名假名和条件可追溯机制,在确保临床操作可靠性的同时有效解决了患者身份复用带来的关联与追踪隐私风险,并经由形式化验证与仿真评估证实了其安全性与可行性。
该论文提出了一种结合降维图搜索与数值优化的两阶段框架,通过将移动机械臂的 8 自由度规划解耦为基座优化问题,实现了兼顾计算效率、全局最优性与亚毫米级精度的鲁棒路径规划。
本文提出了一种扩展的基于同意的访问控制框架,通过在同意创建阶段引入预提交冲突验证、形式化系统不变量以保障基础访问权限,并结合基于实时生理证据的上下文感知紧急访问机制,有效解决了传统方案中运行时冲突处理的延迟与语义不一致问题,同时显著提升了系统可扩展性与临床数据安全性。
受人类大脑模块化组织启发,Mozart 提出了一种面向 3.5D 晶圆级芯片架构的算法 - 硬件协同设计框架,通过专家分配策略、细粒度调度机制及异构模块自适应共置,有效解决了混合专家模型(MoE)训练中的稀疏性挑战并显著提升了大规模语言模型的并行化效率与资源利用率。
该研究通过“超级技能栈”框架分析 80 个学生设计团队的反思,发现生成式 AI 主要作为认知加速器辅助设计早期阶段,而人类凭借能动性、领域知识、想象力和品味等核心能力在理解语境、验证输出及优化方案中发挥不可替代的关键作用。
本文提出了 OV-DEIM,一种基于 DEIMv2 框架并集成视觉语言模型与 GridSynthetic 数据增强策略的实时端到端 DETR 风格开放词汇目标检测器,在保持低延迟的同时显著提升了检测性能,特别是在稀有类别上的表现。
该论文针对现有基于大语言模型的 Web 智能体因扁平记忆结构导致跨网站泛化能力不足的问题,提出了一种名为分层记忆树(HMT)的框架,通过将记忆解耦为意图、阶段和行动三个层级,实现了逻辑规划与动作执行的分离,从而显著提升了智能体在跨网站和跨域场景下的任务泛化能力。
该论文提出了一种名为 TFM 的新型越狱攻击框架,通过利用文生视频模型在仅指定起始和结束帧的稀疏提示下自主补全中间有害内容的“时间轨迹填充”漏洞,成功绕过了现有内容过滤机制并显著提升了攻击成功率。