DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime
DSFlash 是一款专为资源受限边缘设备设计的低延迟全景场景图生成模型,它能在 RTX 3090 上以 56 帧/秒的速度实时处理视频流,同时提供比现有方法更全面的上下文信息,且仅需在老旧的 GTX 1080 上训练不到 24 小时,显著降低了计算门槛。
3447 篇论文
DSFlash 是一款专为资源受限边缘设备设计的低延迟全景场景图生成模型,它能在 RTX 3090 上以 56 帧/秒的速度实时处理视频流,同时提供比现有方法更全面的上下文信息,且仅需在老旧的 GTX 1080 上训练不到 24 小时,显著降低了计算门槛。
该论文提出了一种名为边界抑制 K 均值量化(BS-KMQ)的新型非线性量化方法,通过抑制分布边界异常值来优化聚类,并结合可重构存内非线性 ADC 设计,在显著降低量化误差和 ADC 分辨率需求的同时,大幅提升了存内计算系统的精度、面积效率及能效。
本文提出了 P-GSVC,这是首个面向图像和视频的统一可扩展分层渐进式 2D 高斯泼溅框架,通过联合训练策略优化分层表示,实现了从粗糙到精细的渐进式重建,并在质量和分辨率上均展现出显著的性能提升。
本文提出了名为 CD-Raft 的优化 Raft 协议,通过优化跨域往返时间(RTT)及领导者节点部署,在 TLA+ 形式化验证确保强一致性的基础上,显著降低了跨域分布式共识的平均延迟与尾部延迟。
本文提出了一种基于代码属性图(CPG)和图卷积网络(GCN)的 FP-Predictor 模型,旨在通过捕捉代码结构与语义关系来准确识别静态分析工具中的误报,在 CamBenchCAP 和 CryptoAPI-Bench 数据集上分别取得了 100% 和 96.6% 的准确率,并展现出保守且安全导向的推理能力。
该论文提出了包含 4.1 万份真实报告的 PET-F2I-41K 基准数据集及三种临床评估指标,并通过 LoRA 微调构建了 PET-F2I-7B 模型,显著提升了 PET/CT 影像报告印象生成的准确性与事实一致性,为临床部署提供了高效可靠的解决方案。
本文提出了 TacLoc 框架,通过将触觉定位问题建模为单步点云配准任务,利用基于图论的局部到全局配准方法,在不依赖渲染数据或预训练模型的情况下,实现了高效且准确的物体位姿估计。
本文提出了 UniStitch 框架,通过引入神经点 Transformer 将离散几何特征转化为连续语义特征,并利用自适应混合专家模块动态融合两者,从而在复杂场景下显著提升了图像拼接性能并弥合了传统方法与学习-based 方法之间的鸿沟。
该论文提出了一种面向部分可观测马尔可夫决策过程(POMDP)的分层证书控制架构,通过引入信念空间控制李雅普诺夫函数(BCLFs)和基于共形预测的信念控制障碍函数(BCBFs),将目标达成、信息收集与安全约束解耦为模块化组件,从而实现了非高维信念表示下的实时安全控制与任务成功率的显著提升。
该论文针对现有计算机图形图像质量评估缺乏系统描述和文本解释的问题,构建了一个包含 3500 张图像及多维质量描述的新数据集,并提出了基于检索增强生成的双流框架(R4-CGQA),显著提升了视觉语言模型在细粒度 CG 质量评估中的准确性与解释能力。
该论文提出了一种名为 LIDA 的模型无关框架,通过将 AI 生成图像溯源问题重构为实例检索任务,利用低位平面指纹生成及无监督预训练结合少样本适应策略,在零样本和少样本设置下实现了最先进的检测与溯源性能。
本文提出了 Marigold-SSD,这是一种利用强扩散先验的单步晚融合深度补全框架,通过将计算负担从推理转移到微调,在仅需 4.5 GPU 天训练成本的情况下实现了高效的零-shot 性能,显著缩小了扩散模型与判别模型之间的效率差距。
本文提出了一种仅编码器多说话人语音识别框架,通过将大语言模型的语义先验蒸馏至编码器并结合说话人数量路由机制,在保持快速推理的同时显著提升了复杂重叠场景下的识别性能。
本文通过统一的切片式训练测试协议和完全可复现的实验,对比了 Clough-Tocher 与多二次径向基函数在有无噪声条件下的插值性能,发现两者在无噪时均表现优异,但在有噪时精确插值会导致过拟合,其中立方插值更为稳定,且该研究为环境工程中利用结构化插值从含噪测量中恢复物理过程行为提供了实践依据。
该论文提出了一种名为“潜在过渡差异(LTD)”的新方法,通过捕捉真实图像与合成图像在网络层间特征过渡一致性的差异,有效解决了现有合成图像检测技术泛化能力不足的问题,并在多个数据集上实现了优于当前最先进方法的检测精度与鲁棒性。
本文提出了一种名为 HyPER-GAN 的轻量级图像到图像翻译模型,它基于 U-Net 架构并采用混合训练策略,旨在以实时推理速度显著提升合成数据的视觉真实感与语义一致性,同时避免引入损害算法准确性的视觉伪影。
本文提出了 TopGen,一种通过双查询解码器同时预测结构布局与交叉场、并基于新构建的 TopGen-220K 数据集进行训练的鲁棒学习框架,旨在克服传统方法效率低及现有学习模型缺乏结构可编辑性的缺陷,从而生成高质量的四边形网格。
该论文提出了一种基于物理不可克隆函数(PUF)和符号执行技术的新型工业控制软件保护方法,确保软件仅在目标硬件上正确运行,并在非目标环境或 PUF 响应异常时通过符号执行保障安全属性,同时具备抵御逆向工程的能力。
本文提出了名为 Touch G.O.G.的单臂双手机器人布料操作框架,通过结合新型触觉夹持器设计、基于视觉基础模型的感知网络以及高保真合成数据生成器,实现了仅用单机械臂即可高效、精确地完成复杂布料展开任务。
本文提出了 AdaClearGrasp 框架,通过结合预训练视觉语言模型进行自适应清理决策与强化学习策略,实现了在密集杂乱环境中对多样化物体的零样本鲁棒灵巧抓取,并引入了首个分级复杂度仿真基准 Clutter-Bench 来验证其有效性。