UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints
该论文提出了一种结合 ill-conditioned 约束的自回归流方法,通过将超高清图像去模糊分解为从粗到细的渐进式过程,并利用流匹配建模残差生成及条件数正则化抑制数值不稳定性,在保障推理效率的同时实现了 4K 及以上分辨率下的高细节恢复。
5633 篇论文
该论文提出了一种结合 ill-conditioned 约束的自回归流方法,通过将超高清图像去模糊分解为从粗到细的渐进式过程,并利用流匹配建模残差生成及条件数正则化抑制数值不稳定性,在保障推理效率的同时实现了 4K 及以上分辨率下的高细节恢复。
该论文提出了一种名为 VG-MedGen 的视觉引导文本解耦框架,通过跨模态潜在对齐机制和混合特征融合模块,有效解决了医学图像生成中文本与视觉模态间的差距及语义纠缠问题,从而实现了细粒度的可控生成并提升了下游分类任务性能。
本文提出了一种名为 STEPH 的新方案,通过超网络驱动的任务向量稀疏混合与模型合并技术,在无需大规模联合训练或复杂多模型推理的情况下,高效地从其他癌症类型中迁移泛化知识,显著提升了全切片图像(WSI)癌症预后预测的性能。
本文介绍并评估了一种名为 BinWalker 的四足机器人平台,该平台集成了机械臂与垃圾容器,旨在通过自主感知、移动和抓取能力,在难以到达的复杂户外环境中高效收集垃圾,从而为大规模环境清理任务提供可持续的自动化解决方案。
该论文通过对海量科学文献的语料库研究,揭示了词级图形在学术写作中应用稀少且以图标为主的现状,并提出了涵盖位置、功能与视觉表现的分类框架,旨在推动其在提升学术交流效率方面的潜力。
本文提出了一种集成压阻式触觉阵列与 FPGA 上卷积脉冲神经网络的事件驱动电子皮肤系统,通过动态二进制扫描策略实现了高达 99% 的数据稀疏性和显著的资源压缩,同时保持了 92.11% 的实时手写数字识别准确率。
DSFlash 是一款专为资源受限边缘设备设计的低延迟全景场景图生成模型,它能在 RTX 3090 上以 56 帧/秒的速度实时处理视频流,同时提供比现有方法更全面的上下文信息,且仅需在老旧的 GTX 1080 上训练不到 24 小时,显著降低了计算门槛。
该论文提出了一种名为边界抑制 K 均值量化(BS-KMQ)的新型非线性量化方法,通过抑制分布边界异常值来优化聚类,并结合可重构存内非线性 ADC 设计,在显著降低量化误差和 ADC 分辨率需求的同时,大幅提升了存内计算系统的精度、面积效率及能效。
本文提出了 P-GSVC,这是首个面向图像和视频的统一可扩展分层渐进式 2D 高斯泼溅框架,通过联合训练策略优化分层表示,实现了从粗糙到精细的渐进式重建,并在质量和分辨率上均展现出显著的性能提升。
本文提出了名为 CD-Raft 的优化 Raft 协议,通过优化跨域往返时间(RTT)及领导者节点部署,在 TLA+ 形式化验证确保强一致性的基础上,显著降低了跨域分布式共识的平均延迟与尾部延迟。
本文提出了一种基于代码属性图(CPG)和图卷积网络(GCN)的 FP-Predictor 模型,旨在通过捕捉代码结构与语义关系来准确识别静态分析工具中的误报,在 CamBenchCAP 和 CryptoAPI-Bench 数据集上分别取得了 100% 和 96.6% 的准确率,并展现出保守且安全导向的推理能力。
该论文提出了包含 4.1 万份真实报告的 PET-F2I-41K 基准数据集及三种临床评估指标,并通过 LoRA 微调构建了 PET-F2I-7B 模型,显著提升了 PET/CT 影像报告印象生成的准确性与事实一致性,为临床部署提供了高效可靠的解决方案。
本文提出了 TacLoc 框架,通过将触觉定位问题建模为单步点云配准任务,利用基于图论的局部到全局配准方法,在不依赖渲染数据或预训练模型的情况下,实现了高效且准确的物体位姿估计。
本文提出了 UniStitch 框架,通过引入神经点 Transformer 将离散几何特征转化为连续语义特征,并利用自适应混合专家模块动态融合两者,从而在复杂场景下显著提升了图像拼接性能并弥合了传统方法与学习-based 方法之间的鸿沟。
该论文提出了一种面向部分可观测马尔可夫决策过程(POMDP)的分层证书控制架构,通过引入信念空间控制李雅普诺夫函数(BCLFs)和基于共形预测的信念控制障碍函数(BCBFs),将目标达成、信息收集与安全约束解耦为模块化组件,从而实现了非高维信念表示下的实时安全控制与任务成功率的显著提升。
该论文针对现有计算机图形图像质量评估缺乏系统描述和文本解释的问题,构建了一个包含 3500 张图像及多维质量描述的新数据集,并提出了基于检索增强生成的双流框架(R4-CGQA),显著提升了视觉语言模型在细粒度 CG 质量评估中的准确性与解释能力。
该论文提出了一种名为 LIDA 的模型无关框架,通过将 AI 生成图像溯源问题重构为实例检索任务,利用低位平面指纹生成及无监督预训练结合少样本适应策略,在零样本和少样本设置下实现了最先进的检测与溯源性能。
本文提出了 Marigold-SSD,这是一种利用强扩散先验的单步晚融合深度补全框架,通过将计算负担从推理转移到微调,在仅需 4.5 GPU 天训练成本的情况下实现了高效的零-shot 性能,显著缩小了扩散模型与判别模型之间的效率差距。
本文提出了一种仅编码器多说话人语音识别框架,通过将大语言模型的语义先验蒸馏至编码器并结合说话人数量路由机制,在保持快速推理的同时显著提升了复杂重叠场景下的识别性能。
本文通过统一的切片式训练测试协议和完全可复现的实验,对比了 Clough-Tocher 与多二次径向基函数在有无噪声条件下的插值性能,发现两者在无噪时均表现优异,但在有噪时精确插值会导致过拟合,其中立方插值更为稳定,且该研究为环境工程中利用结构化插值从含噪测量中恢复物理过程行为提供了实践依据。