Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning
本文提出了一种基于扩散模型的多模态认证框架,通过联合利用原始模板、打印图案及打印机签名特征,将认证任务转化为打印机分类问题,从而有效区分高质量伪造品与真品并提升泛化能力。
1863 篇论文
本文提出了一种基于扩散模型的多模态认证框架,通过联合利用原始模板、打印图案及打印机签名特征,将认证任务转化为打印机分类问题,从而有效区分高质量伪造品与真品并提升泛化能力。
该论文提出了一种名为“归一化流匹配”(NFM)的新方法,通过利用预训练的自回归归一化流模型来蒸馏准确定性耦合,从而训练出在性能上同时超越独立耦合、最优传输耦合流模型以及教师模型的学生流模型。
本文提出了一种针对卷积神经网络(CNN)的精确且架构感知的平坦度度量方法,通过推导全局平均池化网络中交叉熵损失 Hessian 矩阵迹的闭式解,有效解决了现有方法忽略 CNN 几何结构的问题,从而能够更准确地评估和预测模型的泛化性能。
本文提出了 WS-Net,一种结合状态空间建模与弱信号注意力融合的深度学习框架,通过多分辨率小波编码、Mamba 长程依赖捕捉及自适应门控机制,有效解决了高光谱解混中弱信号被主导端元掩盖的问题,并在多种数据集上显著提升了弱端元的丰度估计精度。
本文提出了 SpectralDiff 框架,通过引入结构化频谱扰动引导扩散过程以抑制多方向雨纹,并设计全积 U-Net 架构利用卷积定理提升计算效率,从而在保持紧凑模型的同时实现了高效的单图像去雨效果。
该研究提出了一种基于增强型 YOLOv8 的双模型框架,通过结合火/烟实例分割与 COCO 预训练目标检测,实现从火灾识别到基于像素距离换算的实时风险量化评估,从而在工程现场提供可部署的智能火灾预警与态势感知系统。
本文提出了 GST-VLA 模型,通过引入高斯空间分词器(GST)将视觉观测转化为具有内在几何结构的 3D 高斯原语,并结合 3D 深度感知思维链(DA-CoT)推理机制,显著提升了机器人在 LIBERO 和 SimplerEnv 等基准测试中的 3D 感知与操作精度。
OmniEdit 是一种无需训练的框架,通过用目标序列替代 FlowEdit 中的编辑序列并消除生成过程中的随机性,实现了高效且稳定的唇形同步与音视频编辑。
本文提出了一种名为“事件中心因果思维链”的新框架,通过物理驱动的事件链推理和过渡感知跨模态提示两个核心模块,将物理现象分解为因果相连的动态事件序列,从而显著提升了视频生成模型在物理合理性方面的表现。
该论文系统诊断了多模态大语言模型在处理图像文本时存在的“模态差距”,发现其主要由渲染因素引发的阅读错误导致,并提出了一种通过自蒸馏利用纯文本推理痕迹来提升视觉文本理解能力的有效方法。
该论文提出了 MedKCO 方法,通过构建基于诊断敏感性和样本代表性的两级课程学习顺序,并引入自适应非对称对比损失,解决了现有医疗视觉 - 语言预训练模型因同时学习简单与复杂概念而导致的特征表示次优问题,从而在多种下游任务中显著提升了性能。
该论文提出了一种无需训练的运动分解框架,通过将复杂运动解耦为静止、刚体和非刚体三类,并采用“先规划后生成”的范式来结构化提示词并解耦生成过程,从而实现了在多种扩散模型中高质量的多实例组合视频生成。
本文提出了一种基于 Transformer 的框架,通过联合对齐全局语义与基于空间注意力掩码的局部判别区域,实现了结合参考图像与文本描述的皮肤病变组成式检索,并在 Derm7pt 数据集上取得了优于现有方法的性能。
VIVID-Med 提出了一种新颖的医疗视觉 Transformer 预训练框架,利用冻结的大语言模型作为结构化语义教师,通过统一医疗模式将临床发现转化为可验证的 JSON 字段状态对并采用结构化预测分解技术,在训练后丢弃大模型从而生成轻量级、可部署的纯视觉骨干网络,在多种医疗影像任务中实现了超越现有方法的高性能且数据高效的零样本泛化能力。
本文提出了 PRLF 框架,通过自适应模态可靠性估计器和渐进式交互模块,有效解决了多模态情感分析中因模态缺失导致的特征不对齐问题,并在多种缺失场景下实现了优于现有方法的鲁棒性能。
本文提出了 QUSR 模型,通过结合利用多模态大语言模型生成质量先验的 QAP 模块和根据不确定性自适应调整噪声强度的 UNG 模块,有效解决了真实场景下退化未知且非均匀导致的图像超分辨率细节丢失与伪影问题。
该研究首次提出基于 SegFormer 变换器的全自动框架,对 HR-pQCT 图像进行多区域(包括骨骼及皮肤、肌腱、脂肪等软组织)分割并提取放射组学特征,结果表明利用软组织特征进行骨质疏松分类的效能优于传统骨参数模型,显著提升了诊断准确性。
该论文提出了首个旋转等变视觉 Mamba 架构 EQ-VMamba,通过引入旋转等变交叉扫描策略和群 Mamba 模块,在显著减少参数量的同时提升了模型对旋转变换的鲁棒性及在分类、分割和超分辨率等任务中的综合性能。
该论文提出了一种基于智能体(Agentic AI)的 6G 网络控制平面智能层,通过整合检索、规划、编码与评估等专用智能体,将联邦学习视为学习与网络管理的联合任务,从而在动态网络条件下实现高效的客户端选择、资源调度及自适应训练。
本文提出了 RTFDNet 网络,通过协同特征融合与跨模量/区域解耦正则化机制,统一了特征融合与模态适应过程,从而在传感器信号缺失时仍能实现鲁棒的 RGB-T 语义分割。