Image Compression Using Novel View Synthesis Priors
该论文提出了一种利用先验任务信息和训练好的新视图合成模型,通过梯度下降优化潜在表示来生成可压缩差异的基于模型的图像压缩技术,旨在解决水下遥控机器人实时视觉反馈的带宽受限问题,并在人工海洋盆地数据集上验证了其优于现有方法的压缩率、图像质量及对场景中新物体的鲁棒性。
91 篇论文
该论文提出了一种利用先验任务信息和训练好的新视图合成模型,通过梯度下降优化潜在表示来生成可压缩差异的基于模型的图像压缩技术,旨在解决水下遥控机器人实时视觉反馈的带宽受限问题,并在人工海洋盆地数据集上验证了其优于现有方法的压缩率、图像质量及对场景中新物体的鲁棒性。
该论文提出了一种面向 MIMO 瑞利衰落信道的熵与信道感知自适应语义通信框架,通过联合利用信道状态信息、信噪比及特征熵进行细粒度特征选择,并借助微调后的多模态大语言模型(InternViT)补偿丢弃的特征,从而在不同信道条件下实现通信资源的高效自适应分配与任务性能优化。
该论文针对卫星遥感图像中船舶检测面临的尺度差异大和长宽比高等挑战,提出了一种名为 LiM-YOLO 的轻量化检测器,通过统计船舶尺度分布将检测头从传统的 P3-P5 层级调整为 P2-P4 层级以满足奈奎斯特采样条件,并引入组归一化线性投影模块以解决小批量训练下的梯度不稳定问题,从而在显著减少参数量的同时实现了优于现有方法的检测精度。
该论文提出了一种基于中性原子模拟量子计算机的量子原生图像匹配框架,通过经典预处理将图像转化为稀疏点云并映射至里德堡原子阵列,利用时间演化后的多体关联指纹(包括皮尔逊归一化相关矩阵和静态结构因子)实现高效图像检索,并初步验证了其在量子储池计算中的应用潜力。
本文提出了名为 CoPeDiT 的通用潜在扩散模型,通过引入具备完整性感知能力的自编码器(CoPeVAE)和专用的 3D 扩散 Transformer 架构(MDiT3D),无需依赖外部手动指示即可自主推断缺失状态,从而实现了在多种缺失模式下具有高保真度和语义一致性的统一 3D MRI 合成。
该论文提出了一种两阶段概率框架,通过先利用多种深度学习模型(如 MaskCVAE 和 MaskUNet)从受云烟遮挡的卫星数据中重建火情分布,再进行时空预测,从而有效弥合了训练与部署间的域差距,在严重信息缺失下显著提升了野火蔓延预测的鲁棒性与准确性。
本文提出了一种名为 M2Diff 的多模态多任务增强扩散模型,通过分别处理 MRI 和低剂量 PET 扫描以提取模态特定特征并进行分层融合,从而在健康及阿尔茨海默病脑数据集上实现了高质量的标准化剂量 PET 图像重建。
本文提出了一种名为 DFPF-Net 的动态聚焦渐进融合网络,该网络通过结合金字塔视觉 Transformer 与残差渐进增强融合模块及动态变化聚焦模块,有效克服了遥感图像变化检测中由全局尺度差异和局部光照阴影引起的伪变化与噪声干扰问题,并在多个数据集上取得了优于主流方法的性能。
本文提出了一种名为 MetaSpectra+ 的紧凑型多功能相机,它利用新型超表面 - 折射组件,能够在单次快照中实现全可见光波段(250 nm)的高光谱成像,并同时获取高动态范围(HDR)图像或正交偏振信息,且在总光程和重建精度上均优于现有快照式高光谱成像系统。
本文通过引入分块训练拼接策略和非线性强度变换,扩展了 POLISH 深度学习框架,使其能够处理高动态范围和宽视场条件,显著提升了射电干涉成像质量,并有望在深合成阵列(DSA)巡天中将星系 - 星系强引力透镜系统的发现数量比传统 CLEAN 算法提高 10 倍。
该研究通过分析两项大型肺癌筛查队列的纵向低剂量 CT 数据,证实了胸膜肺纤维弹性增生(PPFE)的影像学进展与全因死亡率及呼吸系统不良临床结局的独立关联,表明定量评估 PPFE 进展可作为筛查人群中识别高危个体的潜在影像学生物标志物。
本文提出了一种名为 KV-Lock 的训练免费框架,通过利用扩散幻觉检测动态调节背景键值缓存融合比例与引导强度,在视频编辑任务中有效平衡了前景生成质量与背景一致性。
本文提出了-Occ 框架,通过多视角掩码重建模块和特征记忆模块,有效解决了多相机输入不完整场景下的 3D 语义占据预测问题,显著提升了自动驾驶系统在相机缺失情况下的几何结构与语义一致性。
本文提出了首个面向 360°全景环境的整体 affordance 定位任务,通过构建 360-AGD 数据集及提出包含畸变感知谱调制器和全向球面致密化头的 PanoAffordanceNet 框架,有效解决了全景图像中的几何畸变与语义分散问题,显著提升了具身智能的场景级感知能力。
本文提出了 CycleULM,这是首个用于超声定位显微镜的无标签统一深度学习框架,它通过物理模拟的域翻译技术克服了数据稀缺和仿真到现实的差距,在无需配对真值数据的情况下显著提升了血管成像的对比度、分辨率及微泡定位精度,并实现了实时处理速度。
该论文提出了一种名为 PiVOT 的新型视觉提示机制,通过利用预训练基础模型(CLIP)在线自动生成并优化视觉提示,引导跟踪器生成实例感知特征图以有效抑制干扰物,从而提升通用目标跟踪的性能。
本文提出了一种基于最大后验概率(MAP)引导项估计的无特定问题扩散模型,通过将条件得分函数分解为无条件得分与基于高斯先验的引导项,有效利用预训练无条件扩散模型解决图像逆问题,并在超分辨率和图像修复任务中展现出比现有方法更优的内容保持与结构连贯性。
该研究提出了一种基于多模态 MRI 图像融合(T1、T2、T1ce 和 FLAIR)的胶质瘤亚类分类方法,通过结合 2D 与 3D UNET 分割及加权平均融合技术,并利用预训练 ResNet50 模型进行分类,在 BraTS 数据集上实现了 99.25% 的高准确率,显著优于现有方法。
该研究提出了一种基于 U-Net、Inception 和 ResNet 架构的深度学习混合模型,旨在平衡 2D 与 3D 卷积在计算效率与空间精度间的权衡,通过在 BraTS 数据集上的实验验证,该模型在 3D 和 2D 胶质瘤分割任务中分别实现了 98.91% 和 99.77% 的高准确率,为临床脑肿瘤自动诊断提供了有效解决方案。
该研究提出了一种结合解剖学标志点与 Transformer 架构的新型图卷积神经网络,利用四面体网格处理 sMRI 数据,在无需昂贵 PET 扫描的情况下显著提升了阿尔茨海默病诊断及脑淀粉样蛋白阳性(尤其是中风险人群)的预测精度。