Facial Expression Recognition Using Residual Masking Network
该论文提出了一种结合深度残差网络与 U-Net 架构的残差掩蔽网络,利用分割网络优化特征图以增强注意力机制,从而在 FER2013 和 VEMO 数据集上实现了面部表情识别的当前最优性能。
2273 篇论文
该论文提出了一种结合深度残差网络与 U-Net 架构的残差掩蔽网络,利用分割网络优化特征图以增强注意力机制,从而在 FER2013 和 VEMO 数据集上实现了面部表情识别的当前最优性能。
本文提出了 SLER-IR 框架,通过球面分层专家路由、基于对比学习的球面均匀退化嵌入以及全局 - 局部粒度融合模块,有效解决了统一图像恢复中的特征干扰与专家专业化不足问题,并在多项基准测试中取得了优于现有最先进方法的性能。
该论文提出了一种基于二维离散傅里叶幅度谱自适应径向投影的文档图像倾斜估计新方法,并发布了 DISE-2021 数据集以验证其性能,结果表明该方法在鲁棒性和准确性上均优于现有技术。
LucidNFT 提出了一种基于流匹配的生成式真实世界超分辨率多奖励强化学习框架,通过引入抗退化的语义一致性评估器(LucidConsistency)、解耦的优势归一化策略以及大规模真实退化数据集(LucidLR),有效解决了现有方法中语义幻觉、多奖励优化导致的优势坍缩及退化覆盖不足等关键问题,实现了感知质量与低分辨率锚定忠实度之间的更优平衡。
本文提出了 E-AdaPrune,一种基于视觉特征奇异值谱能量驱动的自适应视觉 Token 剪枝框架,它无需额外参数即可根据图像信息密度动态分配 Token 预算,在保持极低延迟的同时显著提升了多模态大模型的性能。
本文提出了 VINE 框架,通过构建空间 - 视图图来建模结构一致性,并利用判别性先验增强前景特征,从而在少样本分割任务中有效解决大视角变化下的结构错位与跨视图不一致问题。
OVGGT 是一种无需训练的框架,通过自选择性缓存和动态锚点保护技术,在保持恒定显存与计算成本的同时,实现了任意长度视频流的高精度 3D 几何重建。
该论文提出了一种基于“分割后识别”两阶段策略的开放词汇目标识别框架,通过结合 CLIP 与 CNN/MLP 特征对齐及 SVD 降维技术,在无需复杂重训练和人工标注的情况下,于多个基准数据集上实现了超越现有最先进方法的训练免费识别性能。
该论文提出了一种名为“骨骼到图像编码”(S2I)的新方法,通过将骨骼序列转换为类图像格式,成功利用大规模预训练视觉模型进行自监督骨骼表征学习,有效解决了骨骼数据格式差异大及多模态动作识别中引入额外分支的难题,并在多个基准数据集上验证了其优越的泛化能力。
该论文针对开放词汇目标检测模型在极端低比特量化下性能严重下降的问题,提出了一种结合分阶段优化与文本中心关系知识蒸馏的“课程关系量化感知训练”(CR-QAT)框架,通过逐步量化和关系结构迁移有效缓解了误差累积并保持了细粒度对齐,在 LVIS 和 COCO 零-shot 基准上显著优于现有方法。
本文提出了 PROBE,一种无需学习的 LiDAR 三维地点识别描述子,它通过将鸟瞰图(BEV)单元建模为伯努利随机变量并利用极坐标雅可比行列式解析地边缘化连续平移,实现了跨传感器泛化且无需针对特定数据集进行调优,在多个数据集上取得了优于现有手工描述子的性能。
本文提出了 ProCap 框架,通过从静态图像对比转向动态过程建模,利用稀疏关键帧和可学习的过程查询来显式捕捉变化过程,从而生成更准确描述图像间差异及其发生方式的变化描述。
本文针对现有无人机多目标跟踪基准缺乏复杂动态场景的问题,提出了包含 42 个序列和超 170 万标注框的 DynUAV 基准,该基准通过引入剧烈自运动、尺度变化及运动模糊等挑战,揭示了当前最先进跟踪器的局限性并推动了真实场景下的研究进展。
该论文提出了一种通过双分支架构和 Gram 正则化损失直接最小化训练与推理分布差异,并结合动漫特定标签网络与 SDXL 微调来实现高分辨率、解耦且可控的参考图素描上色新框架,从而在质量和可控性上达到最先进水平。
该论文提出了 HarvestFlex 系统,首次通过视觉 - 语言 - 动作(VLA)策略迁移,利用仅 3.71 小时的 VR 遥操作数据和多视角 RGB 感知,在无需深度云和显式几何校准的情况下,成功实现了温室草莓采摘任务中 74.0% 的成功率。
该报告通过与巴基斯坦 Sialkot 地区行业领袖合作,利用包含 4,414 张高分辨率图像的新数据集,结合 YOLOv8、ResNet-152 和 EfficientNet-b4 等深度学习架构,开发自动化光学检测系统以识别和修复手术器械缺陷,从而提升制造标准并保障患者安全。
本文提出了 MM-ISTS,一种利用多模态视觉 - 文本大语言模型,通过双阶段编码机制、自适应查询特征提取及多模态对齐模块,有效解决不规则采样时间序列预测中上下文语义缺失与细粒度时序模式捕捉难题的框架。
RePer-360 提出了一种基于自调制的畸变感知框架,通过轻量级几何对齐引导模块和自条件 AdaLN-Zero 机制,在保留预训练透视先验的同时实现了对全景深度估计的高效领域适配,仅需 1% 的训练数据即可显著超越标准微调方法。
该论文针对视觉 - 语言 - 动作(VLA)模型在指令与场景冲突时表现出的“语言盲视”问题,提出了无需训练且即插即用的指令引导注意力重校准(IGAR)方法,通过重构注意力分布显著提升了模型在分布外矛盾指令下的可靠性,同时保持了基线任务性能。
该论文提出了名为 RepKAN 的新型架构,通过融合 CNN 的结构效率与 KAN 的非线性表征能力,在 EuroSAT 和 NWPU-RESISC45 数据集上实现了超越现有最先进模型的分类性能,同时为遥感图像分类提供了可解释的物理推理机制。