Scale-invariant Gaussian derivative residual networks
本文提出了一种由尺度协方差高斯导数残差块级联构成的尺度不变高斯导数残差网络(GaussDerResNets),通过引入残差连接在显著提升精度的同时保持优异的尺度泛化能力,并在多个重缩放数据集上验证了其跨尺度泛化与选择性能。
4142 篇论文
本文提出了一种由尺度协方差高斯导数残差块级联构成的尺度不变高斯导数残差网络(GaussDerResNets),通过引入残差连接在显著提升精度的同时保持优异的尺度泛化能力,并在多个重缩放数据集上验证了其跨尺度泛化与选择性能。
该研究通过探测实验发现,大型视觉语言模型中节点和全局结构信息在视觉编码器阶段即已线性可分,而边信息仅在语言模型的文本令牌中才形成线性表示,这种边信息的延迟涌现解释了模型在理解节点与边等关系时面临的困难。
本文提出了一种用于稀疏视图新视图合成的多模态先验引导重要性采样方法,通过融合光度、语义和几何先验来指导分层 3D 高斯泼溅的粗到细构建与保留策略,从而在减少过拟合和噪声的同时实现了 DTU 基准上领先的重建质量。
SIGMark 提出了一种面向视频扩散模型的可扩展生成式盲提取水印框架,通过全局帧伪随机编码(GF-PRC)实现无需密钥存储的低成本盲提取,并借助针对因果 3D VAE 设计的片段组排序(SGO)模块显著增强了抗时序干扰的鲁棒性。
本文提出了 SemanticDialect,一种通过结合基于查找表的块级混合格式选择、激活分解残差校正以及语义感知的方言分配策略,在显著降低视频扩散 Transformer 计算与存储成本的同时,有效保持语义与时间一致性并逼近 FP16 生成质量的量化方法。
本文提出了 StegaFFD 框架,通过利用细粒度隐写术将人脸图像隐藏于自然载体中并在隐写域直接进行伪造检测,结合低频感知分解、空频差分注意力及隐写域对齐等创新机制,在有效保护隐私且避免引起攻击者怀疑的同时,显著提升了人脸伪造检测的准确率。
本文提出了 LLandMark 框架,这是一个专为处理复杂查询而设计的多智能体系统,通过集成地标感知推理、多模态检索及针对越南语场景优化的 OCR 与图像生成技术,实现了具有文化适应性和可解释性的交互式视频检索。
本文提出了 MVD-HuGaS 方法,通过利用在高质量数据集上微调的多视图扩散模型生成带有几何先验的图像,并结合相机姿态联合优化与基于深度的面部畸变抑制模块,实现了从单张图像到高质量自由视角 3D 人体渲染的突破。
本文提出了名为 3D-DRES 的新任务,旨在通过短语到 3D 实例的映射实现细粒度的 3D 视觉语言理解,并为此发布了包含短语级标注的 DetailRefer 数据集以及支持双模式分割的 DetailBase 基线模型。
本文提出了基于残差矢量量化和轻量级骨干网络的渐进式生成图像压缩方法 ProGIC,该方法在实现与现有方法相当甚至更优的感知压缩性能(最高节省 57.57% 码率)的同时,显著提升了编解码速度并支持灵活的渐进式传输。
本文提出了一种名为谐波贝尔特拉米签名网络(HBSN)的新型深度学习架构,该架构通过结合预空间变换网络、UNet 骨干和后空间变换网络,能够高效地从图像中提取具有平移、缩放和旋转不变性的形状特征,并作为通用模块嵌入现有分割模型中以利用形状先验信息提升性能。
本文提出了名为“运动中的关节”(AiM)的新框架,通过动态 - 静态解耦和无需先验知识的顺序 RANSAC 聚类,仅凭用户交互视频和初始 3D 扫描即可实现高保真度的可动物体部件分割、运动学分析及交互式 3D 数字重建。
本文提出了 HDINO,一种基于 DINO 架构的简洁高效开放词汇检测器,通过两阶段训练策略(包含一对多语义对齐机制和难度加权分类损失)及轻量级特征融合模块,在无需人工精细标注和大量数据的情况下,实现了超越现有主流方法的检测性能。
本文介绍了 GloPath,这是一种基于百万级肾小球数据训练的新型实体中心基础模型,其在 52 项任务中显著超越了现有最先进方法,不仅实现了高精度的肾小球病变评估,还成功揭示了组织病理特征与临床指标间的深层关联,为肾脏病理学的临床转化与发现提供了可扩展的 AI 平台。
本文提出了轨迹一致帕德近似(TC-Padé)框架,通过有理函数建模特征演化及自适应系数调制策略,有效解决了扩散模型在低步数(20-30 步)采样下的误差累积与轨迹漂移问题,在显著加速图像和视频生成的同时保持了高质量的生成效果。
该论文提出了一种将来自标签比例学习(LLP)的“比例损失”作为正则化项引入半监督学习的轻量级框架,通过使模型预测与全局类别分布对齐来缓解类别不平衡问题,并在长尾 CIFAR-10 基准测试中显著提升了 FixMatch 和 ReMixMatch 等主流算法在稀缺标签条件下的性能。
该论文提出了一种利用文本引导的伪标签传播的高效半监督求解器,以解决医疗影像中类别不平衡导致的极低样本量适应难题,从而在减少超过 50% 标注成本的同时提升了视觉语言模型的少-shot 性能。
本文提出了一种结合无需微调的基础模型合成管道(FMAS)与利用自适应子带处理的波域注意力模块(WDAM)的新方法,有效解决了工业异常检测中异常样本稀缺及特征提取困难的问题,并在 MVTec AD 和 VisA 数据集上显著提升了检测性能。
本文提出了 TagaVLM,一种通过空间拓扑感知残差注意力机制和交错导航提示将拓扑结构显式注入视觉语言模型骨干网络的端到端框架,从而在 R2R 基准测试中实现了大模型方法中的最先进性能,证明了针对具身空间推理对小规模开源模型进行针对性增强比单纯扩大模型规模更为有效。
该论文提出了一种基于二维自回归模型的轻量级框架,通过显式建模 DINOv3 嵌入的空间上下文依赖关系,在无需存储大量特征或原型的情况下,实现了高效且内存友好的无监督异常检测。