Functional Properties of the Focal-Entropy
本文从分布视角出发,系统研究了作为交叉熵类比物的焦点熵,通过建立其数学性质、证明最小化器的存在性与唯一性,并揭示其在类别不平衡下对概率分布的特定放大与抑制机制,为理解焦点损失函数提供了坚实的理论基础。
4137 篇论文
本文从分布视角出发,系统研究了作为交叉熵类比物的焦点熵,通过建立其数学性质、证明最小化器的存在性与唯一性,并揭示其在类别不平衡下对概率分布的特定放大与抑制机制,为理解焦点损失函数提供了坚实的理论基础。
本文介绍了专为森林树冠下缺失人员检测而构建的大规模数据集 ForestPersons,该数据集包含近十万张地面及低空视角图像,旨在解决传统无人机航拍在茂密植被下难以发现目标的问题,并为搜救任务中的先进人员检测能力提供基准。
该论文针对多模态大模型在封闭集动作理解中生成式分类效率低且存在语义歧义的问题,提出了一种仅在微调阶段利用生成辅助的判别式分类器(GAD),在保持推理高效性的同时显著提升了准确率并实现了多项基准测试的领先性能。
SemGS 提出了一种前馈框架,利用双分支架构和相机感知注意力机制,从稀疏视角输入中快速重建具有泛化能力的语义 3D 高斯场,从而在无需场景特定优化的情况下实现高效的语义场景理解与新视角合成。
本文提出了一种名为"Give me scissors"的无碰撞双臂手术辅助机器人,它利用视觉语言模型零样本生成抓取与递送轨迹,并通过集成实时障碍物感知与二次规划框架,在动态环境中实现了安全、高效的器械递送,实验成功率达 83.33%。
本文提出了通用知识蒸馏(GKD)框架,通过解耦表征学习与任务学习并引入基于查询的软蒸馏机制,有效解决了传统方法在从视觉基础模型蒸馏时牺牲泛化能力的问题,显著提升了语义分割模型在分布偏移下的跨域性能。
该论文提出了名为 VC-STaR 的新框架,利用对比视觉问答对来缓解视觉语言模型推理中的幻觉问题,并基于此构建了 VisCoR-55K 数据集,显著提升了模型的视觉推理能力。
本文提出了 CAPT 框架,通过构建混淆库并利用语义与样本级混淆挖掘器及多粒度差异专家模块,使视觉 - 语言模型能够学习自身错分模式,从而有效缓解类别间的系统性混淆并提升细粒度判别能力与泛化性能。
本文提出了 CAWM-Mamba,这是首个能够利用统一共享权重端到端地联合执行红外 - 可见光图像融合与复合恶劣天气(如雾、雨、雪共存)恢复的模型,通过引入天气感知预处理、跨模态特征交互及基于小波分解的状态空间模块,在多种基准测试及下游感知任务中均取得了优于现有最先进方法的性能。
本文提出了名为 SOLAR 的推荐序列建模框架,通过引入理论上无损且保留 Softmax 机制的 SVD-Attention 技术,将注意力复杂度从降低至,从而实现了在无需过滤的情况下对万级行为序列和千级候选集的高效建模,并在快手线上场景中显著提升了视频观看量等核心业务指标。
本文提出了一种名为自适应 Token 字典(ATD)的新型 Transformer 架构,通过引入可学习的 Token 字典和跨注意力机制,在保持线性计算复杂度的同时实现了全局依赖建模,从而在图像超分辨率、去噪及 JPEG 伪影去除等任务中取得了最先进的性能。
本文提出了 NEMF 框架,通过利用高保真几何信息解耦环境场并约束物理逆问题,实现了从非侵入式数据到高分辨率材料参数场的精确重建,从而构建出具备物理仿真能力的功能性数字孪生。
该研究通过评估多种图像增强技术对轻量级 EfficientViT 模型在资源受限的孟加拉语手写字符分类任务中的影响,发现随机仿射变换与颜色抖动相结合的策略在 Ekush 和 AIBangla 数据集上取得了最佳分类准确率,有效解决了小样本场景下的过拟合问题。
本文提出了一种名为 Synthetic-Child 的基于 AIGC 的隐私保护合成数据流水线,通过从零生成包含真实标注的 1.2 万张儿童姿态图像来训练轻量级模型,在无需真实儿童照片的情况下实现了在边缘设备上高效部署且精度超越成人数据基线的儿童姿态估计与分类系统。
本文提出了 VLMFusionOcc3D,一种利用视觉语言模型先验知识、结合实例驱动注意力机制与天气感知自适应融合策略的鲁棒多模态框架,旨在解决自动驾驶中 3D 语义占据预测的语义模糊及恶劣天气性能下降问题。
该论文提出了 DrPose 算法,通过利用仅包含单视图图像与人体姿态的 DrPose15K 数据集进行直接奖励微调,有效解决了多视图扩散模型在重建复杂动态姿态时表现不自然的问题,显著提升了单图重建 3D 人体的姿态质量。
本文针对增量统一多模态异常检测中因忽略虚假和冗余特征而导致的灾难性遗忘问题,提出了一种结合 Mamba 解码器与信息瓶颈融合模块的新型去噪框架 IB-IUMAD,通过解耦特征耦合与过滤冗余信息,有效实现了在持续学习新类别的同时保留先验知识。
针对透明物体实例分割中边界模糊和对比度低等挑战,本文提出了结合频域细节增强与多尺度空间细化机制的 SEP-YOLO 框架,并补充了 Trans10K 数据集的高质量实例级标注,在多个基准测试中取得了最先进的性能。
该论文针对时尚智能任务碎片化和标注不完整的问题,构建了大规模细粒度数据集 FashionX,并提出了基于统一时尚对话范式的 OmniFashion 框架,实现了跨任务推理与交互对话的通用时尚智能。
该论文提出了一种多模态多维项目反应理论框架(M3IRT),通过解耦图像、文本及跨模态能力与难度,有效识别并剔除现有基准中的捷径问题,从而在降低评估成本的同时显著提升了多模态大语言模型跨模态推理能力的评估可靠性。