HDINO: A Concise and Efficient Open-Vocabulary Detector
本文提出了 HDINO,一种基于 DINO 架构的简洁高效开放词汇检测器,通过两阶段训练策略(包含一对多语义对齐机制和难度加权分类损失)及轻量级特征融合模块,在无需人工精细标注和大量数据的情况下,实现了超越现有主流方法的检测性能。
8681 篇论文
本文提出了 HDINO,一种基于 DINO 架构的简洁高效开放词汇检测器,通过两阶段训练策略(包含一对多语义对齐机制和难度加权分类损失)及轻量级特征融合模块,在无需人工精细标注和大量数据的情况下,实现了超越现有主流方法的检测性能。
本文介绍了 GloPath,这是一种基于百万级肾小球数据训练的新型实体中心基础模型,其在 52 项任务中显著超越了现有最先进方法,不仅实现了高精度的肾小球病变评估,还成功揭示了组织病理特征与临床指标间的深层关联,为肾脏病理学的临床转化与发现提供了可扩展的 AI 平台。
本文提出了轨迹一致帕德近似(TC-Padé)框架,通过有理函数建模特征演化及自适应系数调制策略,有效解决了扩散模型在低步数(20-30 步)采样下的误差累积与轨迹漂移问题,在显著加速图像和视频生成的同时保持了高质量的生成效果。
该论文提出了一种将来自标签比例学习(LLP)的“比例损失”作为正则化项引入半监督学习的轻量级框架,通过使模型预测与全局类别分布对齐来缓解类别不平衡问题,并在长尾 CIFAR-10 基准测试中显著提升了 FixMatch 和 ReMixMatch 等主流算法在稀缺标签条件下的性能。
该论文提出了一种利用文本引导的伪标签传播的高效半监督求解器,以解决医疗影像中类别不平衡导致的极低样本量适应难题,从而在减少超过 50% 标注成本的同时提升了视觉语言模型的少-shot 性能。
本文提出了一种结合无需微调的基础模型合成管道(FMAS)与利用自适应子带处理的波域注意力模块(WDAM)的新方法,有效解决了工业异常检测中异常样本稀缺及特征提取困难的问题,并在 MVTec AD 和 VisA 数据集上显著提升了检测性能。
本文提出了 TagaVLM,一种通过空间拓扑感知残差注意力机制和交错导航提示将拓扑结构显式注入视觉语言模型骨干网络的端到端框架,从而在 R2R 基准测试中实现了大模型方法中的最先进性能,证明了针对具身空间推理对小规模开源模型进行针对性增强比单纯扩大模型规模更为有效。
该论文提出了一种基于二维自回归模型的轻量级框架,通过显式建模 DINOv3 嵌入的空间上下文依赖关系,在无需存储大量特征或原型的情况下,实现了高效且内存友好的无监督异常检测。
本文介绍了名为 Dresden 的数据集,该数据集包含来自 6 次猪尸体实验的 98 个录制序列(超过 30 万帧),通过配对的内窥镜视频与高精度结构光几何数据,为评估非刚性腹部手术场景下的 4D 重建、非刚性 SLAM 及深度估计算法提供了全面的基准。
本文提出了 VIRGi,一种针对 3D 高斯溅射(3DGS)的新颖方法,通过解耦漫反射与视角相关颜色分量并结合多视图训练策略,仅需单张用户编辑图像即可在 2 秒内实现保留高光等视角依赖效果的场景快速重着色。
本文提出了名为 URGT 的统一多补丁 Transformer 框架,通过将高分辨率图像分割为补丁并结合全局注意力机制与 GridMix 采样策略,在单前向传递中实现了兼顾局部细节与全局一致性的高分辨率单目深度与法线估计,并在多个基准测试中取得了最先进的性能。
本文提出了首个专为乳腺病理设计的协作式通用 - 专科基础模型 BRIGHT,该模型基于来自 19 家医院 4 万余名患者的海量数据训练,并在涵盖诊断、生物标志物预测及生存分析等 24 项临床任务的超大规模多中心验证中,展现出优于现有通用模型的卓越性能与可解释性。
本文提出了首个面向教育场景的 AI 生成视频质量评估基准 EduAIGV-1k 及评估框架 EduVQA,通过包含感知质量与提示对齐细粒度标注的数据集和创新的 S2D-MoE 模块,实现了对用于儿童数学教学的 AI 生成视频的多维度可解释性质量评估。
本文通过构建高质量的大规模 DaTikZ-V4 数据集,并采用“监督微调 + 基于逆图形图像编码器的强化学习”两阶段训练策略,成功推出了在文本转 TikZ 绘图任务上性能超越 GPT-4o 并媲美 GPT-5 的轻量级开源模型 TikZilla。
本文提出了专为星载 FPGA 部署设计的 TinyIceNet 模型,通过硬件算法协同优化与低精度量化,在严格功耗约束下实现了对双极化 Sentinel-1 SAR 海冰的高效实时分割,显著降低了能耗并提升了极地导航的时效性。
该论文提出了一种名为 AWDiff 的扩散模型,通过结合 a trous 小波变换与 BioMedCLIP 语义条件,在避免破坏性下采样的同时有效保留肺超声图像中的细微诊断特征(如 B 线和胸膜不规则),从而生成高质量且多样化的合成数据以解决医疗数据稀缺问题。
本文提出了名为 RL3DEdit 的强化学习框架,通过利用 VGGT 基础模型生成的置信度与位姿误差作为奖励信号,在无需成对训练数据的情况下,有效解决了基于 2D 扩散模型的 3D 场景编辑中多视图一致性的难题。
Kling-MotionControl 是一款基于 DiT 的统一框架,通过采用分治策略协调身体、面部和手部的异质运动表示,结合自适应身份泛化、精确的外观保持及多阶段蒸馏加速技术,实现了在跨身份通用性、视觉保真度及推理速度上均优于现有方案的鲁棒且可控的高质量角色动画生成。
该论文针对现有文本到图像模型中激活导向技术常导致良性提示图像质量下降的问题,提出了基于条件激活传输(CAT)框架,通过构建对比数据集并利用几何条件机制与非线性传输映射,在有效降低不安全内容生成率的同时保持了图像质量。
本文提出了模态解耦直接偏好优化(MoD-DPO)框架,通过引入模态感知正则化和语言先验去偏惩罚,有效缓解了全模态大语言模型中的跨模态幻觉问题,显著提升了其在音视频理解任务中的感知准确性与抗幻觉能力。