Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval
该论文提出了 BM25-V 方法,通过将稀疏自编码器生成的视觉词激活与 Okapi BM25 评分相结合,利用逆文档频率(IDF)加权机制在无需微调的情况下实现了高效、可解释且高精度的图像检索。
2200 篇论文
该论文提出了 BM25-V 方法,通过将稀疏自编码器生成的视觉词激活与 Okapi BM25 评分相结合,利用逆文档频率(IDF)加权机制在无需微调的情况下实现了高效、可解释且高精度的图像检索。
该论文提出了一种包含六个指标的频谱诊断框架,揭示了在 2D 转 3D 重建中,特征上采样器的性能更取决于频谱结构的保持而非空间细节的增强,并发现结构频谱一致性是预测新视图合成质量的最强指标。
该论文提出了 EventGeM,一种基于事件相机的视觉定位方法,它通过融合预训练 ViT 提取的全局特征与 MaxViT 检测的局部特征,并结合深度估计进行重排序,在多个基准测试中实现了最先进的实时定位性能。
该论文提出了一种无需训练的 LIPAR 框架,通过利用视频潜在块的时间冗余性进行帧间剪枝,并引入注意力恢复机制以消除视觉伪影,从而在不牺牲生成质量的前提下显著提升了视频生成的推理速度。
本文提出了名为 MaCS 的架构无关正则化框架,通过联合优化逻辑空间中的分类间隔与局部预测一致性,在无需额外数据或架构改动的情况下,显著提升了视觉模型的校准度、鲁棒性及泛化能力。
本文提出了一种统一的极化成像架构框架,通过单阶段联合图像与斯托克斯域处理,在无需针对每种退化类型重新设计网络结构的情况下,实现了去噪、去模糊和去马赛克等任务中物理一致且最先进的恢复性能。
该论文提出了一种结合卷积神经网络(CNN)与视觉 Transformer(ViT)的集成学习融合模型,通过训练四个独立模型并在预测阶段进行集成,有效克服了单一架构的局限性及冗余特征瓶颈,在 UC Merced、RSSCN7 和 MSRSI 等遥感图像数据集上取得了优于现有方法的分类精度。
Cog2Gen3D 提出了一种由 3D 认知引导的扩散框架,通过融合语义与绝对几何信息的认知特征嵌入、3D 潜在认知图及认知引导的潜在扩散机制,解决了现有方法在 3D 生成中缺乏空间几何约束和尺度一致性的问题,显著提升了生成结果的语义保真度与几何合理性。
VS3R 提出了一种结合前馈 3D 重建与生成式视频扩散的框架,通过联合估计相机参数、深度和掩码,并引入混合稳定渲染与双流扩散模型,实现了在极端运动下兼具高鲁棒性与全帧一致性的视频稳定效果。
本文提出了 MACRO,一种通过从验证执行轨迹中自主发现并合成可复用复合工具,从而将静态工具组合转变为经验驱动式自我演进的医疗影像智能体,显著提升了多步骤任务编排的准确性与跨域泛化能力。
本文提出了 TumorChain 框架,通过构建包含 150 万条思维链标注的大规模多模态数据集 TumorCoT,并采用交错式多模态推理机制,实现了从医学影像发现到病理预测的可追溯、高准确率的临床肿瘤分析。
该论文提出了名为 PatchCue 的新范式,通过将图像划分为补丁并利用补丁级视觉线索替代传统的像素级或纯文本推理,结合两阶段训练策略,显著提升了视觉语言模型在视觉问答、复杂推理及文档理解等任务中的表现。
该论文提出了一种名为 MemSeg-Agent 的记忆增强智能体,通过将医学图像分割的适应过程从权重空间转移到记忆空间,利用静态、少样本和测试时工作记忆在无需微调的情况下实现了高效的联邦学习、少样本适应及跨域鲁棒性。
该论文利用五个公共视频地点识别数据库和七种图像相似度方法,系统评估了合成新视角对视频地点识别的影响,发现少量合成视角能提升识别效果,而在大规模添加时,视角变化的幅度不如添加视角的数量和数据集图像类型重要。
本文提出了 CylinderSplat,一种基于新型圆柱体三平面表示的双分支前馈框架,旨在解决全景图像中遮挡和稀疏视角下的几何重建难题,并在单视图及多视图全景新视图合成任务中实现了最先进的重建质量与几何精度。
PixARMesh 提出了一种基于自回归机制的单视图场景重建方法,能够直接从单张 RGB 图像联合预测物体布局与几何,在无需隐式场或后期优化的情况下,一次性生成连贯且适用于下游应用的高质量 3D 室内网格。
本文提出了 InnoAds-Composer,一种针对电商海报生成的单阶段框架,通过动态路由机制实现高效的主体、文字和风格三重条件控制,并配合文本特征增强模块与首个联合数据集,显著提升了生成质量与文字准确性,同时保持了较低的推理延迟。
该论文针对概念瓶颈模型(CBM)在图像分类中存在的概念信息泄露及性别偏见问题,提出了包括 Top-k 概念过滤、移除偏见概念和对抗性去偏在内的三种缓解技术,显著提升了模型在公平性与性能之间的权衡,推动了可解释且公平图像分类的发展。
该论文提出了一种名为 CollabOD 的轻量级协同检测框架,通过结构细节保持、跨路径特征对齐及定位感知轻量化设计,有效解决了无人机图像中小目标检测中因尺度变化、细节退化及资源受限导致的定位不稳定和鲁棒性不足问题。
该论文针对现有 2D 转 3D 技术缺乏艺术表现力的问题,提出了以“艺术视差合成”为核心的新范式及 Art3D 框架,通过解耦全局深度意图与局部艺术笔触,实现了从追求几何精确性向构建沉浸式电影级 3D 体验的转变。