InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning
本文提出了 InterCoG 框架,通过引入包含空间关系推理的文本与视觉定位交替的链式推理机制,并辅以专用训练模块及 GroundEdit-45K 数据集,显著提升了复杂多实体场景下图像编辑的空间精确度。
4088 篇论文
本文提出了 InterCoG 框架,通过引入包含空间关系推理的文本与视觉定位交替的链式推理机制,并辅以专用训练模块及 GroundEdit-45K 数据集,显著提升了复杂多实体场景下图像编辑的空间精确度。
该论文提出了一种名为 BiCAM 的双向类激活映射方法,通过同时保留支持性和抑制性归因信号,显著提升了 Vision Transformers 的可解释性、定位精度及对抗样本检测能力。
本文提出了一种名为 PromptStereo 的零样本立体匹配方法,通过设计基于单目深度基础模型解码器的提示循环单元(PRU),将单目结构提示与立体运动提示融入迭代细化过程,在保留单目先验的同时引入绝对立体尺度信息,从而实现了跨数据集的卓越零样本泛化性能。
本文提出了受认知启发的三层情感层次结构,并据此构建了轻量级多任务情感语言模型 Nano-EmoX 及其“从感知到共情”的渐进式训练框架,首次实现了在 22 亿参数规模下统一涵盖感知、理解与交互三个层级共六项核心情感任务,在多个基准测试中取得了卓越的性能与泛化能力。
本文提出了 SimRecon 框架,通过引入主动视点优化和场景图合成器两个关键模块,构建了一个从感知、生成到仿真的流水线,从而实现了从真实视频中高保真且物理合理的组合式场景重建。
本文提出了 OnlineX 框架,通过引入解耦的“从活跃到稳定”状态演化范式,解决了在线 3D 重建中的累积漂移问题,实现了仅利用流式图像即可实时、高保真地同步重建 3D 视觉外观与语言场。
本文提出了 HiFi-Inpaint 框架,通过引入共享增强注意力机制和细节感知损失函数,并构建 HP-Image-40K 数据集,解决了现有方法在生成高保真、细节保留的人体 - 产品图像时面临的数据匮乏、细节丢失及监督粗糙等挑战,实现了业界领先的性能。
本文提出了名为 TimeGS 的新型时间序列预测框架,该框架通过将预测任务重构为基于 2D 高斯泼溅的生成渲染过程,利用多基高斯核生成与多周期连续光栅化模块解决传统方法在时序连续性建模及非平稳模式自适应方面的局限,从而在多个基准数据集上实现了最先进的性能。
本文提出了 CamDirector 框架,通过混合形变方案聚合全局信息并利用历史引导的自回归扩散模型,有效解决了现有视频轨迹编辑方法在相机控制精度和长程一致性方面的不足,同时发布了 iPhone-PTZ 基准数据集并实现了少参数下的最先进性能。
该论文提出了一种名为 Social-JEPA 的框架,通过让独立智能体从不同视角学习世界模型,发现其潜在空间会自发形成近似线性等距的几何同构,从而实现了无需参数共享或额外微调的跨视角知识迁移与高效互操作。
该研究构建了一个包含 190 万张图像的大规模数据集,通过系统消融实验确定了 SigLIP2-Giant 和 E5-Small-v2 作为最佳骨干网络,并提出利用合成文本描述增强视觉特征的门控融合多模态框架,使动物识别的 Top-1 准确率较单模态基线提升了 11%。
该论文提出了一种名为 PDP 的提示解耦框架,通过设计包含共享池与私有池的双池提示解耦范式以缓解提示耦合,并引入原型伪标签生成模块以抑制提示漂移,从而在无需回放的情况下显著提升了增量目标检测的性能。
本文提出了 AutoFFS 框架,利用针对预训练性别分类器的对抗性自由形态变形技术,自动生成具有目标性别特征的颅骨形态,从而为面部女性化手术提供量化且可重复的术前规划指导。
本文针对长尾分布的多标签胸部 X 光分类挑战,在 CXR-LT 2026 基准上系统评估了损失函数、骨干架构及后训练策略,发现 LDAM-DRW 损失与 ConvNeXt-Large 架构结合能显著提升稀有类别识别性能,最终在 68 支参赛队伍中排名第 5。
本文提出了 HAMMER 框架,通过利用多模态大语言模型(MLLM)将图像中的交互意图聚合为接触感知嵌入,并结合分层跨模态融合与多粒度几何提升模块,实现了无需显式属性描述或现成 2D 分割器的意图驱动 3D affordance 定位。
该论文揭示了流匹配与基于分数的扩散模型中中间分布协方差矩阵的病态条件会导致优化偏向高方差方向并陷入次优停滞,进而提出了一种可逆的预条件映射方法,通过改善分布几何结构来消除优化停滞,从而在多个数据集上训练出更优的生成模型。
本文提出了 MERG3R,一种无需训练的“分而治之”框架,通过图像重排序、分区重建及高效全局对齐,使现有的神经视觉几何模型能够突破显存限制,在大规模无序图像集上实现高质量的三维重建。
本文针对现有视频片段检索方法在从描述性查询迁移至搜索性查询时性能下降的问题,揭示了语言不精确性和多片段查询带来的泛化挑战,并通过识别及缓解解码器查询坍缩现象,提出了一种架构改进方案,显著提升了模型在搜索查询及多片段场景下的检索性能。
该论文提出了一种针对膝关节 MRI 的患者特异性放射组特征集检索框架,通过两阶段策略从大规模特征池中筛选出互补且多样化的紧凑特征子集,在保持模型高透明度和可解释性的同时,实现了超越传统边际排名方法并媲美端到端深度学习模型的诊断性能。
该论文针对现有大型视觉语言模型在宗教、国籍和社会经济地位等文化偏见方面研究不足的问题,提出并构建了一个包含近 6 万张合成图像的高质量“文化反事实”数据集,通过将不同人群置于真实文化语境中来精确量化模型的文化偏见。