GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
本文提出了 GroundCount 框架,通过结合目标检测模型的空间定位能力来增强视觉语言模型,有效缓解了计数任务中的幻觉问题,并揭示了位置编码与结构化提示在提升计数准确性方面的关键作用。
1863 篇论文
本文提出了 GroundCount 框架,通过结合目标检测模型的空间定位能力来增强视觉语言模型,有效缓解了计数任务中的幻觉问题,并揭示了位置编码与结构化提示在提升计数准确性方面的关键作用。
该论文针对现有文本生成图像评估中因偏好鲜艳风格而导致真实感不足的问题,提出了包含百万级数据的色彩保真度数据集(CFD)、基于多模态编码器的评估指标(CFM)以及无需训练的自适应色彩保真度优化方法(CFR),共同构建了一个用于评估和提升写实风格图像色彩真实性的渐进式框架。
本文通过计算机科学家与艺术史学家的跨学科合作,利用潜在空间分解、定量评估及因果分析等方法,揭示了视觉语言模型在识别艺术风格时提取的概念中有 73% 被判定为语义连贯且 90% 与风格预测相关,表明其识别机制在很大程度上与艺术史学家的判断标准相一致。
本文提出了 DynVLA,一种通过引入“动力学思维链”(Dynamics CoT)范式,利用动力学 Tokenizer 将未来世界演化压缩为紧凑且可解释的表征,从而在自动驾驶中实现更精准、物理 grounded 的决策推理模型。
本文提出了 V2M-Zero,一种无需成对数据即可实现视频与音乐时间对齐生成的零样本方法,其核心在于利用跨模态共享的时序变化结构(通过模态内事件曲线捕捉),仅需微调文本转音乐模型并在推理阶段替换为视频事件曲线,即可在音频质量、语义对齐及时间同步性上显著超越现有基线。
本文提出了专为金融文档设计的 Agentar-Fin-OCR 系统,通过跨页内容整合、文档级标题重构及自适应课程学习等创新技术,实现了超长金融 PDF 的高精度结构化解析与可审计溯源,并发布了包含专家标注的 FinDocBench 基准以推动该领域的评估与应用。
本文提出了名为 NeFTY 的可微分物理框架,通过将三维扩散率场参数化为连续神经场并结合严格的数值求解器,实现了从瞬态表面温度测量中对材料属性及亚表面缺陷的高精度定量三维重建。
LiTo 提出了一种联合建模物体几何与视角相关外观的 3D 潜在表示方法,通过将表面光场子采样编码为紧凑的潜在向量,成功复现了高光与菲涅尔反射等复杂视觉效果,并基于此训练流匹配模型实现了从单张图像生成具有光照和材质一致性的 3D 物体。
该论文提出了一种名为"COMIC"的全自动 AI 系统,通过模拟真实制作团队的智能体协作机制,并结合基于 YouTube 喜剧视频语料库训练的 LLM 批评家进行迭代优化,成功生成了质量接近专业水准的短喜剧视频。
本文提出了一种紧凑的双向 Transformer 模型,通过紧密耦合左至右和右至左流并采用句子级集成策略,在无需视觉 - 语言预训练的情况下实现了图像描述任务的新兴最先进性能。
本文提出了一种名为 SDR-GAIN 的实时遮挡行人姿态补全框架,该方法通过自监督对抗学习直接从关键点坐标分布中插值缺失位置,在 COCO 和 JAAD 数据集上实现了优于传统及 Transformer 方法的遮挡恢复精度,并具备微秒级实时推理能力。
本文提出了一种名为 PnLCalib 的基于点和线优化的体育场地注册方法,通过结合 3D 足球场模型、关键点检测及非线性线条优化模块,有效克服了传统方法在复杂广播场景下的局限,显著提升了多视角与单视角下的摄像机标定精度与鲁棒性。
DP-IQA 是一种首创利用预训练文本到图像扩散模型先验知识,通过特征提取与知识蒸馏构建轻量级模型,从而在无需参考图像的情况下显著提升野外地盲图像质量评估泛化性能与精度的方法。
该论文提出了风格引导的运动扩散模型(SGMD),通过结合 Transformer 架构、风格调制模块以及时空掩码机制,实现了能够根据音乐特征和用户风格提示生成既真实又具风格一致性、且支持轨迹生成、补间及修复等灵活控制任务的舞蹈序列。
本文提出了名为 TIMotion 的高效框架,通过因果交互注入、角色演化扫描和局部模式放大三个核心模块,解决了现有双人运动生成方法在时序建模与交互混合方面的不足,从而在 InterHuman 和 InterX 数据集上实现了更优越的性能。
该论文提出了一种将量化和稀疏化统一建模为加性噪声的框架,通过引入基于岭回归的去噪反量化变换来构建明确的梯度路径,从而解决了传统直通估计器在超低精度和稀疏训练中的不稳定性问题,实现了任意精度与稀疏度下的鲁棒训练并取得了最先进的性能。
本文提出了利用特权信息(如特征标签或注意力标签)进行辅助监督的 DRUPI 方法,通过合成额外信息来增强数据集压缩效果,并在多个基准数据集上显著提升了模型性能。
本文提出了一种完全无监督的表示学习方法,通过将潜在变量的概率流模型分解为稀疏激活的旋转场和势场,从而学习出由独立变换基元构成的解耦表示,并在序列变换数据集上实现了领先的数据似然度和近似等变性误差表现。
该论文提出了一种利用先验任务信息和训练好的新视图合成模型,通过梯度下降优化潜在表示来生成可压缩差异的基于模型的图像压缩技术,旨在解决水下遥控机器人实时视觉反馈的带宽受限问题,并在人工海洋盆地数据集上验证了其优于现有方法的压缩率、图像质量及对场景中新物体的鲁棒性。
该论文提出了一种基于视觉语言模型先验的预算高效主动提示学习框架,通过类引导聚类和自适应类阈值选择策略,在主动学习场景下实现了比现有基线更优的少样本分类性能。