MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds
本文提出了 MFP3D 框架,通过单目图像重建 3D 点云并结合 RGB 特征进行回归分析,实现了无需参考物或多视角输入的高精度食物份量估算。
4718 篇论文
本文提出了 MFP3D 框架,通过单目图像重建 3D 点云并结合 RGB 特征进行回归分析,实现了无需参考物或多视角输入的高精度食物份量估算。
本文针对现有基于多模态大语言模型的图像质量评估方法缺乏细粒度感知的问题,提出了结合定位与指代的“Grounding-IQA"新范式,构建了包含 16 万条数据的 GIQA-160K 数据集及 GIQA-Bench 基准,实现了具备精确区域定位能力的细粒度图像质量描述与问答评估。
本文提出了一种名为 DAWN-FM 的数据感知与噪声感知流匹配方法,通过显式嵌入数据与噪声信息并针对特定逆问题训练,有效解决了图像去模糊和断层扫描等任务中数据不完整或噪声干扰导致的病态问题,同时实现了精确重建与不确定性量化。
本文提出了 FiLo++ 方法,通过融合大语言模型生成的细粒度描述与可变形定位模块,有效解决了现有零样本和少样本异常检测中描述泛化性不足及定位精度低的问题,显著提升了模型在目标类别无标签或少量样本场景下的检测与定位性能。
本文提出了一种基于正交基(包括埃尔米特多项式、傅里叶三角函数及热带化多项式)的激活函数族,通过简单的方差保持初始化成功解决了深度模型中的激活与梯度爆炸/消失问题,实现了在 GPT-2 和 ConvNeXt 等大规模任务上的有效训练,并揭示了多项式激活网络的代数结构及其在微调任务中通过埃尔米特插值逼近经典激活函数的潜力。
该研究利用深度生成推理技术,仅基于超急性期 CT 血管造影(CTA)数据构建计算灌注缺损图,在无需已知病灶信息的情况下成功定位了缺血性卒中 NIHSS 亚评分的神经基质,揭示了新的神经依赖关系并验证了该方法在急性卒中临床表型分析中的巨大价值。
该研究指出 CLIP 模型并非缺乏属性与对象的绑定信息,而是跨模态对齐未能有效保留这些信息,因此仅需通过简单的线性变换即可在无需重新训练编码器的情况下显著提升其跨模态绑定能力。
本文提出了首个涵盖视觉、音频和文本的“世界感知”(WorldSense)基准,通过 1,662 个高质量音视频同步视频及 3,172 个多轮问答对,系统评估了多模态大模型在真实场景下对多模态协同理解的现有能力与局限。
该论文通过注意力激活修补技术发现扩散模型中不到 1% 的参数(集中于注意力层)主导图像文本生成,并据此提出了一种仅微调这些局部参数即可提升文本生成能力、实现文本编辑及低成本抑制有毒文本生成的通用高效方法。
该论文提出了一种针对仇恨模因检测的鲁棒大模型自适应框架,通过增强领域内准确性与跨领域泛化能力,在六个数据集上实现了超越现有代理系统的性能,同时提升了模型的抗攻击能力与可解释性。
该论文提出了一种名为“Jumbo"的新型大令牌机制,通过减少普通令牌宽度并增加一个共享参数的全局大令牌,在保持纯 Vision Transformer 架构通用性与灵活性的同时,显著提升了模型在速度、精度及多种下游任务中的表现。
该论文提出了名为 MemeIntel 的框架,通过构建首个大规模双语解释性数据集 MemeXplain 并采用多阶段优化策略训练视觉语言模型,显著提升了阿拉伯语宣传类及英语仇恨类模因的检测准确率与解释生成质量。
本文提出了 OpenFly 平台,该平台集成了多种渲染引擎与自动化工具链,构建了包含 10 万条轨迹的大规模户外空中视觉语言导航基准数据集,并提出了关键帧感知的 OpenFly-Agent 模型,有效解决了该领域数据匮乏与仿真挑战。
本文提出了名为 LLaVE 的大语言与视觉嵌入模型框架,通过引入基于难度的加权对比学习有效解决了正负样本相似度分布重叠问题,在 MMEB 基准测试中实现了超越更大规模模型的最先进性能,并展现出优异的零样本泛化能力。
本文提出 Vision-R1,通过构建无需人工标注的高质量多模态思维链冷启动数据集,并结合渐进式思维抑制训练与 GRPO 强化学习策略,成功在大规模多模态数学数据上激发了模型的复杂推理能力,使其在 MathVista 等基准测试中达到接近 OpenAI O1 的顶尖水平。
本文提出了 SemHiTok,一种通过语义引导的层次化码本实现解耦训练的统一图像分词器,成功在多模态理解与生成任务中取得了像素重建与高层语义表征的最佳平衡。
本文提出了一种统一的框架将掩码图像生成模型与掩码扩散模型相结合,并据此设计了高效且性能卓越的 eMIGM 模型,其在 ImageNet 生成任务中不仅超越了 VAR 等离散模型,还在显著减少函数评估次数的情况下达到了与顶级连续扩散模型相当甚至更优的效果。
该论文提出了 SPEED,一种通过直接编辑模型参数并搜索“零空间”来实现的可扩展、精确且高效的扩散模型概念擦除方法,该方法结合三种互补策略在确保非目标概念生成质量的同时,仅需 5 秒即可擦除 100 个概念。
本文提出了一种基于多目标优化的模型无关评估框架,通过雷达图和测量表直观量化机器学习系统(特别是医学影像领域)中效用与公平性之间的权衡,并已在多个真实数据集上得到验证。
本文提出了一种目标感知视频扩散模型,通过引入编码目标空间信息的特殊令牌及针对性的交叉注意力损失,使模型能够根据文本指令生成演员与指定分割目标进行准确交互的视频,并成功应用于零样本 3D 人机交互运动合成与长视频内容创作。