VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs
该论文提出了 VisioMath 基准,通过包含 1800 个候选答案均为细微相似图形的 K-12 数学问题,揭示了当前多模态大模型在细粒度视觉推理中因图文对齐不足而导致的性能瓶颈,并验证了多种对齐策略能显著提升模型表现。
2169 篇论文
该论文提出了 VisioMath 基准,通过包含 1800 个候选答案均为细微相似图形的 K-12 数学问题,揭示了当前多模态大模型在细粒度视觉推理中因图文对齐不足而导致的性能瓶颈,并验证了多种对齐策略能显著提升模型表现。
本文提出了名为 VisualPrompter 的免训练提示优化框架,通过结合自动自我反思机制与细粒度的原子语义重构,在保持语义一致性的同时弥合用户描述与生成图像之间的差距,从而在文本 - 图像对齐评估中实现了新的最先进性能。
该论文提出了一种名为 SPoT 的新颖令牌化策略,通过将令牌连续放置在图像子像素位置而非离散网格上,并利用神谕引导搜索优化定位,从而在显著减少推理所需令牌数量的同时大幅提升性能,将稀疏性重新定义为视觉 Transformer 架构的战略优势。
该论文提出了 SPARC 框架,通过全局 TopK 稀疏机制和跨重建损失,在多样化的模型架构与模态间构建统一的稀疏潜在空间,从而显著提升了跨模型和跨模态的概念对齐能力并实现了可解释的语义共享。
本文提出了名为 Token Bottleneck (ToBo) 的自监督学习框架,通过引入紧凑的瓶颈令牌来编码动态场景并预测后续帧,从而有效学习时序场景表示,在视频标签传播、机器人操作等序列理解任务及真实物理环境中均展现出优越性能。
本文提出了首个针对长视频生成模型的叙事能力综合评估基准 NarrLV,通过引入“时间叙事原子”概念构建自动化提示生成流程,并设计基于多模态大模型的评估指标,以全面量化现有模型在复杂叙事表达方面的能力边界。
本文介绍了名为 TomatoMAP 的番茄多视角多姿态数据集,该数据集包含 6.4 万余张带有精细标注的图像,并通过结合深度学习模型与专家验证,证明了其在自动化精细表型分析中能达到与人类专家相当的准确性和效率。
ExDD 框架通过显式建模正常与异常的双分布特征、利用文本条件扩散模型生成工业场景合成缺陷数据,并结合邻域感知比率评分机制,有效解决了工业表面缺陷检测中单类异常检测的局限性与数据稀缺问题,在 KSDD2 数据集上取得了显著性能提升。
本文提出了高斯集合表面重建(GSSR)方法,通过结合多视角光度与单视角法线一致性约束、不透明度正则化及周期性重初始化策略,优化高斯分布以使其均匀贴合潜在表面并精确对齐法线,从而在保持高质量渲染的同时显著提升了 3D 高斯泼溅技术的几何重建精度与可编辑性。
本文提出了一种基于多模态大语言模型的多智能体系统,通过协同专用工具与网络服务,显著提升了从化学文献中提取复杂多模态反应信息的准确率与通用性,为构建高质量化学数据库及推动 AI 驱动的化学研究奠定了坚实基础。
该论文提出了一种名为 MAP 的免训练解码方法,通过将模型隐藏状态视为二维语义地图并引入层间交错注意力与全局 - 局部 Logit 融合机制,有效利用广泛分布的事实信息以缓解大型视觉语言模型中的幻觉问题。
本文提出了 VLMQ,一种针对视觉语言模型(VLM)的特定后训练量化框架,通过利用梯度驱动的显著性因子识别并优先保留关键令牌、抑制冗余视觉令牌,有效解决了视觉过度表征和模态分布差异导致的量化性能下降问题,从而在低比特设置下实现了显著的性能提升。
该论文提出了一种名为 SGDFuse 的语义引导扩散模型,通过利用 Segment Anything Model (SAM) 生成的高质量语义掩码作为显式先验,指导条件扩散模型进行从粗到细的生成,从而解决了现有红外与可见光图像融合方法中目标丢失、伪影及细节缺失等问题,实现了高保真且语义感知强的融合效果。
本文提出了一种基于-范数 Moreau 包络构建多元势函数的“多元专家场”新框架,用于图像先验学习,该模型在图像去噪、去模糊及压缩感知 MRI 等多种逆问题中,不仅性能优于传统单变量模型并接近深度学习正则化方法,还兼具训练数据需求少、参数少、速度快、可解释性强以及拥有理论收敛保证等优势。
该论文提出了 DianJin-OCR-R1,一种通过“推理与工具交错”范式训练视觉语言模型的框架,使其能够自主识别、调用专家模型参考、对比校验并整合多源证据,从而有效减少幻觉并提升复杂场景下的 OCR 性能。
本文提出了一种名为 SSL-SLR 的自监督学习框架,通过引入无负样本对的新方法和新型数据增强技术,有效解决了现有对比学习在签语识别中忽视关键信息区域及负样本相似度过高的问题,从而显著提升了模型在多种评估场景下的性能。
该论文提出了 RED 网络,通过引入面向鲁棒性的扰动策略模拟事件缺失,并采用“先解耦后选择融合”的机制分离模态特征,从而在事件相机触发阈值导致运动线索缺失的复杂场景下实现高鲁棒性的运动去模糊。
本文提出了 Kernel VICReg,一种将 VICReg 自监督学习目标引入再生核希尔伯特空间(RKHS)的新框架,通过核化损失函数中的方差、不变性和协方差项,在无需显式映射的情况下实现非线性特征学习,从而在非线性结构显著或样本有限的场景下有效缓解表征坍塌并提升性能。
本文针对联邦持续学习中提示通信导致的类间知识不一致问题,提出了 C²Prompt 方法,通过引入局部类分布补偿机制和类感知提示聚合方案,有效缓解了类内分布差异与类间知识混淆,从而在多个基准测试中实现了最先进的性能。
本文提出了一种面向腿式机器人的决策驱动语义对象探索方法,通过置信度校准的语义证据仲裁、受控增长的语义拓扑记忆以及语义效用驱动的亚目标选择机制,在无需稠密几何重建的情况下,将噪声语义观测转化为稳定可执行的探索决策,从而显著提升了开放世界中的探索性能。