Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting
本文提出了 Graph-of-Mark (GoM),一种通过在输入图像上叠加场景图来促进空间推理的免训练像素级视觉提示技术,实验表明该方法能显著提升多模态大模型在零样本场景下对物体位置和相对方向的理解能力。
1871 篇论文
本文提出了 Graph-of-Mark (GoM),一种通过在输入图像上叠加场景图来促进空间推理的免训练像素级视觉提示技术,实验表明该方法能显著提升多模态大模型在零样本场景下对物体位置和相对方向的理解能力。
该论文提出了一种基于全局时间索引的序列并行 3D 位置编码方案(Causal-RoPE SP),通过系统级推理优化(如算子融合与预计算)解决了 DiT 视频生成模型在长视频合成中的显存爆炸与高延迟瓶颈,在八卡 A800 集群上实现了亚秒级首帧延迟和近实时推理速度。
该论文指出思维链(CoT)在医学视觉问答任务中常因感知瓶颈而表现不如直接回答,并提出了无需训练的感知锚定与描述接地两种干预方法,有效提升了视觉大模型的准确性并逆转了性能劣势。
本文提出了一种名为 SJD-PV 的训练-free 加速框架,通过分析训练语料中的 token 共现统计规律构建语义连贯的视觉短语,并利用短语级联合验证机制替代传统的独立 token 验证,从而在保持图像生成质量的同时显著降低了自回归图像模型的推理延迟。
本文提出了 CalibFusion,一种面向水面环境的 Transformer 基可微雷达 - 相机融合检测器,它通过端到端学习隐式外参微调,有效克服了传统方法在纹理缺失和杂波干扰场景下的校准局限,显著提升了融合检测的精度与鲁棒性。
该研究通过配对诊断实验发现,尽管语义噪声初始化在图像扩散模型中表现优异,但在文本到视频生成任务中并未展现出统计显著的优越性,其性能与高斯噪声基线相当。
该论文提出了一种利用加权光谱角距离损失函数的无监督 CNN 自编码器,用于对历史油画(如根特祭坛画)横截面的 ATR-μFTIR 高光谱图像进行盲解混,从而在克服大气干扰和采集伪影的同时,实现了对复杂混合光谱中端元光谱及其丰度图的自动、客观提取。
AutoFigure-Edit 是一个端到端系统,能够结合长文本理解与参考图引导的风格迁移,从长篇科学文本中直接生成可编辑且风格可控的高质量科学插图(SVG 格式)。
该论文提出了一种结合可解释人工智能(XAI)与少样本学习(FSL)的混合分类模型,通过集成孪生网络和原型网络并利用 Grad-CAM 增强可解释性,在数据受限条件下实现了对玉米、水稻和小麦叶片病害阶段的高精度识别与透明化诊断。
该论文针对现有图表智能在深度研究能力上的不足,提出了通过并行相对策略优化(PRPO)解决训练冲突的框架,并构建了基于“误差唯一性”原则的 MCDR-Bench 评测基准,从而系统性地提升了大型视觉语言模型在图表深度分析中的协同训练与客观评估能力。
该论文提出了一种名为 MultiGen 的新方法,通过引入独立于模型上下文窗口的可编辑外部记忆模块,将生成过程分解为记忆、观测和动态三个部分,从而解决了现有视频世界模型在环境可编辑性及多人协同交互一致性方面的局限性。
本文提出了名为 VB 的基准测试,旨在评估多模态大模型在图像可见性与视角推理任务中判断可见性、识别不可回答情况并给出置信度的能力,通过最小化编辑对照实验和多项严格指标发现 GPT-4o 与 Gemini 3.1 Pro 表现最佳,而开源模型 Gemma 3 12B 亦展现出超越部分旧版闭源系统的潜力。
本文提出了 RADAR,这是一个基于 3D 医学图像与临床审阅流程的多模态基准,旨在通过评估影像一致性、临床严重程度及编辑类型,推动多模态模型在放射学报告修订与差异分析中的细粒度推理能力。
本文提出了 ECHO 框架,通过多智能体协作对多媒体事件超图进行迭代优化,并采用“先链接后绑定”策略以缓解跨模态错误传播,从而在多媒体事件提取任务中显著超越了现有最先进方法。
本文提出了一种利用手机拍摄视频或图像并结合运动恢复结构(SfM)技术与三维分割算法,对现场骨料堆进行三维重建与单颗粒提取的创新方法,旨在为道路建设中的骨料粒径与形状分析提供便捷、低成本的现场质量管控解决方案。
本文提出了名为 TimeSpot 的基准测试,旨在评估视觉语言模型在真实世界场景下仅凭视觉输入推断地理位置和时间信息的能力,结果显示当前最先进的模型在此类任务上表现不足,亟需新方法以实现鲁棒的地理时空理解。
本文提出了名为“叙事编织者(Narrative Weaver)”的新框架,通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制,并发布了首个电商广告视频分镜数据集(EAVSD),从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。
该论文提出了一种基于卷积滤波与优化早停策略的无监督深度学习框架,成功在缺乏训练数据且信噪比极低的条件下实现了离子束图像的高保真去噪与重建,将束流晕的可测量范围扩展至七倍标准差以上。
该研究探讨了 TerraMind 多模态地理空间基础模型在不进行高光谱预训练的情况下,通过波段选择等策略适应高光谱下游任务的能力,结果表明虽然其表现略逊于原生支持高光谱的模型,但为未来引入原生光谱标记化架构奠定了重要基准。
本文提出了一种专为移动机器人设计的鲁棒性单次羽毛球检测框架,通过构建包含 20,510 帧半自动标注数据的新数据集并优化 YOLOv8 网络,有效解决了动态视角下羽毛球检测的难题,为后续跟踪与轨迹估计等任务奠定了基础。