ReMoT: Reinforcement Learning with Motion Contrast Triplets
本文提出了 ReMoT,一种通过自动构建大规模运动对比数据集并结合组相对策略优化(GRPO)来统一解决视觉语言模型在时空一致性方面缺陷的训练范式,显著提升了模型在时空推理任务中的性能。
8771 篇论文
本文提出了 ReMoT,一种通过自动构建大规模运动对比数据集并结合组相对策略优化(GRPO)来统一解决视觉语言模型在时空一致性方面缺陷的训练范式,显著提升了模型在时空推理任务中的性能。
本文提出了 OPGAgent,一种通过分层证据收集、专用工具库及共识子代理机制来实现可审计牙科全景 X 光片解读的多工具智能体系统,并构建了 OPG-Bench 基准,在结构化报告与视觉问答评估中均超越了现有的牙科视觉语言模型及医疗智能体框架。
DreamWorld 提出了一种统一的世界建模范式,通过联合预测视频像素与基础模型特征来整合多维世界知识,并辅以一致性约束退火和多源内引导策略,有效解决了现有视频生成模型在时空一致性与物理常识理解上的不足,显著提升了生成视频的世界一致性。
本文提出了一种基于非对称事件-SVE 相机系统的硬件 - 算法协同设计的高动态范围成像方案,通过两阶段跨模态对齐框架与融合网络,有效解决了极端光照下的过曝问题并显著提升了图像细节恢复与边缘保真度。
本文提出了包含 10 个多样化数据集的 FEWTRANS 基准及超参数集成(HPE)评估协议,揭示了预训练模型选择对少样本迁移性能起决定性作用,且全参数微调往往优于复杂适配算法,同时深入分析了其成功机制及多模态模型在特定领域的性能衰退原因。
本文提出了 U-VLM 模型,通过从分割到分类再到报告生成的渐进式训练策略以及将 U-Net 编码器特征注入语言模型多层的多层视觉注入架构,在无需统一标注数据的情况下实现了 CT 影像报告生成的最先进性能,证明了精心设计的视觉编码器预训练比超大语言模型预训练更为关键。
本文通过构建概率框架并结合 14.4 万张物理打印样本的实验,量化了针对美国选举机器学习计票系统的对抗样本攻击风险,并揭示了数字域与物理域中攻击有效性的显著差异。
本文提出了名为 TaiChi 的新型视觉语言模型框架,通过双视觉分词器、双边注意力网络及基于 KAN 的模态投影器解决现有模型在粒度、序列长度和跨模态对齐方面的局限,并构建了多模态多任务 Token 通信系统以验证其优越性能。 *(注:虽然您提供的标题是"TokenCom",但摘要内容中明确提出的模型名称为"TaiChi",因此总结中采用了摘要内实际定义的模型名称。)*
本文提出了 RAISE,一种无需训练的需求驱动进化框架,通过在推理过程中动态执行提示词重写、噪声重采样等多样化优化动作,并根据结构化需求清单自适应分配计算资源,从而在显著降低生成样本和视觉语言模型调用成本的同时,实现了复杂文本到图像生成任务中的状态最先进对齐效果。
该论文提出了一种简单高效的随机分组策略来替代 Vision Transformer 中复杂的视觉令牌分组方法,实验证明其在多种视觉任务及下游应用中均优于现有精心设计的策略,并揭示了满足位置信息、头特征多样性、全局感受野和固定分组模式这四个条件即可实现高效分组的关键机制。
本文提出了 ArtiFixer,一种通过结合新型不透明度混合策略的双向生成模型与单步生成数百帧的因果自回归蒸馏模型的两阶段流水线,有效解决了现有 3D 重建方法在稀疏观测区域泛化性差和生成质量低的问题,显著提升了新视角合成质量并优于现有最先进方法。
本文提出了一种名为 COG 的无监督框架,通过将置信度感知点匹配建模为最优传输问题并结合视觉基础模型的语义先验,有效解决了单参考视图下新物体 6DoF 姿态估计中的遮挡与异常值挑战,实现了媲美甚至超越监督方法的性能。
本文提出了无需训练的 M² 框架,通过结合动态轨迹总结(内部记忆)与离线洞察检索(外部记忆)的双层记忆机制,有效解决了多模态智能体在长周期网页导航任务中的上下文效率与决策鲁棒性瓶颈,并在多个基准测试中显著提升了成功率并降低了计算成本。
本文提出了一种名为 HiClass 的基于多实例学习的双向特征整合框架,通过引入层级一致性、类内类间距离及组间交叉熵等定制损失函数,有效利用类别间的层级关系,显著提升了胃活检全切片图像在粗粒度和细粒度分类任务中的性能。
该论文提出了名为 EmbedLens 的分析框架,揭示了多模态大语言模型中视觉输入存在显著的语义稀疏性(仅约 60% 的“存活”令牌携带核心信息)及内部计算的冗余性,并据此提出通过令牌剪枝和中间层注入来构建更高效、可解释的模型架构。
本文提出了多模态自适应检索增强生成框架(MMA-RAG),通过基于层内视觉与文本联合表征的决策分类器动态评估模型内部知识置信度,从而自适应地决定是否引入外部检索信息,有效解决了视觉问答任务中的幻觉问题并提升了多模态场景下的推理鲁棒性。
本文提出了 MLLM-4D 框架,通过构建高效的数据流水线生成大规模 4D 时空指令数据,并采用结合时空思维链与奖励机制的强化学习策略,使多模态大语言模型仅凭 2D RGB 输入即可实现最先进的 4D 时空理解与推理能力。
本文提出了 Vision-TTT,一种将测试时训练(TTT)引入视觉领域的高效线性序列建模方法,通过结合双向扫描策略与卷积模块,在显著降低计算复杂度和显存占用的同时,实现了超越现有模型(如 DeiT)的 ImageNet 分类精度及下游任务性能。
本文提出了无需训练的 Jano 框架,通过识别生成内容在去噪初期的区域收敛异质性并实施自适应 Token 调度,在保持生成质量的同时显著加速了扩散 Transformer 模型(平均提速 2.0 倍)。
本文提出了 Mesh-Pro,一种结合异步优势引导排序偏好优化(ARPO)算法、对角线感知混合网格分词及射线几何奖励的强化学习框架,旨在显著提升 3D 四边形网格生成的训练效率与艺术风格化质量。