MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs
本文提出了 MMTok 方法,通过将视觉令牌选择问题构建为最大覆盖问题,利用视觉和文本令牌的多模态互补信息来最大化覆盖度,从而在显著减少推理延迟的同时保持了视觉语言模型的高性能。
6589 篇论文
本文提出了 MMTok 方法,通过将视觉令牌选择问题构建为最大覆盖问题,利用视觉和文本令牌的多模态互补信息来最大化覆盖度,从而在显著减少推理延迟的同时保持了视觉语言模型的高性能。
本文提出了面向真实多任务场景的并发异步具身问答(EQsA)新范式,构建了包含 CAEQs 基准测试与评估指标的完整体系,并设计了利用共享记忆和优先级规划的 ConEQsA 智能体框架,显著提升了机器人在处理异步、多紧迫度问题时的响应效率与性能。
该论文通过构建基于鸟瞰图车道信息的诊断性视觉问答任务,系统评估了视觉语言模型在自动驾驶道路拓扑理解方面的能力,发现尽管模型规模、推理长度和示例数量与性能呈正相关,但当前模型(包括闭源和开源)在空间拓扑推理上仍存在显著瓶颈,尚未达到安全导航所需的成熟度。
本文提出了名为 SiNGER 的新型知识蒸馏框架,通过基于零空间的扰动对教师模型特征进行精炼,在有效抑制视觉 Transformer 高范数伪影的同时保留关键信息,从而显著提升学生模型在下游任务中的性能与表征可解释性。
本文提出了首个统一可见光与光谱遥感数据、基于 MCP 工具生态实现跨模态多步定量推理的地球观测智能体框架 Earth-Agent,并配套构建了包含 248 个专家任务的大规模基准 Earth-Bench,从而推动了地球观测领域向科学驱动的下一代大模型应用范式转变。
PROFusion 提出了一种结合基于学习的相机位姿回归初始化与基于优化的深度图细化方法,成功解决了现有 RGB-D SLAM 系统在相机剧烈运动或不稳定状态下难以实现实时、鲁棒且高精度稠密重建的难题。
本文提出了 Proxy-GS,一种利用快速代理系统生成精确遮挡深度图的新颖流程,旨在通过增强高斯原点的遮挡感知能力,在训练阶段引导致密化并优化遮挡区域,在推理阶段实现锚点剔除,从而在显著提升渲染质量的同时大幅降低计算开销。
EchoGen 是首个基于视觉自回归(VAR)模型的前馈式主体驱动生成框架,它通过独特的双路径注入策略解耦主体语义与细节,在保持与扩散模型相当生成质量的同时,显著降低了推理延迟并实现了零样本高效生成。
本文提出了名为 TTT3R 的免训练测试时训练方法,通过利用记忆状态与观测数据间的对齐置信度推导闭式学习率来优化 3D 重建基础模型的记忆更新,从而在保持高效推理的同时显著提升了模型在长序列场景下的长度泛化能力。
BindWeave 提出了一种基于 MLLM-DiT 的统一框架,通过多模态大语言模型进行深度跨模态推理以精准解析复杂提示词中的实体关系,从而实现了从单主体到多主体场景的高保真且主体一致的视频生成。
本文提出了 ArbInterp 框架,通过引入时间感知旋转位置编码(TaRoPE)和外观 - 运动解耦的条件策略,实现了能够灵活生成任意时间点及任意长度中间帧的高效视频插值方法,显著提升了多尺度插值任务中的保真度与时空连贯性。
该论文提出了 D2E 框架,通过利用大规模桌面游戏数据(包括人类演示和伪标签数据)预训练通用视觉 - 动作模型,成功实现了向真实世界具身 AI 任务(如机械臂操作和导航)的高效迁移,其 10 亿参数模型在性能上媲美甚至超越了参数量大 7 倍的现有模型。
本文提出了 Human3R,一种基于 CUT3R 架构的轻量级统一前馈框架,仅需单张 GPU 在 BEDLAM 合成数据上训练一天,即可从单目视频中实时(15 FPS)一次性重建全局多人体 SMPL-X 模型、稠密 3D 场景及相机轨迹,无需依赖多阶段流水线或外部预处理模块。
本文提出了 MIRAGE 框架,通过引入多层次细粒度对齐范式、利用跨层级相似性一致性消除冗余计算,并实现参数自动配置,从而在显著提升多向量图像检索精度的同时,将计算开销降低了高达 3.5 倍。
本文揭示了基于强化学习的视觉推理模型通过将冗余视觉表征转化为紧凑的跨域文本表征来实现泛化,并据此提出了 RALI 算法,利用对比学习直接对齐图像与这些文本表征,从而在无需加载大语言模型或执行推理过程的情况下,以极低的参数量和推理时间实现了与推理模型相当的泛化性能。
该研究利用机制可解释性技术揭示了视频大语言模型(VideoLLMs)内部信息流动的隐藏模式,阐明了其从跨帧交互到视频 - 语言融合再到答案生成的时序推理机制,并发现模型通过抑制大量注意力边来保留关键信息路径以维持性能。
本文提出了一种名为 Self-Aug 的无需训练的解码策略,通过利用模型内在知识实现查询自适应的语义对齐增强,并结合基于熵的自适应阈值算法动态调整候选词规模,从而显著提升了大型视觉 - 语言模型生成的事实一致性。
本文提出了一种基于无条件扩散模型的火星地形重建方法,通过非均匀重缩放策略处理 NASA HiRISE 数据,在填补卫星高度图缺失值方面显著优于传统插值算法,有效提升了虚拟现实中火星环境模拟的几何一致性与感知相似度。
本文提出了一种名为 CASR-Net 的深度学习网络,通过结合多通道预处理、基于 Self-ONN 解码器的 UNet 分割架构以及轮廓细化模块,显著提升了 X 射线冠状动脉造影图像中狭窄血管的分割精度与连续性,为冠心病的早期诊断提供了有力的自动化工具。
本文提出了 Kinematify 框架,该框架能够仅凭任意 RGB 图像或文本描述,通过结合蒙特卡洛树搜索与几何驱动优化,自动合成具有物理一致性和功能有效性的高自由度可动物体模型,从而克服了现有方法对运动序列或人工数据集的依赖。