Grounding Synthetic Data Generation With Vision and Language Models
该论文提出了一种结合视觉与语言模型的基于地面真值的合成数据生成与评估框架,并发布了包含 40 万张图像的大规模遥感数据集 ARAS400k,实验证明将合成数据与真实数据结合使用能显著提升语义分割和图像描述任务的性能。
1863 篇论文
该论文提出了一种结合视觉与语言模型的基于地面真值的合成数据生成与评估框架,并发布了包含 40 万张图像的大规模遥感数据集 ARAS400k,实验证明将合成数据与真实数据结合使用能显著提升语义分割和图像描述任务的性能。
本文提出了 X-GS 框架,通过其高效的 X-GS-Perceiver 管线将未标注视频流实时转化为富含语义的 3D 高斯表示,并借助 X-GS-Thinker 组件与多模态模型结合,从而统一了在线 SLAM 与下游视觉语言任务。
该论文提出了一种名为 OTPL-VIO 的鲁棒立体视觉惯性里程计系统,通过引入无需训练的线特征描述子与基于熵正则化最优传输的关联机制,结合自适应不确定性加权策略,有效解决了低纹理和光照剧烈变化场景下的特征稀疏与匹配歧义问题,实现了高精度且实时的状态估计。
本文提出了一种名为 KV-Lock 的训练免费框架,通过利用扩散幻觉检测动态调节背景键值缓存融合比例与引导强度,在视频编辑任务中有效平衡了前景生成质量与背景一致性。
DiffWind 提出了一种物理信息可微框架,通过结合 3D 高斯泼溅、物质点法及格子玻尔兹曼方法,实现了从视频观测中联合重建风场与物体动力学、并支持新风力条件下正向模拟与风场重定向的任务。
本文提出了 VarSplat,一种通过显式学习每个高斯球的外观方差并利用全方差定律渲染可微不确定性图,从而引导跟踪、配准和回环检测聚焦于可靠区域,显著提升在低纹理、透明及复杂反射场景下鲁棒性的不确定性感知 3D 高斯泼溅 SLAM 系统。
该论文提出了 FootMR 方法,通过利用大规模动捕数据将 2D 脚部关键点序列提升为 3D 并预测残差运动,有效解决了现有无标记单目人体动作捕捉中脚部精细运动重建不准的问题,同时引入了 MOOF 数据集以支持相关评估。
本文介绍了名为 AutoViVQA 的大规模自动构建的越南语视觉问答数据集,旨在利用预训练 Transformer 架构推动越南语多模态学习研究,并系统评估了多种自动评价指标在跨语言场景下的表现。
本文提出了 DRIFT 模型,这是一种专为 4D 雷达点云设计的自动驾駛感知 Transformer,通过双路径架构(点路径与柱路径)及多阶段特征共享机制,有效融合局部细粒度与全局粗粒度上下文信息,从而在物体检测和自由道路估计任务中显著优于现有基线方法。
本文提出了 TemporalDoRA,一种通过在低秩瓶颈中嵌入轻量级时序注意力机制并仅对可训练分支进行权重分解的新型参数高效微调方法,旨在解决手术视频问答中的时序建模不足与语言偏见问题,并在其新发布的 REAL-Colon-VQA 数据集及 EndoVis18-VQA 基准上验证了其在提升非模板化问题鲁棒性方面的有效性。
本文提出了 TriFusion-SR,一种基于小波引导条件扩散的联合三模态医学图像融合与超分辨率框架,通过频带分解、校正及自适应融合机制,有效解决了多模态图像融合中的分辨率退化与模态差异问题,显著提升了图像质量。
本文提出了 ProGS,一种基于八叉树结构并引入互信息增强机制的新型流式编解码器,旨在解决 3D 高斯泼溅(3DGS)数据的压缩与渐进式传输难题,在实现文件体积减少 45 倍的同时将视觉质量提升了 10% 以上。
本文提出了 GSStream,一种基于 3D 高斯泼溅(3DGS)的新型 volumetric 场景流媒体系统,通过整合多用户协同视口预测模块和基于深度强化学习的码率自适应模块,有效解决了 3DGS 数据量大导致的带宽瓶颈问题,显著提升了流媒体传输的视觉质量与网络效率。
本文提出了 FrameDiT 架构,通过引入一种将整帧视为矩阵并进行跨帧交互的“矩阵注意力”机制,在保持高效性的同时有效解决了视频生成中全局时空结构建模与计算成本之间的权衡问题,实现了兼具高视频质量与时间连贯性的最先进生成效果。
本文提出了 EXPLORE-Bench 基准,旨在评估多模态大语言模型在从第一人称视角预测长序列动作后的最终场景方面的能力,揭示了当前模型在长程推理上与人类存在的显著差距,并验证了通过逐步推理分解任务虽能提升性能但会带来计算开销。
本文提出了 FetalAgents,这是首个用于胎儿超声图像和视频分析的多智能体系统,它通过轻量级协调框架动态调度专业视觉模型,实现了从多平面关键帧识别、结构化测量到生成可审计临床报告的全流程自动化,并在多项临床任务中展现出超越专用模型和多模态大语言模型的鲁棒性与准确性。
本文提出了-Occ 框架,通过多视角掩码重建模块和特征记忆模块,有效解决了多相机输入不完整场景下的 3D 语义占据预测问题,显著提升了自动驾驶系统在相机缺失情况下的几何结构与语义一致性。
该论文针对连续环境视觉语言导航任务中监督信号稀疏及错误累积问题,提出了步感知的对比对齐(SACA)框架,通过基于感知的逐步审计机制从不完美的轨迹中提取密集监督信号,并结合场景条件分组策略实现动态优化,从而在基准测试中取得了最先进的性能。
本文提出了名为 ENIGMA-360 的新数据集,该数据集在真实工业场景中采集了 180 组时间同步的 360 度第一人称与第三人称视频及标注,旨在填补工业领域人机行为理解数据的空白,并通过基线实验展示了现有模型在此类复杂场景下的局限性。
本文提出了语言感知规划(LAP)模型,该模型利用微调后的视觉语言模型将视觉观测转化为更具区分性的文本嵌入,并通过扩散模型生成动作序列,在多个程序规划基准测试中显著超越了现有最先进方法。