HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild
该论文提出了 HarvestFlex 系统,首次通过视觉 - 语言 - 动作(VLA)策略迁移,利用仅 3.71 小时的 VR 遥操作数据和多视角 RGB 感知,在无需深度云和显式几何校准的情况下,成功实现了温室草莓采摘任务中 74.0% 的成功率。
2339 篇论文
该论文提出了 HarvestFlex 系统,首次通过视觉 - 语言 - 动作(VLA)策略迁移,利用仅 3.71 小时的 VR 遥操作数据和多视角 RGB 感知,在无需深度云和显式几何校准的情况下,成功实现了温室草莓采摘任务中 74.0% 的成功率。
该报告通过与巴基斯坦 Sialkot 地区行业领袖合作,利用包含 4,414 张高分辨率图像的新数据集,结合 YOLOv8、ResNet-152 和 EfficientNet-b4 等深度学习架构,开发自动化光学检测系统以识别和修复手术器械缺陷,从而提升制造标准并保障患者安全。
本文提出了 MM-ISTS,一种利用多模态视觉 - 文本大语言模型,通过双阶段编码机制、自适应查询特征提取及多模态对齐模块,有效解决不规则采样时间序列预测中上下文语义缺失与细粒度时序模式捕捉难题的框架。
RePer-360 提出了一种基于自调制的畸变感知框架,通过轻量级几何对齐引导模块和自条件 AdaLN-Zero 机制,在保留预训练透视先验的同时实现了对全景深度估计的高效领域适配,仅需 1% 的训练数据即可显著超越标准微调方法。
该论文针对视觉 - 语言 - 动作(VLA)模型在指令与场景冲突时表现出的“语言盲视”问题,提出了无需训练且即插即用的指令引导注意力重校准(IGAR)方法,通过重构注意力分布显著提升了模型在分布外矛盾指令下的可靠性,同时保持了基线任务性能。
该论文提出了名为 RepKAN 的新型架构,通过融合 CNN 的结构效率与 KAN 的非线性表征能力,在 EuroSAT 和 NWPU-RESISC45 数据集上实现了超越现有最先进模型的分类性能,同时为遥感图像分类提供了可解释的物理推理机制。
本文提出了 EffectMaker,这是一个通过结合多模态大语言模型进行语义推理与扩散 Transformer 进行上下文视觉学习,从而实现无需针对特定效果微调即可生成高质量、可控且一致的定制化视觉特效的统一框架,并构建了包含 13 万条视频的大规模 EffectData 数据集以增强其泛化能力。
本文提出了 MOSIV 框架,通过利用视频中的几何目标指导可微模拟器直接优化连续的单物体材料参数,并发布了新的合成基准,从而有效解决了现有方法难以处理的多物体系统识别难题。
ViewFusion 提出了一种将跨视图空间预对齐与问答推理显式分离的两阶段框架,通过合成监督与 GRPO 强化学习训练,显著提升了视觉语言模型在多视图空间推理任务中的表现。
本文提出了 StruVis 框架,通过利用文本化的结构化视觉表示作为中间推理状态,使多模态大语言模型能够在无需生成中间图像的情况下进行“结构化视觉思考”,从而在降低计算成本的同时显著提升了基于推理的文本到图像生成性能。
本文提出了一种无需训练且即插即用的 Occlusion-Aware SORT (OA-SORT) 框架,通过引入遮挡感知模块、偏移量及偏差感知动量机制有效缓解部分遮挡导致的位置成本混淆问题,从而在多个基准数据集上显著提升了多目标跟踪的精度与鲁棒性。
该论文针对高维超列在图像分割中计算复杂度过高的问题,提出通过分层子采样构建稀疏超列并结合集成学习方法,在极低样本量()的脑肿瘤分割任务中显著优于传统多尺度 UNet 基线。
该论文提出了名为 FontUse 的数据驱动方法,通过构建包含约 7 万张图像的大规模字体专用数据集,利用自动标注流程将字体风格与使用场景相结合,使现有文生图模型无需架构修改即可显著提升对图像排版要求的遵循度。
该论文提出了一种名为 GvU 的基于理解的内在奖励机制,通过让统一多模态模型利用其理解分支自我评估并指导生成,在无需外部监督的情况下有效缩小了模型在视觉理解与生成能力之间的差距。
本文提出了 GenHOI,一种针对预训练视频生成模型的轻量级增强方法,通过引入头滑动 RoPE 实现时间平衡以及设计两级空间注意力门控实现空间选择性,从而在复杂野外场景中显著提升了手 - 物交互视频的物体一致性与生成质量。
该论文针对自动驾驶 VLA 模型中因模仿学习导致探索不足的问题,提出了名为 Curious-VLA 的两阶段框架,通过可行轨迹扩展策略和自适应多样性采样等创新方法有效平衡了利用与探索,从而在 Navsim 基准测试中取得了当前最优的性能表现。
该论文通过构建反事实图像集并训练线性探针,分析了轻量级视觉语言模型在自动驾驶场景中对视觉概念的编码机制,揭示了感知失败(概念未线性编码)与认知失败(概念存在但语义对齐错误)两种主要故障模式,并发现物体距离增加会显著降低视觉概念的可分性。
该论文提出了 TempoSyncDiff,一种基于参考条件的潜在扩散框架,通过教师 - 学生蒸馏技术将推理步数大幅减少,从而在保持身份一致性和时序稳定性的同时,实现了低延迟、适合边缘部署的音频驱动说话头生成。
本文提出了一种将废弃的全向 RGB-LiDAR 日志转化为 3D 高斯泼溅(3DGS)鲁棒初始化资产的高效流水线,通过解决畸变校正、点云降采样及多模态配准等挑战,实现了从标准传感器数据到高质量数字孪生的确定性构建。
该论文提出了名为“情感连续口型生成”(EC-TFG)的新任务及相应的 TIE-TFG 模型,旨在通过文本和动态情感描述驱动生成能够展现自然、平滑情感过渡的高保真说话人脸视频,从而解决现有方法难以模拟人类连续情感变化的问题。