Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation
Pri4R 提出了一种简单有效的训练方法,通过利用特权 4D 信息(3D 点轨迹预测)作为辅助任务,使视觉 - 语言 - 动作(VLA)模型在无需增加推理开销的情况下,隐式地习得世界动力学规律,从而显著提升了其在复杂操作任务中的物理感知与控制能力。
1863 篇论文
Pri4R 提出了一种简单有效的训练方法,通过利用特权 4D 信息(3D 点轨迹预测)作为辅助任务,使视觉 - 语言 - 动作(VLA)模型在无需增加推理开销的情况下,隐式地习得世界动力学规律,从而显著提升了其在复杂操作任务中的物理感知与控制能力。
本文综述了超低功耗边缘与片上传感器 AI 处理器的演进现状,并通过在 GAP9、STM32N6 和 Sony IMX500 三种代表性平台上对 PicoSAM2 模型的实证基准测试,揭示了不同架构在延迟、能效及能量延迟积方面的性能权衡,突显了片上传感器处理技术的成熟度与重要性。
该论文提出了 Granulon,一种基于 DINOv3 的多模态大语言模型,通过文本条件粒度控制器和自适应令牌聚合模块,实现了从像素级到粗粒度语义的动态自适应融合,显著提升了细粒度视觉理解能力并降低了幻觉。
该论文提出了一种面向 3D 高斯泼溅(3D-GS)的原生可解释水印框架,通过 Trio-Experts 模块与安全性预算感知门控机制实现载体选择与质量保护的解耦,在显著提升鲁棒性与图像质量的同时,利用解耦微调技术实现了水印嵌入位置与选择依据的透明化归因。
本文提出了具备显式反思机制的视觉生成智能体 VisionCreator-R1 及其反思 - 规划协同优化(RPCO)训练方法,通过解决强化学习中反思与规划优化的不对称性,使其在单图及多图任务基准测试中表现优于 Gemini2.5Pro。
该论文提出了一种基于计算机视觉和 YOLOv8 目标检测模型的智能停车分配系统,通过逆透视映射(IPM)融合多路摄像头数据来动态识别空车位,并利用 3D 笛卡尔坐标图模拟停车环境以引导用户,从而为高密度城市提供低成本、高效率的可持续停车解决方案。
该论文提出了一种名为 MuCTaL 的轻量级多癌症肿瘤定位框架,通过在四种癌症数据上进行平衡训练,实现了在已知癌种及未见过的胰腺癌中均具备良好泛化能力的肿瘤区域检测,并构建了可部署的数字病理空间热图生成工作流。
HECTOR 提出了一种混合参考条件生成管道,支持通过静态图像或动态视频作为混合引导,并允许用户显式指定各元素的轨迹,从而实现对视频生成中复杂时空约束的细粒度组合控制。
本文提出了一种基于黑盒优化与语义同质化的系统性框架,在 CARLA 仿真中对比评估了 Dolphins、OmniDrive 和 LeapVAD 三种视觉语言模型架构在物理补丁攻击下的鲁棒性,揭示了当前自动驾驶 VLM 设计存在严重的安全漏洞及独特的架构脆弱性模式。
该论文提出了视觉查询分割(VQS)新任务及首个大规模基准 VQS-4K,并设计了基于 SAM 2 改进的 VQ-SAM 方法,旨在实现对未修剪视频中目标对象所有出现时刻的像素级精准定位。
该论文针对甲状腺超声多任务学习在跨中心域偏移下几何与纹理特征退化不一致的问题,提出了一种基于多核门控适配器(MKGA)的轻量级解码器方案,通过融合互补感受野与语义门控机制,有效提升了分割与恶性风险评估的跨中心鲁棒性。
本文提出了 MedCBR 框架,通过将临床指南融入视觉 - 语言模型与概念推理,实现了从医学图像分析到符合指南的专家级诊断推理的端到端可解释性提升。
该论文介绍了 MEGC2026 微表情挑战赛,旨在通过引入基于多模态大语言模型的微表情视频问答(ME-VQA)和长视频问答(ME-LVQA)两项新任务,推动微表情分析在复杂时空推理与多模态理解领域的研究进展。
本文提出了 TIDE,一种无需额外训练且无采样开销的文本引导动态外推方法,通过引入文本锚定机制和基于谱进展感知的动态温度控制,有效解决了扩散 Transformer 在高分辨率生成中因注意力稀释导致的结构退化与伪影问题,实现了任意分辨率和长宽比的图像生成。
该论文提出了一种利用 Gemma 3 和 Qwen3-VL 等视觉语言基础模型,通过上下文学习从无人机遥感图像中直接生成植物仿真配置(JSON 格式)的新方法,旨在解决功能性结构植物模型在规模化部署中的复杂性瓶颈,并构建了首个针对农业数字孪生三维重建的评估基准。
本文提出了 PathoScribe 框架,通过统一的检索增强大语言模型技术,将静态的病理报告档案转化为支持自然语言检索、自动队列构建及临床推理的“活体图书馆”,显著提升了病理数据的检索效率与临床决策价值。
该论文提出了 BiCLIP 框架,通过利用少量锚点样本学习跨域图像特征间的规范几何变换,以极简的参数量实现了多模态特征的对齐,并在多个基准测试中取得了最先进的零样本域适应性能。
该论文针对真实世界中音视频分布动态演变的挑战,首次提出了一个无样本的音视频分割持续学习基准,并设计了结合音频引导预融合条件与低秩锚定技术的 ATLAS 基线模型,以在避免灾难性遗忘的同时实现持续感知。
本文提出了 SVG-EAR,一种无需训练的线性补偿方法,通过语义聚类与误差感知路由机制,在稀疏视频生成中高效恢复被跳过注意力块的信息,从而在保持生成质量的同时显著提升推理速度。
本文提出了 SurgCalib,一种基于高斯泼溅(Gaussian Splatting)的无标记手眼标定框架,旨在解决达芬奇手术机器人因线缆拉伸导致的编码器测量不准问题,并通过在 RCM 约束下的两阶段优化实现了高精度的工具位姿估计。