DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics
DiffWind 提出了一种物理信息可微框架,通过结合 3D 高斯泼溅、物质点法及格子玻尔兹曼方法,实现了从视频观测中联合重建风场与物体动力学、并支持新风力条件下正向模拟与风场重定向的任务。
8411 篇论文
DiffWind 提出了一种物理信息可微框架,通过结合 3D 高斯泼溅、物质点法及格子玻尔兹曼方法,实现了从视频观测中联合重建风场与物体动力学、并支持新风力条件下正向模拟与风场重定向的任务。
本文提出了 VarSplat,一种通过显式学习每个高斯球的外观方差并利用全方差定律渲染可微不确定性图,从而引导跟踪、配准和回环检测聚焦于可靠区域,显著提升在低纹理、透明及复杂反射场景下鲁棒性的不确定性感知 3D 高斯泼溅 SLAM 系统。
该论文提出了 FootMR 方法,通过利用大规模动捕数据将 2D 脚部关键点序列提升为 3D 并预测残差运动,有效解决了现有无标记单目人体动作捕捉中脚部精细运动重建不准的问题,同时引入了 MOOF 数据集以支持相关评估。
本文提出了 DRIFT 模型,这是一种专为 4D 雷达点云设计的自动驾駛感知 Transformer,通过双路径架构(点路径与柱路径)及多阶段特征共享机制,有效融合局部细粒度与全局粗粒度上下文信息,从而在物体检测和自由道路估计任务中显著优于现有基线方法。
本文提出了 TemporalDoRA,一种通过在低秩瓶颈中嵌入轻量级时序注意力机制并仅对可训练分支进行权重分解的新型参数高效微调方法,旨在解决手术视频问答中的时序建模不足与语言偏见问题,并在其新发布的 REAL-Colon-VQA 数据集及 EndoVis18-VQA 基准上验证了其在提升非模板化问题鲁棒性方面的有效性。
本文通过构建首个交互异味(Interaction Smells)分类体系,对多轮人机协作代码生成中的交互质量缺陷进行了实证研究,并提出了基于不变量感知约束演进的 InCE 多智能体框架以有效抑制此类问题并提升任务成功率。
本文提出了 TriFusion-SR,一种基于小波引导条件扩散的联合三模态医学图像融合与超分辨率框架,通过频带分解、校正及自适应融合机制,有效解决了多模态图像融合中的分辨率退化与模态差异问题,显著提升了图像质量。
本文提出了 ProGS,一种基于八叉树结构并引入互信息增强机制的新型流式编解码器,旨在解决 3D 高斯泼溅(3DGS)数据的压缩与渐进式传输难题,在实现文件体积减少 45 倍的同时将视觉质量提升了 10% 以上。
本文提出了一种名为“机器人场景克隆”(RSC)的新方法,通过视觉提示编辑和条件注入模块对现有机器人操作轨迹进行场景特定的自适应调整,从而在无需现场数据采集的情况下显著提升了机器人在真实环境中的零样本泛化能力。
本文提出了 GSStream,一种基于 3D 高斯泼溅(3DGS)的新型 volumetric 场景流媒体系统,通过整合多用户协同视口预测模块和基于深度强化学习的码率自适应模块,有效解决了 3DGS 数据量大导致的带宽瓶颈问题,显著提升了流媒体传输的视觉质量与网络效率。
本文提出了 FrameDiT 架构,通过引入一种将整帧视为矩阵并进行跨帧交互的“矩阵注意力”机制,在保持高效性的同时有效解决了视频生成中全局时空结构建模与计算成本之间的权衡问题,实现了兼具高视频质量与时间连贯性的最先进生成效果。
该论文提出了一种衡量排名对物品数值微小变化敏感度的“局部稳定性”新指标,并设计了具有理论保证的采样算法来近似计算该指标及检测密集区域,同时通过实验验证了其在提升决策质量方面的有效性。
本文正式化了幂等后向切片的概念,提出了一种基于 GSA 形式的有效提取算法,并通过在 LLVM 测试套件中的实验证明,该算法能够识别并合并非连续指令序列,从而实现高达 7.24% 的代码体积缩减。
该论文提出了一种结合正则化技术的集合卡尔曼滤波方法,用于在脆性断裂的随机相场模型中,利用传感器位移数据对位移场和相场状态进行贝叶斯推断更新,从而在满足模型约束的同时有效修正模拟结果以匹配真实状态。
本文提出了与推理引擎\texttt{llmd}协同设计的 WVA 全局优化控制平面,通过结合应用级 SLO、硬件异构性及引擎内部状态(如 KV 缓存)进行主动扩缩容,在提升有效吞吐量 37% 并降低 10 倍请求失败率的同时,显著优化了 GPU 资源成本与能耗。
本文提出了 FetalAgents,这是首个用于胎儿超声图像和视频分析的多智能体系统,它通过轻量级协调框架动态调度专业视觉模型,实现了从多平面关键帧识别、结构化测量到生成可审计临床报告的全流程自动化,并在多项临床任务中展现出超越专用模型和多模态大语言模型的鲁棒性与准确性。
本文提出了一种基于数据新鲜度约束的任务调度框架,通过引入任务偏移量实现数据生产的准时制(JIT)同步,并借助主导路径分解与共识偏移搜索算法,在消除冗余采样和人为延迟的同时,确保了多速率任务链的端到端数据新鲜度并维持了全局 EDF 的 100% 可调度性。
该论文针对连续环境视觉语言导航任务中监督信号稀疏及错误累积问题,提出了步感知的对比对齐(SACA)框架,通过基于感知的逐步审计机制从不完美的轨迹中提取密集监督信号,并结合场景条件分组策略实现动态优化,从而在基准测试中取得了最先进的性能。
本文提出了名为 ENIGMA-360 的新数据集,该数据集在真实工业场景中采集了 180 组时间同步的 360 度第一人称与第三人称视频及标注,旨在填补工业领域人机行为理解数据的空白,并通过基线实验展示了现有模型在此类复杂场景下的局限性。
本文提出了语言感知规划(LAP)模型,该模型利用微调后的视觉语言模型将视觉观测转化为更具区分性的文本嵌入,并通过扩散模型生成动作序列,在多个程序规划基准测试中显著超越了现有最先进方法。