cs 篇论文 | Gist.Science

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

DiffWind 提出了一种物理信息可微框架，通过结合 3D 高斯泼溅、物质点法及格子玻尔兹曼方法，实现了从视频观测中联合重建风场与物体动力学、并支持新风力条件下正向模拟与风场重定向的任务。

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

本文提出了 VarSplat，一种通过显式学习每个高斯球的外观方差并利用全方差定律渲染可微不确定性图，从而引导跟踪、配准和回环检测聚焦于可靠区域，显著提升在低纹理、透明及复杂反射场景下鲁棒性的不确定性感知 3D 高斯泼溅 SLAM 系统。

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

该论文提出了 FootMR 方法，通过利用大规模动捕数据将 2D 脚部关键点序列提升为 3D 并预测残差运动，有效解决了现有无标记单目人体动作捕捉中脚部精细运动重建不准的问题，同时引入了 MOOF 数据集以支持相关评估。

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

本文提出了 DRIFT 模型，这是一种专为 4D 雷达点云设计的自动驾駛感知 Transformer，通过双路径架构（点路径与柱路径）及多阶段特征共享机制，有效融合局部细粒度与全局粗粒度上下文信息，从而在物体检测和自由道路估计任务中显著优于现有基线方法。

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

本文提出了 TemporalDoRA，一种通过在低秩瓶颈中嵌入轻量级时序注意力机制并仅对可训练分支进行权重分解的新型参数高效微调方法，旨在解决手术视频问答中的时序建模不足与语言偏见问题，并在其新发布的 REAL-Colon-VQA 数据集及 EndoVis18-VQA 基准上验证了其在提升非模板化问题鲁棒性方面的有效性。

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

本文通过构建首个交互异味（Interaction Smells）分类体系，对多轮人机协作代码生成中的交互质量缺陷进行了实证研究，并提出了基于不变量感知约束演进的 InCE 多智能体框架以有效抑制此类问题并提升任务成功率。

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida Ye2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

本文提出了 TriFusion-SR，一种基于小波引导条件扩散的联合三模态医学图像融合与超分辨率框架，通过频带分解、校正及自适应融合机制，有效解决了多模态图像融合中的分辨率退化与模态差异问题，显著提升了图像质量。

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

本文提出了 ProGS，一种基于八叉树结构并引入互信息增强机制的新型流式编解码器，旨在解决 3D 高斯泼溅（3DGS）数据的压缩与渐进式传输难题，在实现文件体积减少 45 倍的同时将视觉质量提升了 10% 以上。

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

Robotic Scene Cloning:Advancing Zero-Shot Robotic Scene Adaptation in Manipulation via Visual Prompt Editing

本文提出了一种名为“机器人场景克隆”（RSC）的新方法，通过视觉提示编辑和条件注入模块对现有机器人操作轨迹进行场景特定的自适应调整，从而在无需现场数据采集的情况下显著提升了机器人在真实环境中的零样本泛化能力。

Binyuan Huang, Yuqing Wen, Yucheng Zhao, Yaosi Hu, Tiancai Wang, Chang Wen Chen, Haoqiang Fan, Zhenzhong Chen2026-03-11💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

本文提出了 GSStream，一种基于 3D 高斯泼溅（3DGS）的新型 volumetric 场景流媒体系统，通过整合多用户协同视口预测模块和基于深度强化学习的码率自适应模块，有效解决了 3DGS 数据量大导致的带宽瓶颈问题，显著提升了流媒体传输的视觉质量与网络效率。

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

本文提出了 FrameDiT 架构，通过引入一种将整帧视为矩阵并进行跨帧交互的“矩阵注意力”机制，在保持高效性的同时有效解决了视频生成中全局时空结构建模与计算成本之间的权衡问题，实现了兼具高视频质量与时间连贯性的最先进生成效果。

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

Local Stability of Rankings

该论文提出了一种衡量排名对物品数值微小变化敏感度的“局部稳定性”新指标，并设计了具有理论保证的采样算法来近似计算该指标及检测密集区域，同时通过实验验证了其在提升决策质量方面的有效性。

Felix S. Campbell, Yuval Moskovitch2026-03-11💻 cs

Idempotent Slices with Applications to Code-Size Reduction

本文正式化了幂等后向切片的概念，提出了一种基于 GSA 形式的有效提取算法，并通过在 LLVM 测试套件中的实验证明，该算法能够识别并合并非连续指令序列，从而实现高达 7.24% 的代码体积缩减。

Rafael Alvarenga de Azevedo, Daniel Augusto Costa de Sa, Rodrigo Caetano Rocha, Fernando Magno Quintão Pereira2026-03-11💻 cs

A Regularized Ensemble Kalman Filter for Stochastic Phase Field Models of Brittle Fracture

该论文提出了一种结合正则化技术的集合卡尔曼滤波方法，用于在脆性断裂的随机相场模型中，利用传感器位移数据对位移场和相场状态进行贝叶斯推断更新，从而在满足模型约束的同时有效修正模拟结果以匹配真实状态。

Lucas Hermann, Ralf Jänicke, Knut Andreas Meyer, Ulrich Römer2026-03-11💻 cs

WVA: A Global Optimization Control Plane for llmd

本文提出了与推理引擎\texttt{llmd}协同设计的 WVA 全局优化控制平面，通过结合应用级 SLO、硬件异构性及引擎内部状态（如 KV 缓存）进行主动扩缩容，在提升有效吞吐量 37% 并降低 10 倍请求失败率的同时，显著优化了 GPU 资源成本与能耗。

Abhishek Malvankar, Lionel Villard, Mohammed Abdi, Evgeny Shindin, Braulio Dumba, Vishakha Ramani, Asser Tantawi, Tamar Eilam2026-03-11💻 cs

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

本文提出了 FetalAgents，这是首个用于胎儿超声图像和视频分析的多智能体系统，它通过轻量级协调框架动态调度专业视觉模型，实现了从多平面关键帧识别、结构化测量到生成可审计临床报告的全流程自动化，并在多项临床任务中展现出超越专用模型和多模态大语言模型的鲁棒性与准确性。

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

本文提出了一种基于数据新鲜度约束的任务调度框架，通过引入任务偏移量实现数据生产的准时制（JIT）同步，并借助主导路径分解与共识偏移搜索算法，在消除冗余采样和人为延迟的同时，确保了多速率任务链的端到端数据新鲜度并维持了全局 EDF 的 100% 可调度性。

José Luis Conradi Hoffmann, Antônio Augusto Fröhlich2026-03-11💻 cs

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

该论文针对连续环境视觉语言导航任务中监督信号稀疏及错误累积问题，提出了步感知的对比对齐（SACA）框架，通过基于感知的逐步审计机制从不完美的轨迹中提取密集监督信号，并结合场景条件分组策略实现动态优化，从而在基准测试中取得了最先进的性能。

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

本文提出了名为 ENIGMA-360 的新数据集，该数据集在真实工业场景中采集了 180 组时间同步的 360 度第一人称与第三人称视频及标注，旨在填补工业领域人机行为理解数据的空白，并通过基线实验展示了现有模型在此类复杂场景下的局限性。

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

本文提出了语言感知规划（LAP）模型，该模型利用微调后的视觉语言模型将视觉观测转化为更具区分性的文本嵌入，并通过扩散模型生成动作序列，在多个程序规划基准测试中显著超越了现有最先进方法。

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs