StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

本文提出了 StyleVLA,一种基于 Qwen3-VL-4B 的驾驶风格感知视觉语言动作模型,通过引入物理约束混合损失和构建大规模多风格指令数据集,实现了在轨迹可行性、风格适应性及综合驾驶表现上超越现有闭源模型及最先进 VLA 模型的自动驾驶决策能力。

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

本文提出了一种结合自注意力编码与坐标保持融合的两阶段组件感知框架,通过自注意力自编码器、坐标保持门控融合模块及空间自适应细化修正器,在多种面部与非面部数据集上显著超越了现有生成模型,实现了高保真、语义准确且空间对齐的草图到图像生成。

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

本文提出了对角蒸馏(Diagonal Distillation)方法,通过采用“前期多步、后期少步”的非对称生成策略并结合隐式光流建模,有效解决了现有视频蒸馏技术在长序列生成中运动连贯性差、误差累积及延迟过高的问题,实现了在保持高质量的同时将 5 秒视频生成速度提升 277.3 倍至 31 FPS。

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

本文提出了 SurgFed 框架,通过语言引导的通道选择(LCS)和语言引导的超聚合(LHA)机制,有效解决了机器人辅助微创手术中因组织多样性和任务多样性导致的联邦学习适应性与聚合难题,显著提升了跨手术类型场景下的分割与深度估计性能。

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

该论文提出了基于 LLM 的 RuleSafe 基准测试以评估长程非马尔可夫操作任务,并设计了结合 VQ-VAE 的 VQ-Memory 模块,通过离散潜变量编码历史状态,显著提升了现有视觉 - 语言 - 动作模型在复杂长程操作中的规划能力、泛化性及计算效率。

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

该论文提出了一种名为 NS-VLA 的新型神经符号视觉 - 语言 - 动作框架,通过结合符号编码器、符号求解器和在线强化学习,有效解决了现有模型在数据效率、可复用原语学习以及探索能力方面的局限,并在机器人操作任务中展现出卓越的少样本训练、抗干扰及零样本泛化性能。

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran Luo2026-03-11💻 cs