See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

本文提出了名为“见、规划、回退”(SPR)的进度感知视觉 - 语言 - 动作框架,该框架通过将语言指令动态转化为空间子目标序列,并在执行中持续监测进度、规划轨迹及在失败时回退至可恢复状态,从而在不依赖额外训练数据或辅助模型的情况下显著提升了机器人操作的鲁棒性与泛化能力。

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

本文提出了名为 IntroSVG 的生成框架,通过构建一个兼具生成与批判双重角色的统一视觉语言模型,利用监督微调、直接偏好优化以及“生成 - 审查 - 优化”的迭代闭环机制,将渲染后的视觉反馈融入训练过程,从而显著提升了文本到矢量图形(SVG)生成的质量、语义对齐度及可编辑性。

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

该论文提出了名为 OddGridBench 的可控基准以评估多模态大模型对细微视觉差异的敏感度,发现现有模型表现远逊于人类,并进一步通过引入课程学习与距离感知奖励的 OddGrid-GRPO 强化学习框架显著提升了模型的细粒度视觉判别能力。

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

ProvAgent: Threat Detection Based on Identity-Behavior Binding and Multi-Agent Collaborative Attack Investigation

本文提出了 ProvAgent 框架,通过结合传统模型的高效初筛、基于图对比学习的细粒度身份 - 行为一致性绑定以及多智能体协作的自主调查机制,有效解决了高级持续性威胁(APT)检测中专家依赖与警报疲劳的矛盾,实现了低成本、高精度的攻击过程重构。

Wenhao Yan, Ning An, Linxu Li, Bingsheng Bi, Bo Jiang, Zhigang Lu, Baoxu Liu, Junrong Liu, Cong Dong2026-03-11💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

本文提出了一种名为 EPPINN 的框架,通过结合证据深度学习与物理信息建模,在无需贝叶斯采样或集成推理的情况下实现了对急性缺血性卒中 CT 灌注成像中物理约束违反的不确定性量化,从而在提升参数估计精度的同时显著增强了临床诊断的可靠性。

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs

PixelConfig: Longitudinal Measurement and Reverse-Engineering of Meta Pixel Configurations

该论文提出了名为 PixelConfig 的差分分析框架,通过逆向工程揭示了 Meta Pixel 在健康类网站等场景中默认启用高比例的活动与身份追踪功能,且即便启用了限制追踪的配置,其实际保护效果也极为有限。

Abdullah Ghani (Lahore University of Management Sciences), Yash Vekaria (University of California, Davis), Zubair Shafiq (University of California, Davis)2026-03-11💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

本文提出了 EventVGGT 框架,通过将事件流建模为连贯视频序列,并首创从视觉几何基础模型(VGGT)中蒸馏时空与多视图几何先验的三级策略,有效解决了现有无监督事件深度估计方法因忽略时间连续性而导致的预测不一致问题,显著提升了深度估计精度与泛化能力。

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs