cs.CV 篇论文 | Gist.Science

UniComp: Rethinking Video Compression Through Informational Uniqueness

本文提出了名为 UniComp 的基于信息独特性的视频压缩框架，通过最小化条件熵并设计帧组融合、令牌分配及空间动态压缩三个模块，在受限计算预算下显著提升了视频表示的信息保真度。

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

本文提出了模型无关的相位保持扩散（ $\phi$ -PD）方法，通过在扩散过程中保留输入相位并仅随机化幅度，实现了无需额外参数即可保持几何结构一致性的可控图像与视频生成，显著提升了模拟到现实（Sim-to-Real）等任务的性能。

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

本文提出了一种名为 TAP 的大语言模型驱动的训练免自动代理发现框架，通过结合进化搜索策略与基于直接偏好优化（DPO）的轻量级策略控制器，无需人工专家干预或模型训练即可为混合精度量化自动发现优越的代理，从而在主流基准测试中实现了最先进的性能。

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

该论文介绍了 EgoCampus 数据集及其配套的 EgoCampusNet 模型，利用 Meta Project Aria 眼镜在户外校园环境中采集了包含 80 多名行人眼动数据的大规模数据集，旨在解决真实导航场景下的行人视觉注意力预测问题。

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

本文提出了 DriverGaze360 数据集及其全景注意力预测网络 DriverGaze360-Net，通过引入包含约 100 万帧 360 度眼动标注数据的大规模数据集和结合辅助语义分割头的联合学习方法，解决了现有研究视野狭窄和驾驶场景多样性不足的问题，实现了状态领先的全方位驾驶员注意力预测。

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

本文提出了 ViRC 框架，通过引入受认知科学启发的“推理分块”机制及配套的 CRUX 数据集，使多模态大模型能够像人类专家一样在数学解题过程中动态结合视觉信息与分步逻辑推理，从而显著提升了数学任务的表现。

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

本文提出了名为 FluenceFormer 的 Transformer 驱动框架，通过两阶段几何感知回归与物理信息损失函数，有效解决了放疗计划中流强图预测的病态逆问题，并在前列腺 IMRT 数据集上显著提升了结构保真度与能量守恒性能。

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

本文提出了一种名为 EPD-Solver 的新型并行 ODE 求解器，它通过多梯度并行评估与基于残差 Dirichlet 策略优化的两阶段训练框架，在保持低延迟的同时有效解决了扩散模型采样中的累积截断误差问题，显著提升了复杂文本到图像生成任务的质量。

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

本文提出了 PhyGDPO 框架，通过构建物理增强数据集 PhyVidGen-135K、设计物理引导奖励机制及高效 LoRA 参考方案，实现了物理一致性更强的文本生成视频。

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

MorphAny3D 是一个无需训练的 3D 变形框架，它通过在 3D 生成器的注意力机制中智能融合结构化潜在（SLAT）特征，并引入变形交叉注意力、时间融合自注意力及姿态校正策略，实现了跨类别语义一致且时序平滑的高质量 3D 变形。

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

本文提出了 EmboTeam 框架，通过结合大语言模型的语义解析能力、PDDL 经典规划器的搜索能力以及行为树的反应式控制机制，实现了异构多机器人团队在复杂长程任务中的高效协作，并在 MACE-THOR 基准测试中显著提升了任务成功率与目标条件召回率。

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

该论文通过构建基于足球集锦的新数据集，评估了基础模型识别视频关键子事件的能力，发现其表现接近随机水平且过度依赖单一模态，从而强调了采用模块化架构和互补训练方法以实现跨模态协同的必要性。

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Agentic Very Long Video Understanding

本文提出了 EGAgent 框架，通过构建实体场景图并结合结构化搜索与多模态推理工具，有效解决了现有模型在处理全天候可穿戴设备产生的超长连续视频时上下文受限及多跳推理能力不足的问题，并在 EgoLifeQA 和 Video-MME (Long) 数据集上取得了领先或具有竞争力的性能。

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

本文提出了一种名为 MiTA 的混合 Top-k 激活注意力机制，通过将注意力视为快速权重 MLP 并采用“压缩与路由”策略，利用少量关键查询和 Top-k 激活键值对来高效扩展长序列上下文，从而统一并优化了多种高效注意力方法。

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

本文提出了名为 DDP-WM 的新型世界模型，通过解耦动力学预测将场景演化分解为稀疏的物理交互主动力学与背景更新，在显著降低计算开销的同时大幅提升了导航及操作等任务的规划效率与成功率。

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

该论文针对自回归视频扩散模型在训练时长受限导致长视频生成出现视觉退化问题，提出了一种无需重新训练的"Rolling Sink"方法，通过优化自回归缓存机制，成功实现了在仅基于 5 秒片段训练的基础上，生成长达 30 分钟且保持主体一致、色彩稳定、结构连贯及运动平滑的超长时间视频。

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

该论文提出了一种将分类不确定性与注意力图对齐相结合的双准则主动学习框架，通过筛选既具信息量又聚焦于错误特征（即与专家标注区域不匹配）的样本，显著提升了医学影像模型在有限标注数据下的预测性能与临床可解释性。

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

本文提出了 Pailitao-VL，一种专为高精度实时工业搜索设计的统一多模态检索系统，通过引入基于绝对 ID 识别的嵌入范式及对比校准的列表式重排序策略，有效解决了现有方案在检索粒度、环境噪声鲁棒性及效率性能平衡方面的关键挑战，并在阿里巴巴电商平台上实现了业界领先的性能与显著的业务价值。

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

本文提出了一种名为 DeltaGateNet 的新框架，通过引入双向 Delta 模块显式建模神经激活与抑制的不对称性，并结合门控时间卷积模块捕捉长程依赖，从而在多个驾驶疲劳数据集上实现了优于现有方法的鲁棒且泛化性强的 EEG 疲劳识别性能。

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

本文提出了名为 EA-Swin 的嵌入无关 Swin Transformer 模型，通过直接建模预训练视频嵌入的时空依赖关系，并结合包含 13 万条视频的大规模基准数据集 EA-Video，在多种生成器及未见分布的跨域检测任务中实现了显著优于现有最先进方法的准确率与泛化能力。

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs