cs.CV 篇论文 | Gist.Science

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

该论文提出了一种名为 VA-Adapter 的视觉 - 动作适配器，通过将其嵌入超声基础模型以在线注入个体三维结构理解能力，从而在仅需极少参数（约为强基线模型的 1/33）的情况下，显著提升了超声心动图探头引导系统的性能。

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

本文提出了名为 TTOM 的训练无关框架，通过引入测试时优化与参数化记忆机制，在推理阶段动态对齐视频生成模型与时空布局，从而有效解决了现有模型在运动、数量及空间关系等组合场景下的生成难题。

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

Splat the Net: Radiance Fields with Splattable Neural Primitives

该论文提出了“可泼洒神经基元”（Splattable Neural Primitives）这一新型体素表示法，通过将有界神经密度场编码为浅层神经网络，实现了无需射线追踪的精确解析积分，从而在保持与 3D 高斯泼洒（3D Gaussian Splatting）相当的高质量与新视角合成速度的同时，将所需基元数量减少了 10 倍、参数量减少了 6 倍。

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

本文提出了名为 LinearSR 的框架，通过创新性的 ESGF 训练策略、基于信噪比的混合专家架构以及轻量级 TAG 引导范式，首次系统性地解决了线性注意力机制在真实感图像超分辨率中面临的训练不稳定与感知 - 失真权衡难题，实现了兼具卓越感知质量与高效推理速度的生成式超分辨率模型。

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

该论文提出了 PHyCLIP 模型，通过在一个笛卡尔积超双曲空间上采用 $\ell_1$ -积度量，成功统一了视觉 - 语言表征学习中的概念层级结构与跨概念组合性，并在多项任务中超越了现有方法。

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

本文提出了一种名为 CSL 的统一协同学习框架，通过语义相关特征学习与标签恢复的相互增强机制，有效解决了不完整多标签图像识别中语义特征学习困难和缺失标签恢复的挑战，并在多个基准数据集上取得了优于现有最先进方法的性能。

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

本文提出了名为 UniFlow 的统一像素流分词器，通过层自适应自蒸馏技术融合预训练视觉编码器的语义特征，并结合轻量级基于补丁的像素流解码器，有效解决了视觉理解与生成任务间的性能权衡难题，在多项基准测试中实现了理解与生成能力的双赢。

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

该论文提出了一种通过自监督预训练实现端到端像素空间生成建模的新框架，无需依赖 VAE 即在 ImageNet 上实现了超越现有像素级及潜在空间方法的 SOTA 性能，并首次成功训练出无需预训练 VAE 的高分辨率一致性模型。

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

本文提出了受果蝇嗅觉电路启发的 Fly-CL 框架，通过解决预训练模型持续表征学习中的多重共线性问题，在显著降低训练时间的同时实现了与现有最先进方法相当甚至更优的性能。

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

本文提出了 Mono4DGS-HDR，这是首个基于高斯溅射技术、无需相机位姿即可从交替曝光的单目低动态范围视频中重建可渲染高动态范围 4D 场景的统一两阶段优化框架。

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

LightMem: Lightweight and Efficient Memory-Augmented Generation

LightMem 是一种受人类记忆模型启发的轻量级内存增强生成系统，它通过分层组织记忆（感觉、短期和长期）并采用离线更新机制，在显著提升问答准确率的同时大幅降低了 token 消耗和 API 调用次数，有效平衡了大语言模型在动态环境中的性能与效率。

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

该论文提出 BioCAP 模型，通过利用多模态大语言模型生成受维基百科引导的合成描述性字幕作为额外监督信号，有效弥补了生物学领域实例级文本数据的不足，从而显著提升了生物基础模型在物种分类和图文检索任务中的性能。

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

VoMP: Predicting Volumetric Mechanical Property Fields

VoMP 是一种前馈方法，通过结合多视角特征与几何 Transformer，从真实世界数据中学习到的物理合理材料流形上，快速且准确地预测任意可渲染 3D 对象体素化的杨氏模量、泊松比和密度等机械属性场。

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

本文提出了受人类多感官协同学习启发的 Concerto 框架，通过结合 3D 模态内自蒸馏与 2D-3D 跨模态联合嵌入，在无需标注数据的情况下学习出具有优越几何与语义一致性的空间表征，从而在 3D 场景感知及开放世界理解任务中取得了超越现有最先进方法的性能。

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

针对现有混合专家模型（MoE）在扩散变换器（DiT）中因视觉 Token 特性而表现不佳的问题，本文提出了 ProMoE 框架，通过引入包含条件路由与原型路由的两步显式路由引导机制，有效促进了专家专业化并提升了图像生成性能。

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

本文提出了名为"Brain-IT"的脑启发式方法，通过引入脑交互 Transformer（BIT）有效整合功能相似脑区簇的信息，仅需少量数据即可实现比现有最先进方法更忠实、更高质量的 fMRI 图像重建。

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

该论文提出了一种仅凭单路语音输入即可生成高分辨率说话人脸视频的新方法，通过结合语音条件扩散模型、统计面部先验、区域增强模块以及基于离散码本的图像渲染网络，实现了从语音直接驱动高质量、高保真且口型同步的说话人脸生成。

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

本文提出了 ThinkMorph 模型，通过微调 24K 条高质量图文交错推理轨迹，使文本与图像思维形成互补而非同构的协同机制，从而在视觉基准测试中取得显著性能提升，并展现出包括未见视觉操作技能、自适应推理模式切换及测试时扩展能力在内的涌现式多模态智能。

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang + 5 more2026-03-03💻 cs

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

该研究通过系统分析 15 项医学图像分割任务，揭示了其遵循受解剖结构限制的幂律缩放规律，并证明拓扑感知增强策略能通过扩展有效拓扑覆盖来提升数据效率，而不会改变基本的缩放法则。

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

VeCoR -- Velocity Contrastive Regularization for Flow Matching

本文提出了速度对比正则化（VeCoR），一种通过引入“吸引”与“排斥”双向监督机制来增强流匹配模型稳定性的训练方案，有效解决了轨迹误差累积问题，并在 ImageNet 和 MS-COCO 等数据集的低步数及轻量级配置下显著提升了生成图像的质量。

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

cs.CV