cs.CV 篇论文 | Gist.Science

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

本文提出了 DiffInk，这是首个基于潜在扩散 Transformer 的全行在线手写生成框架，它通过引入兼具字形精度与风格保持能力的 InkVAE 编码器，实现了内容解耦与风格可控的高效高质量手写轨迹合成。

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

本文提出了名为 SMART-R1 的新型 R1 风格强化微调范式，通过引入面向指标的策略优化算法及"SFT-RFT-SFT"迭代训练策略，有效解决了多智能体交通模拟中的分布偏移问题，并在 Waymo Open Sim Agents Challenge 中以 0.7858 的总真实感元评分刷新了排行榜第一的纪录。

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

本文提出了基于大规模专家标注偏好数据训练的 EditReward 奖励模型，该模型在多项基准测试中展现出优于现有方法的与人类偏好的一致性，并成功用于筛选高质量数据以提升图像编辑模型的训练效果。

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Stylos 提出了一种基于单前向传播的 3D 高斯泼溅框架，利用 Transformer 架构与体素化 3D 风格损失，实现了无需单场景优化或预计算位姿即可从单张或多张图像生成几何感知且视角一致的零-shot 3D 风格化场景。

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

本文提出了名为 C $^3$ B 的新型多模态文化意识基准，该基准基于漫画构建，包含多语言、多任务及渐进式难度的问答数据，旨在揭示当前多模态大模型在跨文化理解与生成能力上与人之间的显著差距，并推动相关研究发展。

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

本文提出了 LVTINO，这是首个利用视频一致性模型（VCMs）作为先验的零样本即插即用逆求解器，旨在解决高清视频恢复中帧间时序不一致的难题，并在保证测量一致性与平滑过渡的同时，实现了超越现有逐帧图像恢复方法的感知质量与计算效率。

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

本文提出了 DragFlow 框架，通过引入基于区域的仿射变换监督、集成个性化适配器并利用多模态大语言模型消除歧义，首次成功将 FLUX 等 DiT 模型的强大生成先验应用于拖拽编辑任务，显著提升了编辑效果并确立了新的最先进水平。

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

本文提出了一种名为 ChainMPQ 的免训练方法，通过构建由多视角问题引导的图文交错推理链，利用累积的图文记忆增强关键区域并逐步验证关系，从而有效缓解大型视觉语言模型中的关系幻觉问题。

Yike Wu, Yiwei Wang, Yujun Cai2026-03-03🤖 cs.AI

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

该论文提出了一种名为 VA-Adapter 的视觉 - 动作适配器，通过将其嵌入超声基础模型以在线注入个体三维结构理解能力，从而在仅需极少参数（约为强基线模型的 1/33）的情况下，显著提升了超声心动图探头引导系统的性能。

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

本文提出了名为 TTOM 的训练无关框架，通过引入测试时优化与参数化记忆机制，在推理阶段动态对齐视频生成模型与时空布局，从而有效解决了现有模型在运动、数量及空间关系等组合场景下的生成难题。

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

Splat the Net: Radiance Fields with Splattable Neural Primitives

该论文提出了“可泼洒神经基元”（Splattable Neural Primitives）这一新型体素表示法，通过将有界神经密度场编码为浅层神经网络，实现了无需射线追踪的精确解析积分，从而在保持与 3D 高斯泼洒（3D Gaussian Splatting）相当的高质量与新视角合成速度的同时，将所需基元数量减少了 10 倍、参数量减少了 6 倍。

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

本文提出了名为 LinearSR 的框架，通过创新性的 ESGF 训练策略、基于信噪比的混合专家架构以及轻量级 TAG 引导范式，首次系统性地解决了线性注意力机制在真实感图像超分辨率中面临的训练不稳定与感知 - 失真权衡难题，实现了兼具卓越感知质量与高效推理速度的生成式超分辨率模型。

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

该论文提出了 PHyCLIP 模型，通过在一个笛卡尔积超双曲空间上采用 $\ell_1$ -积度量，成功统一了视觉 - 语言表征学习中的概念层级结构与跨概念组合性，并在多项任务中超越了现有方法。

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

本文提出了一种名为 CSL 的统一协同学习框架，通过语义相关特征学习与标签恢复的相互增强机制，有效解决了不完整多标签图像识别中语义特征学习困难和缺失标签恢复的挑战，并在多个基准数据集上取得了优于现有最先进方法的性能。

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

本文提出了名为 UniFlow 的统一像素流分词器，通过层自适应自蒸馏技术融合预训练视觉编码器的语义特征，并结合轻量级基于补丁的像素流解码器，有效解决了视觉理解与生成任务间的性能权衡难题，在多项基准测试中实现了理解与生成能力的双赢。

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

该论文提出了一种通过自监督预训练实现端到端像素空间生成建模的新框架，无需依赖 VAE 即在 ImageNet 上实现了超越现有像素级及潜在空间方法的 SOTA 性能，并首次成功训练出无需预训练 VAE 的高分辨率一致性模型。

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

本文提出了受果蝇嗅觉电路启发的 Fly-CL 框架，通过解决预训练模型持续表征学习中的多重共线性问题，在显著降低训练时间的同时实现了与现有最先进方法相当甚至更优的性能。

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

cs.CV

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

Splat the Net: Radiance Fields with Splattable Neural Primitives

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

LightMem: Lightweight and Efficient Memory-Augmented Generation

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

cs.CV

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Culture In a Frame: C3^33B as a Comic-Based Benchmark for Multimodal Culturally Awareness

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

Splat the Net: Radiance Fields with Splattable Neural Primitives

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

PHyCLIP: ℓ1\ell_1ℓ1​-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

LightMem: Lightweight and Efficient Memory-Augmented Generation

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning