cs.CV 篇论文 | Gist.Science

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

本文提出了 Export3D 方法，通过引入将 3DMM 表情参数融入源图像的三平面生成器，并结合消除身份外观干扰的对比预训练框架，实现了仅需单张图像即可生成视角可控且无身份外观交换的 3D 感知表情可控肖像动画。

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

FireANTs 提出了一种无需训练、基于 GPU 加速的多尺度自适应黎曼优化算法，用于解决密集微分同胚图像配准问题，在显著降低计算时间和内存消耗的同时，实现了跨模态、跨物种的广泛鲁棒性并媲美深度学习方法的推理性能。

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

本文提出了名为 Merlin 的三维医学视觉 - 语言基础模型，该模型利用包含超过 1.5 万例 CT 扫描的大规模临床数据集进行无标注多阶段预训练，在诊断、预后及报告生成等 752 项任务中展现出超越现有二维模型和专用模型的卓越泛化能力与性能。

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

本文提出了名为 TrashFuzz 的黑盒模糊测试算法，通过合规地调整路边常见物体（如垃圾桶）的位置来生成逼真的对抗场景，从而在无需使用不自然对抗补丁的情况下成功诱导 Apollo 自动驾驶系统违反交通法规。

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models

本文提出了 FINE 方法，通过将模型权重分解为共享的“学习基因”（learngenes）和层特定参数，实现了无需重复预训练即可灵活初始化适应不同资源约束的变尺寸扩散模型，并显著提升了训练效率与任务适应性。

Yucheng Xie, Fu Feng, Ruixiao Shi + 4 more2026-03-05💻 cs

Scaling Laws For Diffusion Transformers

该论文首次通过大规模实验证实了扩散 Transformer（DiT）的预训练损失与计算量之间存在幂律关系，从而能够依据计算预算精准预测最优模型规模、数据需求及生成性能，为评估模型表现和数据质量提供了低成本的可靠基准。

Zhengyang Liang, Hao He, Ceyuan Yang + 1 more2026-03-05💻 cs

TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control

本文提出了 TextMaster 框架，通过融合高分辨率标准字形信息、感知损失、基于注意力机制的字符级布局约束以及新颖的风格注入技术，实现了在复杂场景下兼具高保真度、精准布局与可控风格的真实文本编辑。

Zhenyu Yan, Jian Wang, Aoqiang Wang + 3 more2026-03-05💻 cs

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

本文提出了 FlowCLAS 框架，通过结合对比学习与异常暴露策略增强归一化流模型，在多个机器人异常分割基准测试中实现了超越现有判别式方法的最先进性能。

Chang Won Lee, Selina Leveugle, Svetlana Stolpner + 4 more2026-03-05🤖 cs.LG

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

本文提出了受“记忆宫殿”启发的 VideoMindPalace 框架，通过构建基于手物交互、活动区域聚类及环境布局的结构化语义图，显著提升了大语言模型在长视频理解中的时空连贯性与人类对齐推理能力，并配套发布了用于评估的 VMB 基准。

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability

本文提出了一种名为 DCENWCNet 的新型深度卷积神经网络集成模型，通过结合三种具有不同配置架构的 CNN 来优化白细胞分类性能，并利用 LIME 技术增强模型的可解释性，从而在 Rabbin-WBC 数据集上实现了优于现有最先进方法的分类精度与诊断可信度。

Sibasish Dhibar2026-03-05🤖 cs.AI

Token Adaptation via Side Graph Convolution for Efficient Fine-tuning of 3D Point Cloud Transformers

本文提出了一种名为 STAG 的参数高效微调算法，通过并行运行的图卷积侧网络来适应令牌，在保持分类精度的同时显著降低了 3D 点云 Transformer 微调的时间与空间成本，并发布了包含多个数据集的新基准 PCC13 以验证其有效性。

Takahiko Furuya2026-03-05💻 cs

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

本文介绍了 UNB StepUP-P150 数据集，该数据集包含 150 名参与者在不同步速和鞋履条件下行走产生的 20 多万次高分辨率足底压力数据，旨在填补公开数据集的空白并推动步态生物识别、生物力学及深度学习研究的发展。

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Generative Human Geometry Distribution

本文提出了一种名为“生成式人体几何分布”的新框架，通过采用 2D 特征图编码分布、以 SMPL 模型为域以及两阶段潜在空间训练策略，显著提升了人体几何生成的保真度与衣物细节表现，在姿态条件生成和姿态合成任务中均超越了现有最先进方法。

Xiangjun Tang, Biao Zhang, Peter Wonka2026-03-05💻 cs

Implicit U-KAN2.0: Dynamic, Efficient and Interpretable Medical Image Segmentation

本文提出了 Implicit U-KAN 2.0，一种结合二阶神经微分方程（SONO）与 MultiKAN 层的新型隐式 U-Net 架构，旨在通过增强理论可解释性、摆脱输入维度对近似能力的限制，在降低计算成本的同时显著提升医学图像分割的性能。

Chun-Wun Cheng, Yining Zhao, Yanqi Cheng + 3 more2026-03-05🤖 cs.LG

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

该论文通过大规模分析 326 个骨干模型，系统研究了图像分类中除准确率外的九个关键质量维度，揭示了预训练策略与数据规模的影响，并提出了名为 QUBA 的综合评分指标以指导模型选择。

Robin Hesse, Doğukan Bağcı, Bernt Schiele + 2 more2026-03-05🤖 cs.LG

Beyond the Encoder: Joint Encoder-Decoder Contrastive Pre-Training Improves Dense Prediction

本文提出了 DeCon 框架，通过引入加权编码器 - 解码器对比损失实现联合自监督预训练，显著提升了在目标检测、实例分割和语义分割等密集预测任务上的性能。

Sébastien Quetin, Tapotosh Ghosh, Farhad Maleki2026-03-05💻 cs

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

本文提出了首个利用视觉语言模型（VLM）自动设计运动策略的统一物理框架，通过引入 VLM 引导的相对运动动力学（RMD）表示和新型 Interplay 数据集，实现了无需人工奖励工程即可生成多样化、长程且自然的人机交互动作。

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

Generating Fine Details of Entity Interactions

本文提出了一种利用多模态大语言模型构建交互数据集并采用分解增强细化策略（\model）的方法，通过概念分解、图像批判及局部扩散去噪，显著提升了文本生成图像中物体间丰富交互细节的质量。

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

本文提出了首个针对真实世界文生图系统的多轮越狱攻击方法"Inception"，该方法通过利用系统的记忆机制，结合语义分割与递归扩展策略将恶意意图嵌入对话初始记忆，从而有效绕过安全过滤并显著提升了攻击成功率。

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

本文提出了一种名为 CSASN 的新型多任务学习框架，通过融合 EfficientNet 与 ViT 的双分支注意力机制及动态加权损失函数，有效解决了甲状腺罕见癌超声影像中特征异质性与数据不平衡的难题，显著提升了分类精度与稳定性。

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs