cs.CV 篇论文 | Gist.Science

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

CRAFT-LoRA 通过秩约束微调、提示引导的专家编码器聚合以及免训练的自适应引导方案，有效解决了现有 LoRA 组合中内容与风格纠缠及融合不稳定的问题，实现了无需额外重训练即可兼顾高保真内容与风格一致性的个性化图像生成。

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

本文提出了名为 CFE-Bench 的多模态基准测试，该测试基于 20 多个 STEM 领域的真实大学考题与教师参考答案，旨在评估大语言模型的推理能力，研究发现尽管前沿模型表现尚可，但在多步推理中仍难以维持中间状态的正确性且步骤效率较低。

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

本文提出了名为 TraqPoint 的端到端强化学习框架，通过将关键点检测重构为序列决策问题并引入轨迹感知奖励机制，直接优化关键点在图像序列中的长期可跟踪性，从而在稀疏匹配基准测试中显著超越了现有最先进方法。

Yepeng Liu, Hao Li, Liwen Yang + 8 more2026-03-04💻 cs

Training-Free Multi-Concept Image Editing

本文提出了无需训练的概念蒸馏采样（CDS）框架，通过结合稳定的蒸馏骨干与动态加权机制，首次实现了在无需参考样本的情况下对多概念图像进行保持实例保真度的编辑，并在多个基准测试中超越了现有方法。

Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki2026-03-04💻 cs

Uni-Animator: Towards Unified Visual Colorization

本文提出了基于扩散变换器（DiT）的 Uni-Animator 框架，通过实例块嵌入增强视觉参考、物理特征强化细节保留以及基于草图的动态 RoPE 编码提升时序一致性，成功实现了图像与视频草图着色任务的统一，在保持高保真细节和鲁棒时序连贯性的同时达到了与专用方法相当的性能。

Xinyuan Chen, Yao Xu, Shaowen Wang + 2 more2026-03-04💻 cs

3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection

本文提出了名为 MedMAP 的医学模态感知预训练框架，通过引入模态感知对齐机制并基于新构建的包含 7392 对 3D MRI 体积与报告数据的 MedMoM-MRI3D 数据集进行微调，显著提升了视觉语言模型在 3D MRI 多器官异常检测任务中的性能。

Haowen Zhu, Ning Yin, Xiaogen Zhou2026-03-04🤖 cs.AI

APPO: Attention-guided Perception Policy Optimization for Video Reasoning

本文提出了注意力引导的感知策略优化（APPO）算法，通过利用令牌级密集奖励优化聚焦关键视频帧的感知令牌，在无需昂贵细粒度标注的情况下，以低成本显著提升了视频推理模型的细粒度感知能力。

Henghui Du, Chang Zhou, Xi Chen + 1 more2026-03-04💻 cs

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

本文介绍了利用 SAM2、Florence2、ChatGPT 结合专用本体与术语表，对 16 至 17 世纪造船文献进行图像分割与标注的研究，旨在通过生成式人工智能技术解决历史文档数据稀缺与领域专业化难题，从而提升珍贵文献的策展、编目及检索效率。

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

本文提出了一种名为 Lilium 的自动化进化方法，通过利用微分进化算法优化基于 3D 圆锥的软组织厚度模型，并结合多种解剖与摄影约束，显著提升了计算机辅助颅面重叠（SFO）在法医身份识别中的精度与鲁棒性。

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI

GLIDE-Reg: Global-to-Local Deformable Registration Using Co-Optimized Foundation and Handcrafted Features

GLIDE-Reg 提出了一种通过联合优化注册场与可学习降维模块，将压缩的视觉基础模型全局语义特征与 MIND 局部描述符融合的全局到局部可变形配准方法，在多个肺部数据集上实现了优于现有最先进方法的配准精度与泛化鲁棒性。

Yunzheng Zhu, Aichi Chien, Kimaya kulkarni + 5 more2026-03-04⚡ eess

IDER: IDempotent Experience Replay for Reliable Continual Learning

该论文提出了一种名为 IDER 的新方法，利用幂等性原理通过自适应损失和幂等性蒸馏，在无需显著增加计算开销的情况下，有效解决了持续学习中的灾难性遗忘问题，同时显著提升了模型的预测可靠性、准确率和抗遗忘能力。

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

本文提出了一种名为 BornoViT 的新型高效轻量级视觉 Transformer 模型，该模型仅含 0.65M 参数，在 BanglaLekha 和自建的 Bornomala 数据集上分别实现了 95.77% 和 91.51% 的准确率，有效解决了孟加拉语手写字符分类中计算成本高和模型体积大的问题。

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

本文提出了 ShiftLUT 框架，通过引入可学习空间移位模块、非对称双分支架构及误差有界自适应采样压缩策略，在保持低存储与推理成本的同时，显著扩大了基于查找表的图像恢复方法的感受野并提升了重建性能。

Xiaolong Zeng, Yitong Yu, Shiyao Xiong + 4 more2026-03-04💻 cs

Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications

本文提出了名为 MWP 的物理信息多模态融合框架及包含 1 万余条同步数据的大规模工业废弃物数据集 Waste-Weight-10K，通过结合 RGB 图像与几何物理元数据，实现了跨重量范围的高精度废弃物重量估算并提供了可解释的预测结果。

Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam + 7 more2026-03-04💻 cs

cs.CV