cs.CV 篇论文 | Gist.Science

Dodgersort 是一种结合 CLIP 预排序、神经排序头及不确定性感知主动学习的人机协同成对排序框架，通过智能筛选关键比较对，在显著减少人工标注成本的同时提升了医疗、历史及美学等视觉排序任务中的排序可靠性与信息效率。

本文介绍了 GOLDMARK，这是一个基于 TCGA 和 MSKCC 队列构建的标准化基准框架，旨在通过提供结构化中间数据、预训练模型及统一评估指标，解决计算病理学在临床级部署中缺乏标准化和可复现性的问题，并验证了其在特定形态 - 基因组关联任务中的稳健性能。

该论文提出了 Glove2Hand 框架，通过结合新型 3D 高斯手部模型与基于扩散的手部修复技术，将多模态传感手套视频转化为保留物理交互动态的逼真裸手视频，并发布了首个同步触觉与 IMU 信号的手 - 物交互数据集 HandSense，显著提升了接触估计和遮挡下的手部追踪等下游任务性能。

该论文提出了一种基于轻量级预训练模型（SwinV2-Tiny、DinoBloom-Small 和 ConvNeXT-V2-Tiny）的集成学习方法，通过数据集扩展和模型集成策略，有效解决了白细胞分类中因染色差异、扫描变化及患者异质性导致的罕见细胞类型不平衡问题，从而实现了对白血病诊断的高效自动化。

本文提出了 FRoG 框架，通过融合每高斯嵌入与由粗到细的时间嵌入策略、引入深度与误差引导的采样机制以及调节不透明度变化，有效解决了动态 3D 高斯泼溅在渲染速度、稀疏初始化鲁棒性及暗光场景局部最优等方面的局限，实现了高质量且高效的动态场景重建。

该论文提出了一种针对预训练权重的定向重初始化策略，旨在恢复神经网络的可塑性以解决迁移学习中的适应瓶颈，从而在卷积神经网络和视觉 Transformer 模型上实现了更快的收敛速度和更高的分类准确率。

本文提出了 TAFG-MAN，一种结合感知优化自编码器与轻量级 timestep 自适应频率门控机制的潜在扩散框架，通过在不同去噪阶段动态调节高低频引导，在低剂量 CT 图像去噪中实现了噪声抑制与细节保留的高效平衡。

该论文提出了一种名为 SG-FSCFormer 的新框架，通过场景图引导和细粒度对齐机制，实现了用户可交互的“分割 - 描述”任务，能够根据边界框等提示同时生成精确的视频分割掩码和对应描述，从而显著提升视频内容的可控理解能力。

该论文提出了一种结合 Kronecker 因子化近似曲率（KFAC）来近似 Fisher 信息矩阵的自然梯度下降方法，有效解决了在线持续学习中的灾难性遗忘问题并显著提升了模型在多个数据集上的收敛性能。

本文提出了 GraPHFormer，一种结合 CLIP 式对比学习、多通道持久图像编码与 TreeLSTM 图结构编码的多模态 Transformer 架构，通过统一拓扑与几何视角，在多个神经形态学基准测试中实现了最先进的性能，并有效应用于胶质细胞分类及发育与退化过程的检测。