SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion
该论文提出了 SNPgen,一种基于潜在扩散模型的两阶段条件生成框架,能够生成与表型对齐的合成基因型数据,在保护隐私的同时实现了与真实数据相当的疾病预测性能,并有效保留了遗传结构特征。
2316 篇论文
该论文提出了 SNPgen,一种基于潜在扩散模型的两阶段条件生成框架,能够生成与表型对齐的合成基因型数据,在保护隐私的同时实现了与真实数据相当的疾病预测性能,并有效保留了遗传结构特征。
本文提出了名为 LAtte 的新框架,通过结合洛伦兹注意力模块与 InceptionTime 编码器,利用预训练共享基线信号和洛伦兹低秩适配器学习特定主体嵌入,有效解决了脑电图(EEG)分类中信号信噪比低及主体间差异大的挑战,显著提升了跨主体分类的性能与泛化能力。
该论文提出了一种参数高效的连续扩散 Transformer 模型,通过引入 2D CNN 输入编码器替代传统 U-Net 骨干网络,在显著降低训练成本、收敛损失及序列记忆化风险的同时,结合 DDPO 微调与 Enformer 奖励模型,成功生成了具有高预测活性的细胞类型特异性合成调控 DNA 序列。
本文提出了一种基于核函数(包括核 Stein 差异和最大均值差异)的新颖等价性检验方法,旨在克服传统拟合优度检验无法有效证明分布间无显著差异的局限,通过设定预定义差异边界并采用渐近正态近似或自举法计算临界值,从而在控制误差率的前提下评估候选分布与名义分布的等价性。
本文提出了一种名为“动力学预测采样”(DPS)的新方法,通过将提示词在强化学习微调中的解决进度建模为动态系统并利用贝叶斯推断进行在线预测,从而在无需昂贵的大量推理滚动的情况下高效筛选出高价值训练样本,显著降低了计算开销并提升了大型推理模型的微调效率与性能。
本文通过示例探讨了非遍历奖励过程对强化学习智能体的影响,阐明了遍历性奖励过程与遍历马尔可夫链的联系,并介绍了在遍历性奖励动态下优化个体轨迹长期性能的现有解决方案。
LookaheadKV 提出了一种轻量级的 KV 缓存淘汰框架,通过引入参数高效模块直接预测未来重要性评分,在无需耗时的草稿生成前提下,实现了比现有方法更精准的淘汰效果并显著降低了推理开销。
该论文提出了一种基于组合融合分析(CFA)的新方法,通过秩 - 分特征函数和认知多样性整合多种评分系统来生成球队排名,在 2024 年 NCAA 锦标赛预测中取得了 74.60% 的准确率,优于现有的十大主流排名系统。
本文提出了面向部署的 ECoLAD 评估协议,通过在受限计算资源下对多种异常检测器进行实证研究,揭示了仅关注准确率的现有基准测试可能误导部署决策,并证明轻量级经典检测器在车载遥测场景的吞吐量约束下比深度学习方法更具可行性。
该论文提出了一种名为“历史共识训练”的迭代方法,通过利用高斯混合模型聚类的多样性来构建参数空间中的稳定屏障,从而在无需特定架构约束或超参数调优的情况下,彻底消除了变分自编码器中的后验坍塌问题。
该论文提出了一种基于核密度估计(KDE)的实用方法,通过建模合成数据与训练记录间的最近邻距离分布,在不依赖计算密集型影子模型的情况下,有效量化了表格合成数据中的成员披露风险,并实现了比现有基线更优的风险评估效果。
该论文提出了名为 RAD 的新型对齐框架,通过引入基于最优传输的一阶随机占优约束替代传统的期望成本约束,实现了对尾部风险和谱风险测度的普适性控制,从而在提升模型无害性的同时增强了其对分布外场景的鲁棒性。
该论文针对质谱分子结构识别中的高误报风险,提出了一种基于风险 - 覆盖率权衡的筛选预测框架,通过评估不同不确定性量化策略,证明利用计算成本较低的一阶置信度及检索级偶然不确定性,结合分布外风险控制方法,可在保证高概率满足预设错误率约束的前提下,有效筛选出可信的分子结构注释。
该论文正式化了测试时扩展下的密集基准排名问题,推出了开源库 Scorio 以实施多种统计排名方法,并通过在多个数学基准上的实验验证了这些方法在不同预算下对贝叶斯金标准的可靠性。
该论文提出了一种基于生物启发式自监督学习的新方法,通过引入受运动控制子运动理论启发的“运动片段”标记策略,利用 Transformer 对腕部 IMU 信号进行掩码重建预训练,从而在数据稀缺场景下显著提升了人类活动识别的鲁棒性与效率。
该论文提出了一种名为 Pointy 的轻量级 Transformer 点云架构,仅通过 3.9 万个点云样本的训练,便在性能上超越了依赖大规模跨模态监督或更多数据的基础模型,并通过统一的复现研究证明了精心设计的架构与训练策略在无需复杂 Tokenizer 的情况下即可实现卓越效果。
本文介绍了 TOSSS(基于 CVE 的双选项安全片段选择)基准,旨在通过让大语言模型在安全与易受攻击的代码片段间进行选择来评估其软件安全能力,该基准具有可扩展性,并在 14 个主流模型上进行了 C/C++ 和 Java 代码的测试。
本文提出了一种名为 FRIEND 的联邦学习框架,通过在 B5G 多 RIS 辅助的无蜂窝毫米波网络中利用边缘设备协同训练深度卷积神经网络来检测窃听者,从而在保护数据隐私的同时将保密速率提升了约 30%。
该论文研究了基于联邦学习的低轨 6G 非地面网络波束管理,通过利用高空平台站将轨道面作为分布式学习节点,并对比评估了多层感知机与图神经网络模型,结果表明图神经网络在低仰角等动态传播条件下具有更优的波束预测精度与稳定性。
该论文揭示了 Transformer 模型中的 MLP 层实际上执行的是连续信号的二值路由机制,即通过特定的“共识 - 异常”神经元架构决定哪些 token 需要非线性处理,从而解释了为何多项式平滑近似失效,并表明这种二值路由结构在功能上比连续激活更能准确捕捉计算路径的选择。