SmileyLlama: Modifying Large Language Models for Directed Chemical Space Exploration
该论文提出了一种名为 SmileyLlama 的框架,通过监督微调(SFT)和直接偏好优化(DPO)将大语言模型转化为化学语言模型,使其能够生成具有特定属性、高结合亲和力及优化三维构象的新型药物分子,从而在保留自然语言能力的同时实现定向化学空间探索。
969 篇论文
化学物理这一交叉领域探索着分子层面的物理规律,架起了化学变化与物理原理之间的桥梁。在这里,科学家通过理论模型和实验手段,深入理解原子如何结合、能量如何转化以及物质在微观尺度下的独特行为。
Gist.Science 致力于让 arXiv 上的最新研究成果触手可及。我们实时追踪并处理该分类下发布的所有预印本,为每一篇论文提供通俗易懂的科普解读与详尽的技术摘要,帮助不同背景的读者跨越专业术语的障碍,轻松把握前沿动态。
以下是该领域近期在 arXiv 上发布的最新论文精选。
该论文提出了一种名为 SmileyLlama 的框架,通过监督微调(SFT)和直接偏好优化(DPO)将大语言模型转化为化学语言模型,使其能够生成具有特定属性、高结合亲和力及优化三维构象的新型药物分子,从而在保留自然语言能力的同时实现定向化学空间探索。
本文提出了一种名为“零价线性正则变换(SZ-LCT)”的新方法,通过构建特定的幺正变换将强关联体系的哈密顿量映射至计算更简便的零价空间,并利用截断至二体算符的巴克尔 - 坎贝尔 - 豪斯多夫展开及算符分解策略,实现了亚毫哈特里精度且具备 标度的高效计算。
该论文提出了一种基于参考态零级数(seniority-zero)的幺正变换理论,通过精确计算前三个对易子并结合递归近似处理高阶项,有效降低了截断误差,从而在中小规模体系中实现了精度高达约 Hartree 的电子相关能计算。
该研究评估了将量子特征值估计算法应用于非厄米转相关电子哈密顿量的成本,发现结合 xTC 近似后,其在最小基组下的 T 门计数介于标准量子化方法在较大基组下的成本之间,且对锂和铍等小原子的计算精度优于 cc-pVQZ 基组,但对较大原子的误差随原子序数增加而增大。
该研究通过在密度矩阵嵌入理论(DMET)框架下结合基于采样的量子对角化(SQD)方法,在 IBM 超导量子硬件上成功模拟了低对称性配体类分子,证明了该混合量子 - 经典框架能够克服硬件噪声与纠缠结构复杂性,在多种化学体系中达到化学精度(1 kcal/mol)的基态能量计算。
本文通过将态间分析方法扩展至包含热浴耗散、泵浦及退相干等通用过程的林德布拉德描述,提出了一种新的态间分析框架,用于阐明开放量子系统中的输运路径,并以激子聚集体为例展示了其在量化稳态激子电流方面的应用。
该研究通过考察荧光分子转子在不同分子量聚乙二醇二元及三元混合水溶液中的响应,揭示了荧光寿命与组分比例间的线性混合规律,并据此对自由体积理论在微粘度探测中的适用性进行了更精确的评估与探讨。
本文提出了一种通过引入模型电荷密度以抵消晶格电荷分布多极矩的埃瓦尔德求和方法,该方法适用于各类周期性体系并显著加速了收敛速度,同时澄清了 CRYSTAL 代码中沿用数十年的实现细节。
本文介绍了"El Agente Estructural",这是一种由视觉语言模型与领域专用工具驱动的 multimodal 智能体,它能够像人类专家一样直接在三维空间中精确操纵分子几何结构(如官能团替换、立体化学控制等),从而在无需重建核心框架的情况下实现化学意义明确的分子建模与编辑。
该研究通过扩展包含约 13,000 种材料的量子化学成键数据库并构建新的成键描述符,系统评估表明将其融入机器学习模型不仅能显著提升弹性、振动及热力学等性质的预测精度,还能辅助发现如投影力常数和晶格热导率等性质的直观表达式。