WIRES: 适用于机器学习的材料结构编码方法

机器学习,一种通过提取已知数据中的内在关联来预测未知数据的人工智能方法,在材料科学领域中正在发挥日益重要的作用。这项技术中最为关键的一步是对材料的结构数据进行编码,使之转化为机器学习模型中的“特征(features)”,模型的预测精度在很大程度上将由该特征所决定。相比于小分子物质,周期性的晶体材料往往需要更精巧的结构编码方法,才能将材料的局域结构环境和全局结构信息进行有效融合。这篇综述中,北京大学深圳研究生院潘锋教授课题组梳理了近年来具有代表性的晶体结构编码方法,比较了它们在机器学习模型中的优缺点,并对材料学领域中结构特征提取方法的发展做出了展望。

将原子间连接关系简化为图是一种广泛应用的结构编码方法。根据图论原理由图生成邻接矩阵,该矩阵或子图信息便可作为机器学习模型的特征。这种基于结构图的特征提取方法源于一个重要的思想:材料中的距离和角度等信息可以从原子间连接关系的特征中获取。基于结构图的特征不但可以使机器学习模型拥有较高的可解释性,而且易于融合多种微观和宏观信息,使模型具有很高的适用性。由该特征构建出的图卷积网络可应用于多种材料性能的预测,凭借数据库中积累的大量晶体结构可以实现新材料的快速高通量筛选。

另一类常用的结构编码方法是库伦矩阵及其变体。库伦矩阵形式上类似于电子结构计算中的哈密顿量,其非对角线元素代表原子间的库仑斥力,而对角线元素则只与核电荷相关。后来以库伦矩阵为原型,陆续出现了BoB、sine matrix和MBTR等结构编码方法,成功使研究体系从小分子扩展至周期性晶体材料。库伦矩阵等结构编码方法的主要优点是其简单而又具有物理背景的数学表达式。但由于对相同核电荷的元素无法进行有效区分,这类特征所构建的机器学习模型在面对元素多样的材料数据集时往往难以提高精度。

第三类方法是拓扑描述符,其中最具代表性的是持续同调(persistent homology)方法。该方法将原子抽象成三维空间中的点云,通过记录其尺寸增加的过程中拓扑不变量的变化,从而得到拓扑指纹。具有一定连接关系的原子结构会对应唯一的拓扑指纹,因而可将其用于构建机器学习模型中的特征。这类基于拓扑描述符的结构编码方法可以同时提取材料的局部和全局结构信息,因而在生物大分子领域得到了广泛应用。目前,该方法在材料科学领域中已逐渐获得关注,其独特的结构描述方式在处理复杂晶体结构时有望发挥一定的优势。

第四类是基于倒空间信息,如衍射图谱等,针对晶体材料全局特征开发的结构编码方法。这类方法源于傅里叶变换的特点,即倒空间中的格点信息由实空间中的所有格点一起贡献。因此,衍射图谱包含了周期性晶体结构的长程结构信息,可以为材料性质的预测提供有力的帮助。由于倒空间信息中无法抽取出各个原子的元素信息,因而单独使用该特征将导致无法描述原子间的相互作用。开发实空间与倒空间信息相结合的结构特征提取方法将会是今后一个关键的研究方向。

针对不同的材料体系和材料性质,我们需要选取不同的结构编码方法才能使机器学习模型获得最优的预测能力。同时,随着机器学习算法的不断创新,对材料结构特征的要求也会不断改变。因此,对结构编码方法的优化和创新是未来材料科学领域机器学习研究中不可或缺的重要组成部分。

相关文章以“Encoding the atomic structure for machine learning in materials science”为题,发表在WIREs Comput. Mol. Sci.(DOI: 10.1002/wcms.1558)上,文章第一作者为北京大学深圳研究生院新材料学院副研究员李舜宁和硕士生刘原吉。

论文信息:

Encoding the atomic structure for machine learning in materials science

Shunning Li, Yuanji Liu, Dong Chen, Yi Jiang, Zhiwei Nie, Feng Pan*

WIREs Computational Molecular Science

DOI: 10.1002/wcms.1558

原文链接:https://onlinelibrary.wiley.com/doi/10.1002/wcms.1558?af=R

WIREs

Wiley Interdisciplinary Reviews (WIREs) 是一系列有关生命、环境、医学、物理和社会科学的综述类期刊品牌,于2009年首次发布,其设想是以新型的网络形式将百科全书式的参考文献与综述期刊结合起来,在期刊中发表受邀的综述和意见文章,并填充更新相关领域的百科全书,涵盖跨学科合作的领域,以协助研究人员、教育人员、学生、政策制定者以及其他感兴趣的读者学习相关研究领域。