电话
您的姓名 *
您的公司名称 *
您的电话号码 *
您的电子邮箱 *
需要 *
感兴趣方向 *
留言 *
验证码 *
MaXFlow解决方案丨机器学习快速预测含氮分子的爆炸特性以发现新的含能材料
计算模拟平台
计算模拟平台
MaXFlow解决方案丨机器学习快速预测含氮分子的爆炸特性以发现新的含能材料
解决方案 | 2022-10-16 11:35
MaXFlow解决方案丨机器学习快速预测含氮分子的爆炸特性以发现新的含能材料
来源:计算模拟平台

摘要:含能材料广泛应用于军事、土木工程和空间探索等领域。新含能材料的发现是开发新一代武器、采矿、建筑、火箭推进技术的基础。本研究开发了一种机器学习辅助方法,通过高效预测和快速筛选来加速新含能材料的发现。建立了合适的神经网络,根据不同含氮分子的结构准确地预测各种含氮分子的爆轰特性,包括密度(ρ)、爆速(D)和爆轰压力(p)。此外,也确定了高精度扩展预测的最小数据库容量。利用机器学习发现新的含能化合物的概念验证研究,发现了31种具有出色爆轰性能的新含氮分子。预计在机器学习的辅助下,下一代含能材料的发展将大大加快。

 

引言

新型推进剂、烟火、炸药的发展,对含能材料的要求不断提高。应高效设计和开发更安全、更强大、更经济的含能材料。实验上由于数量巨大且安全性差的原因,合成所有可能的化合物并测试它们的性质是不现实的。因此,发展了一些计算和预测方法,以快速筛选候选分子。


近年来,随着人工智能和机器学习技术的发展,神经网络已被用于根据相应结构有效预测分子性质。无机固体的原子化能、能带、键能、聚合物的介电击穿强度、分子液体的临界点性质和光合复合物的激子动力学等,被各种神经网络预测,误差很小。最近,一些研究人员将机器学习作为一种工具来预测含能材料的性质和筛选含能分子。Elton等人应用机器学习技术从分子结构预测CNOHF含能分子的性质。基于一个包含104个数据点的大数据集,通过机器学习预测了爆轰速度。结合机器学习(ML)、材料信息学(MI)和热化学数据,根据高ΔHe值筛选分子候选物。基于机器学习的性质预测和分子筛选策略在发现新的高能密度材料方面具有很大的潜力。


为了有效地发现新的含能材料,对已开发的神经网络的扩展预测是一项需要评估的额外要求。我们最近发起了一项研究,以基于机器学习高通量筛选发现新的碳氢化合物燃料。在小数据库上训练的最优神经网络也可以应用到更大的数据库中,准确预测新设计的含N分子的爆炸特性。有趣的含能材料的发现将大大加快。


这项工作试图通过机器学习快速预测新型含能材料的爆轰性质,实现对新型含能材料的快速筛选。建立了各种不同体积的典型含能分子的结构-性质数据库,并在此基础上训练了许多神经网络,以准确地扩展预测爆轰性质。研究了数据库样本数量对机器学习扩展预测精度的影响。使用在较少样本上训练的已开发神经网络,实现了对这些新分子的有效性质预测和快速筛选。最后,确定了31个具有高密度、高爆速和高爆压的分子,其精度与理论计算相当。机器学习有望大大加快用于各种应用的新含能材料的设计和发现。这项工作的方案如图1所示。


P1.png

图1 机器学习的属性预测和分子筛选示意图。

 

2、数据库与方法
2.1 数据

2.1.1数据集

我们使用了许多典型炸药(TNT、CL-20、HMX、RDX等)作为初始数据集和分子骨架设计了436个包含碳(C)、氢(H)、氧(O)和氮(N)元素的分子,因为这些炸药分子在实验中具有出色的爆轰特性,并通过理论动力学分析进行了验证。在这些“分子骨架”的基础上,我们使用键长不等的取代基─NO2、─N─NO2、─O─NO2,短键长的N─NO2、NH2、─NH─NO2构建了新的分子。 如图2所示,分子中包含的原子数为7至64,分子中氮的质量百分比为5.53%至59.32%。统计数据证实了该数据库中设计的分子结构的多样性。


P2.png

图2 a)原子数和b)分子中氮的质量百分比的统计数据。


2.1.2. 计算爆轰特性的方法

密度(ρ)、起爆速度(D)和起爆压力(P)是评价炸药性能的关键指标。下面介绍这三个性质的理论计算方法。


理论密度ρ(g cm-3)采用由Politzer等人推导的式(1)计算


S1.png


M为分子质量(g mol−1),V(0.001)为分子电子密度的0.001电子玻尔轮廓线的体积(每分子cm3),ν表示在等值面上正负电势的平衡程度,微信图片_20221017134118.png是静电电势变异性的度量,系数 α、β和λ分别为0.9183,0.0028和0.0443。根据经验Kamlet-Jacobs方程(式(2)和(3))分别估算了爆炸物的爆速D (km s−1)和爆压P (GPa)。


S23.png

N是每克炸药产生的气体的摩尔数,微信图片_20221017134246.png为气态爆轰产物的平均分子量,Q是爆轰热(cal  g-1),ρ是炸药的密度(g cm-3)。


基于上述理论计算方法,我们对7种典型的爆炸分子进行了计算,并比较了理论计算值与实验值的差异。7种典型炸药的ρ、D和P的理论计算值与实验值之间的MAEs分别为0.0905 g cm-3、0.5046 km s -1和2.190 GPa。结果(如表1)表明,本文所采用的计算方法对于预测爆轰性质和筛选目标分子具有足够的准确性。然后用上述方法计算了数据库中其他429个分子的爆炸性质。至此,436个分子的分子结构及其爆轰特性数据库全部建立。


表1 七种典型炸药的理论计算和实验(括号内)性能比较。


T1.png

2.2 数据表达

根据之前的工作,库仑矩阵及其本征值已被初步证实是预测分子性质的有效表示。本文选择包含分子结构和核电荷的库仑矩阵作为机器学习的输入。根据式(4)计算库仑矩阵如下:


S4.png


其中,R为笛卡尔坐标,Z为核电荷,非对角元素表示原子i和j之间的库仑斥力,对角元素表示原子能与核电荷的多项式(0.5微信图片_20221016222726.png)拟合。这个数据库中分子的原子数从7到64. 因此,我们在低维矩阵中填入0,得到64 x 64的均匀数据。然后由式(5)计算库仑矩阵的本征值。Cij为分子的库仑矩阵。计算得到的本征值也可以代表分子结构


S5.png


图3为HMX的库仑矩阵和对应的特征值,深绿色表示值越小,深红色表示值越大。每个参与分子的信息都以同样的方式转化。将设计的所有分子转换为包含分子库仑矩阵(436×64×64)、库仑矩阵分子本征值(436×64)和计算得到的三个爆轰性质张量(436×3)的新数据集,以库仑矩阵分子本征值(436×64)作为输入,以2.1节中计算得到的爆轰性质张量(436×3)作为机器学习的输出。


P3.png


图3 HMX的分子结构、库仑矩阵和本征值。(深绿色表示值较小,深红色表示值较大。)


2.3 神经网络

在这项工作中,采用神经网络来完成预测和筛选任务。构建了10个隐藏神经元和1个输出层的神经网络模型(图4)。数据库分为3部分,分别为训练组、验证组和测试组,比例分别为0.8:0.1:0.1。通过比较不同方法训练过程的准确率和速度,我们选择Levenberg-Marquardt (LM)算法,这需要更多的内存,但需要更少的时间。采用均方误差(MAE)作为损失函数和收敛准则。采用LM算法的程序会自动迭代,直到达到收敛准则。训练结束后,我们得到回归函数,绘制出每个属性的表现。未发现明显的欠拟合或过拟合。最后,利用回归函数计算了三种爆轰特性预测的线性相关系数(R)和平均绝对误差(MAE)。


P4.png

图4 神经网络模型的示意图

3、结果与讨论
3.1利用机器学习预测爆炸性质

该神经网络由10个隐藏神经元和1个输出层组成,在自建的包含436个含N结构及其爆轰特性的数据库上进行训练。图5显示了密度(ρ)的拟合程度。当R趋于1时,数据点分布在对角线(y = x)附近,预测效果较好。拟合结果表明,所设计的神经网络对训练数据集、验证数据集和测试数据集的学习效果良好。


P5.png

图5 由神经网络通过训练、验证和测试预测的密度(ρ)(“目标”是目标值,“输出”是预测值。)


R和MAE预测ρ、D和P的值汇总在表2中。MAE对应ρ、D、P理想性能值的百分比(ρ≈1.9 g cm-3, d≈9.0 km s-1, P≈40.0GPa)分别为1.36%、3.84%、3.73%。预测误差得到了有效抑制。因此,所开发的神经网络足够准确和高效,可以直接根据给定的分子结构生成目标爆轰特性。

 

表2 使用神经网络预测爆轰特性的MAE值。

T2.png


3.2机器学习的扩展预测

对给定的新分子结构的大数据库进行扩展预测,可以实现对新能量分子的快速高通量筛选。在此之前,应在具有有限样本和属性数据的小型数据库上训练合适的神经网络。在此,通过在不同样本数的不同小型数据库上进行训练,开发了各种神经网络。然后,对所获得的神经网络进行评估,以扩展预测新含氮分子的爆轰特性。进一步研究了数据库样本数量对机器学习扩展预测精度的影响。


建立4个包含不同样本数(100、150、200、300)的小型数据库对神经网络进行训练。数据库中含N分子的类型选择相近。然后,将揭示数据库样本的数量对训练结果的影响。应变神经网络随后用于预测新分子的爆轰特性,形成一个大数据库(436个样本)。


如图6所示,三种爆轰特性的MAEs均随着训练样本从100增加到436而减小,且呈现先快后慢的趋势。在300个样本上训练的神经网络预测ρ、D和P的MAEs分别为0.0359 g cm-3、0.4548 km s-1和3.1873 GPa,对应的标准差分别为0.0046 g cm -3、0.0296 km s -1和0.5271 GPa。用436个样本训练的神经网络预测ρ、D和P的MAEs分别为0.0303 ±0.0047 g cm-3、0.3929±0.0423 km s-1和2.3786±0.7888 GPa。通过比较MAEs及其标准差,300样本训练的神经网络的预测精度已经接近436样本训练的神经网络的预测精度。在选取的300个样本上训练的神经网络已经可以实现高精度的扩展预测。因此,我们在300个样本的小数据库上训练神经网络,在后续研究中通过扩展预测来快速筛选高能量化合物。


P6.png

图6 在不同的大小的数据库上训练的各种神经网络预测含N分子a) ρ、 b) D和 c) P的MAE值。


然后将所有含N分子的结构输入到在300个样本的小数据库上训练的开发好的神经网络中。利用循环代码计算了所有分子的三种爆炸特性。这个过程在个人计算机上只花费0.038秒(CPU i5-7, 8gb RAM)。机器学习可以在很短的时间内完成大量分子的性质预测任务。与2.1.2节所述的基于分子建模和理论计算的传统方法相比,机器学习方法的效率要高得多。


所开发的神经网络预测的所有数据都被可视化地显示在一个3D图中,如图7所示。深蓝色表示较大的密度值,深红色表示图中较小的密度值。在坐标系中远离原点的x、y、z三个坐标的数据点代表突出的爆轰特性。基于高效机器学习扩展预测建立的结构-性质数据库,可以轻松筛选具有突出爆轰性质的有趣分子。因此,发展起来的基于小型数据库的神经网络可以通过扩展预测建立许多大型数据库,并实现更多高能分子的高通量筛选。


P7.png

图7 300个样本的数据库上训练的神经网络预测的所有分子的D(x轴)、P(y轴)和ρ(z轴)。(深蓝色表示密度值较大,深红色表示密度值较小。)


3.3新的含能材料

我们对数据库中的三个关键属性进行排名,筛选每个属性(ρ,D和P)的前10个分子。密度最高的前10个分子(ρ)是213、336、25、27、432、37、26、20、209和36。拥有最高爆速(D)的前10个分子分别是209、211、213、4 24、434、148、436、149、20和3。P分子排名前10位的是213、149、434、148、209、424、4、430、3和105。根据性质值的不同,分子数的排列顺序依次递减。具有最高密度、最高爆速或最高爆压的最佳分子各不相同。只有213号分子的三种性质都排在前十。为了发现更多潜在的高能分子,对数据库进行了另一种方式的进一步筛选。典型的高能量材料通常具有ρ≈1.9 g cm−3、D≈9.0km s−1和P≈40.0 GPa的爆轰特性。因此,筛查标准设置为ρ≥1.9g cm−3,D≥9.0km s−1,以及P ≥ 40.0 GPa.经过筛选,得到了31个符合标准的分子。其分子结构如图8所示。


P8.png

图8 筛选的31个含N分子的分子结构。


根据分子结构,这31个分子可分为四种类型。有10个分子具有环状硝基胺的结构,如图8的第一行和第二行所示。这些具有能量环的硝胺可以具有单环(005和049)、熔融环(009、018、019和020)、双环结构(194和195)或桥接环(320和335)。8种高能含N的化合物具有如图8的第三行和第四行所示的笼状结构。据推测,这些有趣的结构为设计和开发新型高能材料或提高现有炸药的性能提供了指导。


上述四种含氮分子的平均含氮质量百分比分别为43.03%、31.22%、32.57%和35.40%。所有31个分子的平均含氮质量比例为38.96%。我们假设一定的含氮质量比例是保证这些化合物具有良好爆轰性能的标准之一。


为了验证机器学习的预测并确认我们的筛选结果,我们比较了机器学习预测(红点)和理论方法计算的31个分子的ρ、D和P的值,如图9所示。用两种方法计算出的密度、爆轰速度和爆轰压力三种特性的变化趋势高度一致。计算了通过机器学习预测爆轰特性的MAEs,31个分子中的ρ、D和P分别为0.0394g cm−3、0.5386km s−1和4.666 GPa。



P9.png

图9 通过机器学习(红点)预测和通过理论方法计算(黑方块)的性质a)XX、 b) D和c)P。


相比之下,之前通过训练开发的其他不同容量的数据库(100、150、200和436)的神经网络也通过扩展预测建立了结构-性能的大数据库。在这些数据库中,同样的标准(ρ≥1.9g cm−3,D≥9.0km s−1,P ≥ 40.0 GPa)被用于筛选具有突出爆轰特性的新高能分子。得到不同的靶分子。


P10.png

图10 优化后的No.164的分子结构


值得一提的是,在重组的31个分子中的No. 164分子是新的,这在以前的工作中没有报道过。优化后的No. 164分子结构如图10所示。它具有像CL-20这样的笼状结构,通过理论方法计算出的三种爆轰性能(ρ、D、P)均优于CL-20。No. 164的分子可能是新的含能材料的一个非常有竞争力的候选材料。我们目前正在探索这种有趣的含氮结构的合成,为验证我们的预测,并为下一代含能材料的发展开辟新的途径。除了爆轰速度和爆轰压力的特性外,还有一些重要的因素,还需要考虑动力学稳定性、化学安全性等因素。在未来,当这些相关属性的数据库建立起来时,这些属性可以基于机器学习快速预测。从这个角度来看,迫切需要更多的工作来通过机器学习发现新的潜在的能量材料。

4结论

总之,机器学习已经被引入来准确预测新的含N能量分子的爆轰特性。通过建立合适的神经网络,有效地抑制了预测误差,ρ、D和P的MAEs分别为0.0259 g cm−3、0.3456 km s−1和1.4933 GPa。300个的训练数据库量足以在合理选择样本结构的基础上实现高精度的扩展预测。利用已开发的神经网络建立了一个大型结构性质数据库,筛选了31个高密度(ρ≥1.9 g cm−3)、高爆震速度(D≥9.0 km s−1)和高爆轰压力(P≥40.0 GPa)的分子。这一概念验证研究为发现有趣的含氮分子开辟了新的途径,有望加速下一代高能材料的发展。

 

参考文献:Advanced Theory and Simulations: Volume4, Issue6 June 2021 2100057.