买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:桂林电子科技大学
摘要:本发明公开了一种基于机器学习的构建储氢材料构效关系的方法,包括如下步骤:1)数据采集与处理;2)特征选择;3)特征扩充与增强;4)模型训练与评估;5)构效关系分析。这种方法准确性高、成本低、可解释性强。
主权项:1.一种基于机器学习的构建储氢材料构效关系的方法,其特征在于,包括如下步骤:1数据采集与处理:从MaterialProject材料数据库中提取所有储氢材料的结构性质,为对收集的数据进行数据清洗,以及对数据进行标准化处理,包括:1-1采用Python连接MaterialProject材料数据库的API,提取库中的材料性质数据,具体提取的性质有材料化学式、成键元素、最短氢键长度、材料空间集、材料密度、形成能、材料体积、材料总能量、每个原子的能量、原子位点个数、相对与凸包的能量、总磁化、原子实验半径、原子共价半径、原子的机器学习半径和电负性;1-2对数据进行清洗以及标准化处理:将步骤1-1提取出来的数据,去除这些数据中不完整的部分,标准化处理就是将这些数据进行无量纲化处理,得到无量纲的数据;2特征选择:特征选择就是筛选出与要构建构效关系的材料性质相关度高的特征作为原始特征,包括:2-1根据要构建构效关系的性质,基于材料本身的微观结构和化学组成提取关键特征;2-2:采用shap函数图像分析特征间的相关性,筛选出跟要构建构效关系的材料性质相关度最高的特征;3特征扩充与增强:特征扩充为对从步骤2中提取出的关键特征进行数学变换,包括但不限于平方、立方和指数变换,具体为对每个原始特征进行平方变换、立方变换和指数变换生成新的平方特征、立方特征和指数特征,然后将生成的新的特征与原始特征结合,形成增强后的新数据集;4模型训练与评估:选用线性回归模型、支持向量机模型、决策树模型和随机森林模型四种模型进行训练,将需要构建构效关系的特征值作为目标进行预测,然后采用均方根误差MSE和决定系数R2对各个模型的预测性能进行量化评估,包括:4-1模型训练:将在步骤3中重新组合出的特征作为数据集然后按照7:3的比例分为训练集和测试集分别输入给四个模型进行模型训练和测试;4-2采用均方根误差MSE评估模型的准确率,均方根误差MSE越接近于0,说明模型准确率越高,预测误差越小,计算公式为: 其中,Ypre为预测的目标特征的值,Ytrue为实际目标特征的值,n为样本数量;4-3采用决定系数R2评估模型的准确率,决定系数R2值最大为1,最小为0,当值接近于1,则说明模型训练的越好;值越接近于0,则模型训练的越差,计算决定系数R2需要计算回归平方和SSR、残差平方和SSE和总离平方和SST。具体计算如下:计算回归平方和SSR公式为: 其中,Ypre为预测的目标特征的值,为实际目标特征的平均值;计算残差平方和SSE公式为:SSE=∑Yture-Ypre2,,Ypre为目标特征的值,Ytrue为实际目标特征的值;计算总离平方和SST公式为:SST=SSR+SSE,其中,SSR是回归平方和,SSE是残差平方和;计算决定系数R2公式为: 其中,SSE是残差平方和,SST是总离平方和;5构效关系分析:依据训练好的机器学习模型,在训练的模型的决定系数R2大于0.8的情况下,根据均方误差MSE的大小决定构效关系公式的精准度即所用数据保留多少位小数,得到目标特征与相关度最高的特征之间的构效关系表达式。
全文数据:
权利要求:
百度查询: 桂林电子科技大学 一种基于机器学习的构建储氢材料构效关系的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。