首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】针对用户重复购买预测的模型参数优化方法及设备_湖北工业大学_202210440855.0 

申请/专利权人:湖北工业大学

申请日:2022-04-25

公开(公告)日:2024-06-21

公开(公告)号:CN114861531B

主分类号:G06F30/27

分类号:G06F30/27;G06F111/06;G06F119/02

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.08.23#实质审查的生效;2022.08.05#公开

摘要:本发明提供了一种针对用户重复购买预测的模型参数优化方法及设备。所述方法包括:步骤1至步骤9。本发明采用Spark分布式计算框架基于内存计算的特性,使秃鹰种群被划分为多个秃鹰子种群,然后使用mapPartitionWithIndex算子使每个分区的的子种群实现分布式计算,可以快速有效的搜索出最优的参数组合以提高LightGBM模型的预测精度,且在大数据分布式系统下具有计算速度快和可扩展性的特点。

主权项:1.一种针对用户重复购买预测的模型参数优化方法,其特征在于,包括:步骤1:从用户、店铺、用户和店铺三个维度构造特征,经过特征优化,选择对模型具有影响力的多个特征作为模型训练的特征,形成最终的训练集,然后将训练集数据存储在分布式文件系统中;步骤2:在主节点SparkDriver上设置分区个数,初始化种群各参数;步骤3:将秃鹰种群的初始位置转化为弹性分布式数据集RDD,读取分布式文件系统中的数据集路径获得分布式训练数据集RDD;具体初始化过程表述如下:随机初始化种群n表示种群的数量,d表示秃鹰个体的维度,每个维度应设置在LightGBM寻优参数的取值范围之内;对每一个子种群使用parallelize算子将初始化的种群分布为变量XRDD;然后使用textFile读取数据集的路径,并使用persist对数据进行持久化操作;步骤4:将秃鹰个体的维度表示为LightGBM模型中需要寻优参数的个数,秃鹰个体的每个维度则表示求解的参数,读取弹性分布式数据集RDD并按比例划分为训练集和验证集;步骤5:将同一分区中的秃鹰子种群和数据集合并生成新的弹性分布式数据集RDD,以AUC值作为适应度函数,计算每个分区子种群中每个秃鹰个体的适应度值;步骤6:获取全局最优适应度值所对应的最优秃鹰个体,并广播最优秃鹰个体;步骤7:对秃鹰种群中的弹性分布式数据集RDD使用mapPartitionsWithIndex算子按照秃鹰搜索算法分布式更新秃鹰位置:其中,为俯冲中秃鹰位置,Xi为第i只秃鹰位置,t为当前迭代次数,rand为0,1的随机数,ri为0,1的随机数,θi与ri分别为螺旋方程的极角与极径;C1和C2表示秃鹰向最佳与中心位置的运动强度,取值范围为1,2,Xmean为前一代搜索结束后秃鹰的平均分布位置,Xbest为当前秃鹰搜索确定的最佳搜索位置,n为秃鹰种群的个数;步骤8:使用步骤5中的方法计算适应度值,然后使用步骤6中的方法得到全局适应度值以及对应的最优秃鹰个体,并使用broadcast广播该个体;步骤9:判断当前的迭代次数是否达到最大迭代次数,若达到则输出全局最优秃鹰个体作为LightGBM的最优参数组合。

全文数据:

权利要求:

百度查询: 湖北工业大学 针对用户重复购买预测的模型参数优化方法及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。