首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于机器学习分析规则的分值型模型优化方法_北京领雁科技股份有限公司_202311822048.6 

申请/专利权人:北京领雁科技股份有限公司

申请日:2023-12-27

公开(公告)日:2024-06-21

公开(公告)号:CN117725527B

主分类号:G06F18/2431

分类号:G06F18/2431;G06F18/22;G06N5/01;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.04.05#实质审查的生效;2024.03.19#公开

摘要:本发明公开了一种基于机器学习分析规则的分值型模型优化方法,以人工智能算法在模型组合策略持续优化应用为设计理念,在监督学习、无监督学习和粗糙集与粒计算等理论指导下,实现自动化、智能化地优化模型组合策略,能够将触发模型的相关数据通过AI技术进行多粒度分析,针对不同的业务场景,通过多种优化策略进行学习试算,能克服业务专家的主观性和试算有限性,更充分挖掘隐藏信息,得到更优的组合策略,辅助业务人员实现自动化地优化模型,辅助业务更快更好地优化模型,快速发现模型下规则的关联关系及其参与度,辅助业务理解可疑案例的特征识别点,进而更好地识别可疑案例。

主权项:1.一种基于机器学习分析规则的分值型模型优化方法,其特征在于:包括以下步骤:获取在专家模型的优化周期内的已认定案例数据、排除案例数据和规则预警数据,所述已认定案例信息数据包括:在优化周期内已认定案例触发所需优化模型的客户信息、账户信息、案例日期和规则集,所述排除案例信息数据包括在优化周期内排除案例触发所需优化模型的客户信息、账户信息、案例日期和规则集,所述规则预警信息数据包括在优化周期内触发规则的所有客户及其在每日的回顾周期内所有规则集;根据所述已认定案例数据和排除案例数据并结合预设算法分析所述专家模型中的核心规则组以及规则参与度,得到机器学习规则分析结果,所述预设算法包括随机森林分类算法、关联规则算法、最小属性约简算法以及递归特征消除算法,其中,包括:将已认定案例数据和排除案例数据合并为第一数据集;对所述第一数据集进行预处理并基于规则哑变量离散化后得到第一待分析数据集;采用预设算法和递归特征消除算法分别对所述第一待分析数据集进行核心规则组分析,得到与所述预设算法对应类型的核心规则组分析结果,还包括:采用关联规则算法进行核心规则组分析,得到第二类核心规则组分析结果,步骤为:步骤B1:遍历所述第一待分析数据集中的所有特征,获取第一待分析数据集中特征两两组合的集合,记为频繁A项集集合LA;步骤B2:遍历所述第一待分析数据集中的所有特征,在第一待分析数据集中寻找与集合LA存在组合的特征,并组合为新的项集,记为频繁B项集集合LB;步骤B3:重复执行所述步骤B2,直到找不到频繁k项集,计算各频繁项集的支持度、置信度和提升度,得到频繁项集计算结果;步骤B4:从所述频繁项集计算结果中选取同时大于最小支持度、最小置信度和最小提升度的频繁项集作为第二类核心规则组;采用随机森林分类算法对所述第一待分析数据集进行规则参与度分析,得到规则参与度分析结果,包括:步骤E1.1:令第一待分析数据集为,E为所述第一待分析数据集中的样本个数,单棵决策树的输入样本的个数为:E个从第一待分析数据集中有放回的随机抽取E个训练样本;步骤E1.2:令G为所述第一待分析数据集的特征总数,,当我们在每颗决策树的每个节点上进行分裂时,从G个输入特征里随机选择g个输入特征作为属性集,通过基尼指数公式计算属性集中每个属性的基尼指数,选择基尼指数最小的属性进行分裂;步骤E1.3:重复步骤E1.1和步骤E1.2,让每棵决策树不断分裂,直到满足停止分裂条件后停止分裂,生成对应数量的第二决策树,通过投票法从第二决策树中取单棵树分类结果最多的类别作为第二随机森林分类结果;步骤E1.4:分别计算所述第二随机森林分类结果中每棵决策树的预期贡献率得到第二预期贡献率,对所述第二预期贡献率进行平均归一化后得到规则重要度;步骤E2:根据已认定案例数据得到规则贡献率,所述规则贡献率表示已认定案例中的规则触发量与已认定案例数的比率,公式为: 其中,rule_contribute表示规则贡献率,r1表示已认定案例中的规则触发量,ra表示已认定案例数;步骤E3:规则相似度表示模型内规则之间所被触发客户的相似及包含情况,采用皮尔逊相似度函数计算规则相似度,计算公式为: 其中,rule_similar表示规则相似度,rc1表示规则1所被触发客户的离散化数组,rc2表示规则2所被触发客户的离散化数组;步骤E4:根据已认定案例数据和排除案例数据得到规则分别率,规则分别率表示规则在已认定案例中的触发量与在排除案例中的触发量之间的比率,公式为: 其中,rule_difference表示规则分别率,r1表示已认定案例中规则触发量,r2表示排除案例中规则触发量;步骤E5:由所述规则重要度、规则贡献率、规则相似度和所述规则分别率共同组成所述规则参与度分析结果;由所述核心规则组分析结果和所述规则参与度分析结果共同构成所述机器学习规则分析结果;根据所述机器学习规则分析结果和所述规则预警数据对所述专家模型执行分值型模型优化策略,得到分值型模型优化结果,包括:步骤X1:将已认定案例数据和排除案例数据合并为第二数据集;步骤X2:对所述第二数据集进行预处理并基于规则哑变量离散化后得到第二待分析数据集;步骤X3:获取所述机器学习规则分析结果中的第二类核心规则组和规则重要度;步骤X4:计算所述规则贡献率;步骤X5:将所述规则重要度和规则贡献率加权得到规则分档分值,公式为: 其中,rule_grading_score表示规则分档分值,rule_importance表示规则重要度;将规则分档分值进行标准化得到规则分档标准值,当所述规则分档标准值大于等于0.8为第一档,当所述规则分档标准值大于等于0.3且小于0.8为第二档,当所述规则分档标准值小于0.3为第三档;步骤X6:分析规则分档标准值并对所述第二类核心规则组中的规则进行规则分值调档:当第二类核心规则组的规则贡献率为1时,将第二类核心规则组中对应的规则调为第一档规则;当第二类核心规则组中规则的规则分档标准值为第三档时,将第二类核心规则组中对应的规则调为第二档规则;当第二类核心规则组中规则的规则分档标准值为第一档第二档,且不为核心规则时,将第二类核心规则组中对应的规则调为第三档规则;为所述第一档规则、第二档规则和第三档规则赋予对应分值;步骤X7:根据步骤X6的规则分值调档结果在所述第二待分析数据集上对所述第二类核心规则组进行分值累积计算,根据计算结果得到第二类核心规则组对应的上报率;步骤X8:选择剩余核心规则组,重复执行步骤X7得到剩余核心规则组对应的上报率,选择上报率最高的核心规则组对专家模型进行优化;将所述分值型模型优化结果中得到的模型进行打包部署,完成对专家模型的优化。

全文数据:

权利要求:

百度查询: 北京领雁科技股份有限公司 一种基于机器学习分析规则的分值型模型优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。