首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】NLP数据预处理方法、jvm及spark端服务器_中国银行股份有限公司_202110539452.7 

申请/专利权人:中国银行股份有限公司

申请日:2021-05-18

公开(公告)日:2024-02-27

公开(公告)号:CN113190657B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/35;G06F40/242;G06F9/455;G06F18/2135;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.02.27#授权;2021.08.17#实质审查的生效;2021.07.30#公开

摘要:本发明公开了一种NLP数据预处理方法、jvm及spark端服务器,涉及人工智能技术领域,该方法包括:对待处理数据进行初步处理,得到初始输入数据,初步处理包括去停用词和切词;接收spark端服务器发送的字典规则,字典规则包含对待处理数据进行预处理时,各个操作步骤的输入与输出的对应关系,所述操作步骤包括依次进行的TFIDF处理、基于信息增益的降维处理以及PCA处理;通过字典规则的读取,确定对初始输入数据进行预处理时,每个操作步骤的输出结果;将PCA处理的输出结果确定为待处理数据的预处理结果。本发明可以简化jvm获取NLP数据预处理结果的过程,同时能够利用各种算法模型得到更加准确的预处理结果。

主权项:1.一种NLP数据预处理方法,其特征在于,应用于jvm,所述jvm与spark端服务器连接,所述方法包括:对待处理数据进行初步处理,得到初始输入数据,初步处理包括去停用词和切词;接收spark端服务器发送的字典规则,所述字典规则包含对待处理数据进行预处理时,各个操作步骤的输入与输出的对应关系,所述操作步骤包括依次进行的TFIDF处理、基于信息增益的降维处理以及PCA处理;所述字典规则包括第一规则、第二规则、第三规则和第四规则,其中所述第一规则为TFIDF处理中每个词语与词向量维度的对应关系;所述第二规则为TFIDF处理中每个词向量维度与IDF值的对应关系;所述第三规则为基于信息增益的降维处理中每个词向量维度与各自重要性顺序的对应关系;所述第四规则为PCA处理中输入和输出进行词向量维度空间映射的转换矩阵;通过字典规则的读取,确定对初始输入数据进行预处理时,每个操作步骤的输出结果;将PCA处理的输出结果确定为待处理数据的预处理结果;当操作步骤为TFIDF处理时,通过字典规则的读取,确定对初始输入数据进行预处理时,每个操作步骤的输出结果,包括:将第一规则和第二规则分别还原为字典类型数据;读取第一规则还原的字典类型数据,确定词向量维度数量,构建容纳与词向量维度数量等数量元素的空数组,空数组中各个元素所在位置与第一规则中词向量所在位置一一对应;遍历初始输入数据,确定初始输入数据中每个词语出现的次数,根据词语与词向量维度的对应关系,将每个词语出现的次数填入空数组中与词语对应的词向量所在位置;读取第二规则还原的字典类型数据,确定初始输入数据中每个词语的词向量维度对应的IDF值;计算初始输入数据中每个词语出现的次数与对应IDF值的乘积,作为每个词语的TFIDF值;利用TFIDF值替换数组中每个词语的出现的次数,将得到的数组作为TFIDF的输出结果;当操作步骤为基于信息增益的降维处理时,通过字典规则的读取,确定对初始输入数据进行预处理时,每个操作步骤的输出结果,包括:将第三规则还原为字典类型数据;读取第三规则还原的字典类型数据,确定初始输入数据中每个词语的每个词向量维度对应的重要性顺序;选择重要性顺序在前K个的词语,按照重要性顺序递减的顺序将词语对应的TFIDF值存入新建数组中,得到基于信息增益的降维处理的输出结果;当操作步骤为PCA处理时,通过字典规则的读取,确定对初始输入数据进行预处理时,每个操作步骤的输出结果,包括:将第四规则还原为转换矩阵;对基于信息增益的降维处理的输出结果与转换矩阵做向量叉乘运算,得到PCA处理的输出结果。

全文数据:

权利要求:

百度查询: 中国银行股份有限公司 NLP数据预处理方法、jvm及spark端服务器

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。