【发明授权】NLP数据预处理方法、jvm及spark端服务器_中国银行股份有限公司_202110539452.7

导航：龙图腾网> 最新专利技术> NLP数据预处理方法、jvm及spark端服务器_中国银行股份有限公司_202110539452.7

申请/专利权人：中国银行股份有限公司

申请日：2021-05-18

公开（公告）日：2024-02-27

公开（公告）号：CN113190657B

主分类号：G06F16/33

分类号：G06F16/33;G06F16/35;G06F40/242;G06F9/455;G06F18/2135;G06N20/00

优先权：

专利状态码：有效-授权

法律状态：2024.02.27#授权;2021.08.17#实质审查的生效;2021.07.30#公开

摘要：本发明公开了一种NLP数据预处理方法、jvm及spark端服务器，涉及人工智能技术领域，该方法包括：对待处理数据进行初步处理，得到初始输入数据，初步处理包括去停用词和切词；接收spark端服务器发送的字典规则，字典规则包含对待处理数据进行预处理时，各个操作步骤的输入与输出的对应关系，所述操作步骤包括依次进行的TFIDF处理、基于信息增益的降维处理以及PCA处理；通过字典规则的读取，确定对初始输入数据进行预处理时，每个操作步骤的输出结果；将PCA处理的输出结果确定为待处理数据的预处理结果。本发明可以简化jvm获取NLP数据预处理结果的过程，同时能够利用各种算法模型得到更加准确的预处理结果。

主权项：1.一种NLP数据预处理方法，其特征在于，应用于jvm，所述jvm与spark端服务器连接，所述方法包括：对待处理数据进行初步处理，得到初始输入数据，初步处理包括去停用词和切词；接收spark端服务器发送的字典规则，所述字典规则包含对待处理数据进行预处理时，各个操作步骤的输入与输出的对应关系，所述操作步骤包括依次进行的TFIDF处理、基于信息增益的降维处理以及PCA处理；所述字典规则包括第一规则、第二规则、第三规则和第四规则，其中所述第一规则为TFIDF处理中每个词语与词向量维度的对应关系；所述第二规则为TFIDF处理中每个词向量维度与IDF值的对应关系；所述第三规则为基于信息增益的降维处理中每个词向量维度与各自重要性顺序的对应关系；所述第四规则为PCA处理中输入和输出进行词向量维度空间映射的转换矩阵；通过字典规则的读取，确定对初始输入数据进行预处理时，每个操作步骤的输出结果；将PCA处理的输出结果确定为待处理数据的预处理结果；当操作步骤为TFIDF处理时，通过字典规则的读取，确定对初始输入数据进行预处理时，每个操作步骤的输出结果，包括：将第一规则和第二规则分别还原为字典类型数据；读取第一规则还原的字典类型数据，确定词向量维度数量，构建容纳与词向量维度数量等数量元素的空数组，空数组中各个元素所在位置与第一规则中词向量所在位置一一对应；遍历初始输入数据，确定初始输入数据中每个词语出现的次数，根据词语与词向量维度的对应关系，将每个词语出现的次数填入空数组中与词语对应的词向量所在位置；读取第二规则还原的字典类型数据，确定初始输入数据中每个词语的词向量维度对应的IDF值；计算初始输入数据中每个词语出现的次数与对应IDF值的乘积，作为每个词语的TFIDF值；利用TFIDF值替换数组中每个词语的出现的次数，将得到的数组作为TFIDF的输出结果；当操作步骤为基于信息增益的降维处理时，通过字典规则的读取，确定对初始输入数据进行预处理时，每个操作步骤的输出结果，包括：将第三规则还原为字典类型数据；读取第三规则还原的字典类型数据，确定初始输入数据中每个词语的每个词向量维度对应的重要性顺序；选择重要性顺序在前K个的词语，按照重要性顺序递减的顺序将词语对应的TFIDF值存入新建数组中，得到基于信息增益的降维处理的输出结果；当操作步骤为PCA处理时，通过字典规则的读取，确定对初始输入数据进行预处理时，每个操作步骤的输出结果，包括：将第四规则还原为转换矩阵；对基于信息增益的降维处理的输出结果与转换矩阵做向量叉乘运算，得到PCA处理的输出结果。

全文数据：

权利要求：

百度查询：中国银行股份有限公司 NLP数据预处理方法、jvm及spark端服务器

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种模拟母乳油脂组合物及其制备方法与应用_杭州岛屿星晴生物技术有限公司_202410349373.3

下一篇：电池单元的连接结构_株式会社斯巴鲁_202311626440.3

相关技术

一种模拟母乳油脂组合物及其制备方法与应用_杭州岛屿星晴生物技术有限公司_202410349373.3

电池单元的连接结构_株式会社斯巴鲁_202311626440.3

一种降低彩虹纹的光栅波导装置以及波导系统_北京至格科技有限公司_202410658035.8

一种ORB特征匹配融合AMCL的机器人重定位方法_重庆邮电大学_202410163891.6

显示装置和用于制造该显示装置的方法_三星显示有限公司_202311264824.5

无线通信方法及系统_杭州九阳小家电有限公司_202211640089.9

具有顶部抗压结构的高低压变频器_西安启功电气有限公司_202211648198.5

一种油溶性石墨烯的制备方法_重庆烯达科技有限公司_202410279749.8

一种基于双蒸发器的紧凑式压缩制冷散热系统及应用_苏州华旃航天电器有限公司_202410334871.0

一种电解水制氢异质结催化剂的制备及其应用_昆明理工大学_202410334678.7

基于多模块组合的应用程序越权漏洞检测方法及系统_深圳开源互联网安全技术有限公司_202410023783.9

空调器的控制方法与空调器_青岛海尔空调器有限总公司_202211643481.9

方法相关技术

配置方法_意法半导体(大西部)公司_202311748134.7

设备控制方法方法和装置_珠海格力电器股份有限公司_202111537707.2

模型预训练方法、模型训练方法、对象处理方法及装置_北京百度网讯科技有限公司_202310701200.9

脱水方法_赛纳塔生物有限公司_202280073278.4

任务处理方法、法律问答方法及任务处理模型训练方法_阿里巴巴(中国)有限公司_202410660148.1

移动台、基站、发送方法及接收方法_松下电器(美国)知识产权公司_201980043653.9

模型构建方法、图像分割方法、装置、设备、介质_北京字跳网络技术有限公司_202211634709.8

测试结构及其形成方法及测试方法_中芯国际集成电路制造(北京)有限公司_202211638350.1

消息发送方法、装置和资源分配方法、装置_北京小米移动软件有限公司_201880000686.0

窗口插件配置方法、窗口数据采集方法及装置_北京字节跳动网络技术有限公司_202111209776.0

jvm相关技术

一种JVM系统的问题定位方法和装置_北京基调网络股份有限公司_202410457237.6

JVM线程监控方法、装置及电子设备_北京数衍科技有限公司_202110027887.3

JVM进程监控方法及装置_中国工商银行股份有限公司_202010821228.2

一种JVM探针的配置方法及装置、电子设备、存储介质_南京亚信软件有限公司_202410055065.X

基于机器学习的JVM调优方法、装置和电子装置_杭州安恒信息技术股份有限公司_202010749649.9

一种JVM垃圾回收方法、装置、设备及介质_中电(海南)联合创新研究院有限公司_202311787133.3

一种面向大数据构建的风险处理框架的JVM优化方法和装置_成都乐超人科技有限公司_202311678715.8

基于jvm堆外内存的对账系统优化方法、装置、设备及介质_杭州乒乓智能技术有限公司_202311533727.1

NLP数据预处理方法、jvm及spark端服务器_中国银行股份有限公司_202110539452.7

一种获取最优JVM参数方法及系统_四川启睿克科技有限公司_202311448626.4

预处理相关技术

一种浸膏预处理装置_地香(大理)生物科技有限公司_202322008735.6

一种原料预处理装置_湖南湘钢金属材料科技有限公司_202323114039.X

一氧化二氮制备的预处理装置、预处理方法、系统及方法_福建优力特材料科技有限公司_202410643096.7

一种碱渣废水生化预处理装置_中国石油化工股份有限公司_202323121075.9

一种预处理机构及裁剪装置_贵阳德堡印务有限公司_202322819931.1

一种土壤检测的预处理装置_上海环科环境认证有限公司_202322576847.1

一种滴灌设备用沼液预处理装置_大连东泰有机废物处理有限公司_202322915842.7

一种金属表面预处理装置_金岳(山东)金属制品有限公司_202322923264.1

一种儿科用药预处理装置_青岛大学附属医院_202210590599.3

废旧纺织品回收预处理装置_安徽天秉新材料科技有限公司_202322408376.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】NLP数据预处理方法、jvm及spark端服务器_中国银行股份有限公司_202110539452.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务