首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

行业领域识别方法、装置、电子设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国电子技术标准化研究院;北京中科凡语科技有限公司

摘要:本发明提供一种行业领域识别方法、装置、电子设备及存储介质,涉及自然语言处理技术领域,该方法包括:获取待识别应用软件的隐私政策文本;对隐私政策文本中的段落进行分类,根据段落分类结果,将隐私政策文本中目标类型的段落确定为目标段落;提取目标段落中的目标词汇;基于目标段落中的目标词汇,确定待识别应用软件所属的行业领域。本发明提供的行业领域识别方法、装置、电子设备及存储介质,能提高待识别应用软件的隐私政策文本的解析效率和解析准确率,能基于待识别应用软件的隐私政策文本更准确、更高效的识别待识别应用软件所属的行业领域,能提高用户感知。

主权项:1.一种行业领域识别方法,其特征在于,包括:获取待识别应用软件的隐私政策文本;对所述隐私政策文本中的段落进行分类,根据段落分类结果,将所述隐私政策文本中目标类型的段落确定为目标段落;提取所述目标段落中的目标词汇;基于所述目标段落中的目标词汇,确定所述待识别应用软件所属的行业领域;其中,所述段落的类型为业务功能与信息收集、信息共享、转让、公开披露、信息保护、信息存储、用户权利、cookies技术、信息收集-征得授权同意的例外、信息共享-征得授权同意的例外、撤回同意的授权、未成年保护、隐私政策更新、投诉反馈机制以及无关文本中的任意一种;所述目标类型为业务功能与信息收集;所述对所述隐私政策文本中的段落进行分类,包括:将所述隐私政策文本输入段落分类模型,获取所述段落分类模型输出的所述隐私政策文本的段落分类结果;其中,所述段落分类模型是以样本应用软件的样本隐私政策文本为样本,以所述样本隐私政策文本的段落分类结果为样本标签进行训练后得到;所述段落分类模型用于对所述隐私政策文本进行语义特征提取之后,基于所述隐私政策文本的语义特征,获取所述隐私政策文本的段落分类结果;所述基于所述目标段落中的目标词汇,确定所述待识别应用软件所属的行业领域,包括:将所述目标段落、所述目标段落中的目标词汇以及所述隐私政策文本的文本名称输入第一分类模型,获取所述第一分类模型输出的所述待识别应用软件所属的行业领域;其中,所述第一分类模型是以样本段落、从所述样本段落中提取到的样本词汇以及样本隐私政策文本的文本名称为样本,以样本应用软件所属的行业领域为样本标签进行训练后得到;所述样本隐私政策文本为所述样本应用软件的隐私政策文本;所述样本段落为所述样本隐私政策文本中目标类型的段落;所述第一分类模型,包括:第一特征提取单元、词汇编码单元、第二特征提取单元、第一向量拼接单元和第一结果输出单元;所述将所述目标段落、所述目标段落中的目标词汇以及所述隐私政策文本的文本名称输入第一分类模型,获取所述第一分类模型输出的所述待识别应用软件所属的行业领域,包括:将所述目标段落输入所述第一特征提取单元,由所述第一特征提取单元对应所述目标段落进行语义特征提取,进而获取所述第一特征提取单元输出的所述目标段落对应的第一嵌入向量;将所述目标段落中的目标词汇输入所述词汇编码单元,由所述词汇编码单元对所述目标段落中的目标词汇进行编码,进而获取所述词汇编码单元输出的所述目标段落对应的第二嵌入向量;将所述隐私政策文本的文本名称输入所述第二特征提取单元,由所述第二特征提取单元对所述隐私政策文本的文本名称进行特征提取,进而获取所述第二特征提取单元输出的所述目标段落对应的第三嵌入向量;将所述第一嵌入向量、所述第二嵌入向量和所述第三嵌入向量输出所述第一向量拼接单元,由所述第一向量拼接单元对所述第一嵌入向量、所述第二嵌入向量和所述第三嵌入向量进行拼接,进而获取所述第一向量拼接单元输出的所述目标段落对应的第一特征表示向量;将所述第一特征表示向量输入所述第一结果输出单元,获取所述第一结果输出单元输出的所述待识别应用软件所属的行业领域;或者,所述第一分类模型,包括:词句拼接单元、第三特征提取单元、第四特征提取单元、第二向量拼接单元和第二结果输出单元;所述将所述目标段落、所述目标段落中的目标词汇以及所述隐私政策文本的文本名称输入第一分类模型,获取所述第一分类模型输出的所述待识别应用软件所属的行业领域,包括:将所述目标段落和所述目标段落中的目标词汇输入所述词句拼接单元,由所述词句拼接单元对所述目标段落中的句子与所述句子中的目标词汇进行拼接,进而获取所述句子的词句拼接结果;将所述句子的词句拼接结果输入所述第三特征提取单元,由所述第三特征提取单元基于所述句子的词句拼接结果,获取所述句子对应的序列之后,基于所述目标段落中所有句子对应的序列,获取所述第三特征提取单元输出的所述目标段落对应的第四嵌入向量;将所述隐私政策文本的文本名称输出所述第四特征提取单元,由所述第四特征提取单元对所述隐私政策文本的文本名称进行特征提取,进而获取所述第四特征提取单元输出的所述目标段落对应的第五嵌入向量;将所述第四嵌入向量和所述第五嵌入向量输出所述第二向量拼接单元,由所述第二向量拼接单元对所述第四嵌入向量和所述第五嵌入向量进行拼接,进而获取所述第二向量拼接单元输出的所述目标段落对应的第二特征表示向量;将所述第二特征表示向量输入所述第二结果输出单元,获取所述第二结果输出单元输出的所述待识别应用软件所属的行业领域。

全文数据:

权利要求:

百度查询: 中国电子技术标准化研究院 北京中科凡语科技有限公司 行业领域识别方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。