首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于NLP的数据收集合规识别方法_数据空间研究院_202410442552.1 

申请/专利权人:数据空间研究院

申请日:2024-04-12

公开(公告)日:2024-06-21

公开(公告)号:CN118035712B

主分类号:G06F18/21

分类号:G06F18/21;G06F18/214;G06F40/205;G06F40/30;G06F40/247;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.05.31#实质审查的生效;2024.05.14#公开

摘要:本发明公开了一种基于NLP的数据收集合规识别方法,包括S1、构建La‑NLP模型,并对La‑NLP模型进行预训练;S2、调用经过预训练的La‑NLP模型对相关法律法规文本数据进行训练理解并生成合规要求;S3、获取待评估数据,使用基于La‑NLP模型对待评估数据进行处理,得到文本信息单元;S4、将文本信息单元生成的相应语义框架表示与合规要求的表示进行对齐,分析待评估数据的合规性;S5、根据分析结果评估数据合规,得到数据合规以及不合规部分的总结报告。本发明解决了现有技术存在的数据合规识别准确率低、效率低以及实用性低的问题。

主权项:1.一种基于NLP的数据收集合规识别方法,其特征在于,包括如下方法步骤:S1、构建La-NLP模型,并对La-NLP模型进行预训练;S2、调用经过预训练的La-NLP模型对相关法律法规文本数据进行训练理解并生成合规要求;S3、获取待评估数据,使用基于La-NLP模型对待评估数据进行处理,得到文本信息单元;所述S3具体包括:S31、获取待评估数据,使用La-NLP模型对输入的待评估数据进行解析和预处理;S32、创建基于合规要求的语义框架为基础语义框架,用于表征合规要求中每个要求 的信息内容,在待评估数据的文本部分上生成NLP注释,基础语义框架包括人物、权限和动 作; S33、基于基础语义框架的表示方法,自动生成输入的待评估数据生成基于语义框架的表示:确定语句中的语义角色;使用语义角色动作生成谓词,并使用剩余的语义角色生成论证;使用La-NLP模型进行语义角色标注的结果,La-NLP模型处理语义角色标记工具为输入数据中文本内容的每个语句分解为使用与要求中相似的语义角色标记的有意义的短语;所述S33具体包括:S331、给定语句中的语义角色,利用训练过的La-NLP模型进行注释,所述注释包括同义词理解适应文本中应用的不同措辞;S332、当识别出一个语义角色,对标记分配给的文本范围进行界定,使用文本块分块产生的自然语言处理注释找到其所在的完整短语;S333、输入的数据文本中的每个语句都被分割成一组短语,每组短语都有一个语义角色标签;S334、短语构成对语句的基于语义框架的表示;S34、根据生成的语义框架的表示得到文本信息单元;S4、将文本信息单元生成的相应语义框架表示与合规要求的表示进行对齐,分析待评估数据的合规性;所述S4具体包括:S41、使用基于合规要求和基于输入数据文本中创建的文本信息单元检查输入数据的合规性:将基于合规要求的语义框架表示与输入数据文本中每个语句的语义框架表示进行对齐比较,并计算匹配程度的分数,通过将规则库的表示和文本信息单元的语义框架表示进行对比,验证数据的合规性;S42、解析对齐分析结果,得到待评估数据对应的每个文本信息单元的合规属性;S5、根据分析结果评估数据合规,得到数据合规以及不合规部分的总结报告;所述S5具体包括根据分析结果来评估数据合规,生成一个数据合规以及不合规部分的详细总结报告,在输入数据文本级别上做出合规决策,在待评估数据中,如果至少有一条语句满足要求,在输入数据文本中将该要求标记为满足,否则,要求将被标记为违反,当至少一个强制要求被违反时,将视为不合规,当违反可选要求时,会有一个警告,所有的待评估数据内容都会被标记,生成总结报告;所述La-NLP模型构建具体包括:在La-NLP模型中应用层次注意力机制: ;其中,C代表注意力掩码,代表哈达玛乘积,Q代表查询,K代表键,V代表值,表示特征维度;所述注意力掩码C通过计算相邻注意力分数确定,相邻注意力分数代表相邻La-NLP模型输入基本单元的范围趋势,对于任何相邻La-NLP模型输入基本单元,相邻注意力分数计算如下: ;其中,表示查询矩阵,表示键矩阵,表示两个相邻模型输入基本单元,表示超参数作为缩放因子; 和重复更新,将相邻亲和分数通过计算和的归一化结果的平均值得到: ;其中,Softmax表示Softmax归一化函数;设定添加一个约束,约束随着网络深入,相邻亲和分数为增加趋势,第层中的亲和分数计算如下: ;其中,表示网络的第I-1层,表示相邻亲和分数;对给定输入基本单元对,注意力掩码矩阵C的元素计算如下: ;所述S2具体包括最优传输问题在传输之前给定初始状态,传输后的最终状态以及单位成本函数,表示从中第i位置到中第j位置的单位传输成本,制定一个传输计划使总传输成本最小化,每个元素表示从传输到的量,总传输成本计算如下: ; ; ;其中,表示初始状态i位置,表示传输位置j位置,表示从传输到的量,对于编码器获得的法律条文范围预测和规则库预测,利用最优传输模块度量法律条文范围预测和规则库预测之间的距离,法律条文范围预测和规则库预测的传输成本计算如下: ; ; ;其中,表示单位成本函数,第i个法律条文范围预测,表示第j个规则预测;利用余弦相似度定义单位成本函数,随着和之间的余弦相似度增加,对应的单位成本变低: ;其中,表示和之间的余弦相似度值;通过La-NLP模型对法律法规进行解析,提取出规则和要素,将规则和要素编码成一种被计算机理解的形式,并总结出规则库;与法律专家合作从相关法律法规要求中提取n个合规要求,n个合规要求分为四个类别包括个元数据要求、个关于数据处理者义务的要求、个关于数据控制者权利的要求以及个关于数据控制者义务的要求,根据法律专家的反馈,四个类别有个是强制性要求,个是可选要求,根据合规要求建立人工库;将规则库和人工库的合规要求进行人工合并得到完整合规要求。

全文数据:

权利要求:

百度查询: 数据空间研究院 一种基于NLP的数据收集合规识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。