【发明授权】一种基于NLP的数据收集合规识别方法_数据空间研究院_202410442552.1

导航：龙图腾网> 最新专利技术> 一种基于NLP的数据收集合规识别方法_数据空间研究院_202410442552.1

申请/专利权人：数据空间研究院

申请日：2024-04-12

公开（公告）日：2024-06-21

公开（公告）号：CN118035712B

主分类号：G06F18/21

分类号：G06F18/21;G06F18/214;G06F40/205;G06F40/30;G06F40/247;G06F40/289

优先权：

专利状态码：有效-授权

法律状态：2024.06.21#授权;2024.05.31#实质审查的生效;2024.05.14#公开

摘要：本发明公开了一种基于NLP的数据收集合规识别方法，包括S1、构建La‑NLP模型，并对La‑NLP模型进行预训练；S2、调用经过预训练的La‑NLP模型对相关法律法规文本数据进行训练理解并生成合规要求；S3、获取待评估数据，使用基于La‑NLP模型对待评估数据进行处理，得到文本信息单元；S4、将文本信息单元生成的相应语义框架表示与合规要求的表示进行对齐，分析待评估数据的合规性；S5、根据分析结果评估数据合规，得到数据合规以及不合规部分的总结报告。本发明解决了现有技术存在的数据合规识别准确率低、效率低以及实用性低的问题。

主权项：1.一种基于NLP的数据收集合规识别方法，其特征在于，包括如下方法步骤：S1、构建La-NLP模型，并对La-NLP模型进行预训练；S2、调用经过预训练的La-NLP模型对相关法律法规文本数据进行训练理解并生成合规要求；S3、获取待评估数据，使用基于La-NLP模型对待评估数据进行处理，得到文本信息单元；所述S3具体包括：S31、获取待评估数据，使用La-NLP模型对输入的待评估数据进行解析和预处理；S32、创建基于合规要求的语义框架为基础语义框架，用于表征合规要求中每个要求的信息内容，在待评估数据的文本部分上生成NLP注释，基础语义框架包括人物、权限和动作； S33、基于基础语义框架的表示方法，自动生成输入的待评估数据生成基于语义框架的表示：确定语句中的语义角色；使用语义角色动作生成谓词，并使用剩余的语义角色生成论证；使用La-NLP模型进行语义角色标注的结果，La-NLP模型处理语义角色标记工具为输入数据中文本内容的每个语句分解为使用与要求中相似的语义角色标记的有意义的短语；所述S33具体包括：S331、给定语句中的语义角色，利用训练过的La-NLP模型进行注释，所述注释包括同义词理解适应文本中应用的不同措辞；S332、当识别出一个语义角色，对标记分配给的文本范围进行界定，使用文本块分块产生的自然语言处理注释找到其所在的完整短语；S333、输入的数据文本中的每个语句都被分割成一组短语，每组短语都有一个语义角色标签；S334、短语构成对语句的基于语义框架的表示；S34、根据生成的语义框架的表示得到文本信息单元；S4、将文本信息单元生成的相应语义框架表示与合规要求的表示进行对齐，分析待评估数据的合规性；所述S4具体包括：S41、使用基于合规要求和基于输入数据文本中创建的文本信息单元检查输入数据的合规性：将基于合规要求的语义框架表示与输入数据文本中每个语句的语义框架表示进行对齐比较，并计算匹配程度的分数，通过将规则库的表示和文本信息单元的语义框架表示进行对比，验证数据的合规性；S42、解析对齐分析结果，得到待评估数据对应的每个文本信息单元的合规属性；S5、根据分析结果评估数据合规，得到数据合规以及不合规部分的总结报告；所述S5具体包括根据分析结果来评估数据合规，生成一个数据合规以及不合规部分的详细总结报告，在输入数据文本级别上做出合规决策，在待评估数据中，如果至少有一条语句满足要求，在输入数据文本中将该要求标记为满足，否则，要求将被标记为违反，当至少一个强制要求被违反时，将视为不合规，当违反可选要求时，会有一个警告，所有的待评估数据内容都会被标记，生成总结报告；所述La-NLP模型构建具体包括：在La-NLP模型中应用层次注意力机制：；其中，C代表注意力掩码，代表哈达玛乘积，Q代表查询，K代表键，V代表值，表示特征维度；所述注意力掩码C通过计算相邻注意力分数确定，相邻注意力分数代表相邻La-NLP模型输入基本单元的范围趋势，对于任何相邻La-NLP模型输入基本单元，相邻注意力分数计算如下：；其中,表示查询矩阵，表示键矩阵，表示两个相邻模型输入基本单元，表示超参数作为缩放因子；和重复更新，将相邻亲和分数通过计算和的归一化结果的平均值得到：；其中，Softmax表示Softmax归一化函数；设定添加一个约束，约束随着网络深入，相邻亲和分数为增加趋势，第层中的亲和分数计算如下：；其中，表示网络的第I-1层，表示相邻亲和分数；对给定输入基本单元对，注意力掩码矩阵C的元素计算如下： ;所述S2具体包括最优传输问题在传输之前给定初始状态，传输后的最终状态以及单位成本函数，表示从中第i位置到中第j位置的单位传输成本，制定一个传输计划使总传输成本最小化，每个元素表示从传输到的量，总传输成本计算如下：；；；其中，表示初始状态i位置，表示传输位置j位置，表示从传输到的量，对于编码器获得的法律条文范围预测和规则库预测，利用最优传输模块度量法律条文范围预测和规则库预测之间的距离，法律条文范围预测和规则库预测的传输成本计算如下：；；；其中，表示单位成本函数，第i个法律条文范围预测，表示第j个规则预测；利用余弦相似度定义单位成本函数，随着和之间的余弦相似度增加，对应的单位成本变低：；其中，表示和之间的余弦相似度值；通过La-NLP模型对法律法规进行解析，提取出规则和要素，将规则和要素编码成一种被计算机理解的形式，并总结出规则库；与法律专家合作从相关法律法规要求中提取n个合规要求，n个合规要求分为四个类别包括个元数据要求、个关于数据处理者义务的要求、个关于数据控制者权利的要求以及个关于数据控制者义务的要求，根据法律专家的反馈，四个类别有个是强制性要求，个是可选要求，根据合规要求建立人工库；将规则库和人工库的合规要求进行人工合并得到完整合规要求。

全文数据：

权利要求：

百度查询：数据空间研究院一种基于NLP的数据收集合规识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：模型轻量化方法、装置、计算机设备、存储介质及程序产品_苏州元脑智能科技有限公司_202410372700.7

下一篇：一种用于化纤在线取丝饼自动暂存的中转机器人_安歌科技(集团)股份有限公司_202210543752.7

相关技术

模型轻量化方法、装置、计算机设备、存储介质及程序产品_苏州元脑智能科技有限公司_202410372700.7

一种用于化纤在线取丝饼自动暂存的中转机器人_安歌科技(集团)股份有限公司_202210543752.7

AGV磁寻迹偏移量计算方法、存储介质及AGV_广东嘉腾机器人自动化有限公司_202111406161.7

印制绕组式轻量化电磁能量采集装置_中国农业大学_202211249050.4

一种防治猪繁殖与呼吸道综合征的复方中药可溶性粉的制备方法和应用_广东海大集团股份有限公司_202211577992.5

点云处理的方法、系统、电子设备及计算机可读存储介质_合众新能源汽车股份有限公司_202210573918.X

一种磁性吸附材料及其制备方法和应用_国家粮食和物资储备局科学研究院_202310376075.9

一种便于安装的制粒切刀系统_创志科技(江苏)股份有限公司_202211619873.1

促进多面板用户设备的不连续接收_诺基亚技术有限公司_201880095028.4

一种镁合金阳极表面原位生成ZIF-8涂层的改性方法_桂林理工大学_202210904451.2

一种发动机仿真模型的精度评估方法、装置以及电子设备_西安航天动力研究所_202410282665.X

耐拉伸航空用电缆_广东南缆电缆有限公司_202410436836.X

集合相关技术

图像集合方法、电子设备、存储介质_浙江大华技术股份有限公司_202410317754.3

倒刺线水凝胶集合体、其制备方法及力学性能测试方法_中国纺织科学研究院有限公司_202211645908.9

一种基于NLP的数据收集合规识别方法_数据空间研究院_202410442552.1

基于集合的消息消费方法、生产方法、系统及存储介质_武汉美和易思数字科技有限公司_202110982595.5

用于将来自计算设备的集合的余热转换成电能的系统和方法_新动力国际有限公司_202280072270.6

一种基于点云集合的跨季单木种类识别方法及应用_河北农业大学_202410054588.2

一种区间数据集合中查找与给定区间数据相交的区间的方法及装置_国家电投集团数字科技有限公司_202410440171.X

一种适合小集合的多方隐私集合求交方法及系统_上海海洋大学_202210643985.4

基于湿位涡的集合预报扰动方法_南京气象科技创新研究院_202410635937.X

一种确定隐私集合交集方法、装置、电子设备及存储介质_北京信安世纪科技股份有限公司_202110911496.8

收相关技术

一种利于平整收卷的收卷设备_欣捷环保装备(南通)有限公司_202322927520.4

一种椴木灵芝棚内智能收粉机及其收粉方法_吉林农业科技学院_202410528213.5

一种持续收卷的薄膜收卷设备_中山市嘉靖塑料有限公司_202323164340.1

一种胶带收卷盘_安徽英诺高新材料有限公司_202322931650.5

一种内收式畚箕_台州黄岩亿杰日用品有限公司_202322641053.9

一种纱线收卷装置_梁山金顺纺织有限公司_202322709251.4

一种混凝土收面机构_唐山市星斗路桥机械有限公司_202322984255.3

带同步纠偏的收卷机构_江苏高凯精密流体技术股份有限公司_202323274601.5

一种丝线收卷机构_谷城县顺祥纺织有限责任公司_202322992648.9

一种印刷收页装置_合肥国元印务有限公司_202322921375.9

规相关技术

应用程序合规检测方法、装置、设备和介质_国家计算机网络与信息安全管理中心_202110972799.0

一种高亮度倒装车规芯片及其制备方法_华引芯(武汉)科技有限公司_202410636119.1

一种基于NLP的数据收集合规识别方法_数据空间研究院_202410442552.1

基于大语言模型和AI-Agent的数据合规性检测方法及系统_浪潮卓数大数据产业发展有限公司_202410271772.2

一种旅客信息提取行为合规性的校验方法及系统_中国民航信息网络股份有限公司_202410483957.X

一种美规插座保护门连锁结构和美规插座_深圳市佰斯达科技有限公司_202410537648.6

一种薄膜式真空规用抑制沉积导流模块及薄膜式真空规_中国科学院微电子研究所_202410245281.0

一种基于视频会话的合规检测方法、电子设备及系统_上海云从企业发展有限公司_202410309265.3

DMA控制器及其控制方法、车规级芯片、存储介质_上海朔集半导体科技有限公司_202410330192.6

一种手持设备的安规保护装置_福建利利普光电科技有限公司_202322756636.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于NLP的数据收集合规识别方法_数据空间研究院_202410442552.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务