申请/专利权人:每日互动股份有限公司
申请日:2024-01-24
公开(公告)日:2024-04-26
公开(公告)号:CN117933232A
主分类号:G06F40/247
分类号:G06F40/247;G06F40/284;G06F40/289;G06F40/30;G06F21/62
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.05.14#实质审查的生效;2024.04.26#公开
摘要:本发明提供了一种脱敏数据的复敏方法、电子设备及存储介质,涉及数据处理领域,所述方法包括如下步骤:获取预设拼音列表和预设敏感词列表集,所述预设敏感词的拼音为预设拼音,获取目标文本和目标文本对应的目标拼音序列,遍历预设拼音列表,若目标拼音序列中存在预设拼音,将该预设拼音标记为关键拼音,并获取该关键拼音在目标文本中对应的关键词,遍历目标文本,获取关键词在目标文本中出现的位置列表,遍历位置列表,获取位于Ai的关键词的纠正结果,从而获取纠正结果列表,基于纠正结果列表,获取最终文本;本发明通过拼音实现了同音词语的识别,将原本脱敏的词语纠正回正确词语,实现对脱敏词语的复敏。
主权项:1.一种脱敏数据的复敏方法,其特征在于,所述方法包括如下步骤:S100,获取预设拼音列表B={B1,B2,…,Bj,…,Bn}和预设拼音列表B对应的预设敏感词列表集D={D1,D2,…,Dj,…,Dn},Bj是第j个预设拼音,第j个敏感词列表Dj中的敏感词的拼音为Bj,j的取值范围是1到n,n是预设拼音的数量;S200,获取目标文本和目标文本对应的目标拼音序列;S300,遍历预设拼音列表B,若目标拼音序列中存在预设拼音Bj,将该预设拼音Bj标记关键拼音,并获取该关键拼音在目标文本中对应的关键词;S400,遍历目标文本,获取关键词在目标文本中出现的位置列表A={A1,A2,…,Ai,…,Am},Ai是关键词在目标文本中出现的第i个位置,i的取值范围是1到m,m是目标文本中关键词出现的次数;S500,遍历A,基于预设敏感词列表D,获取目标文本中位于Ai处的关键词对应的纠正结果Li,从而获取纠正结果列表L={L1,L2,…,Li,…,Lm};S600,基于纠正结果列表L,获取最终文本。
全文数据:
权利要求:
百度查询: 每日互动股份有限公司 一种脱敏数据的复敏方法、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。