首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】重复表单的检测方法及装置_中国银行股份有限公司_202110779913.8 

申请/专利权人:中国银行股份有限公司

申请日:2021-07-09

公开(公告)日:2024-06-21

公开(公告)号:CN113448861B

主分类号:G06F11/36

分类号:G06F11/36;G06F16/245;G06N5/01

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2021.10.22#实质审查的生效;2021.09.28#公开

摘要:本发明公开了一种重复表单的检测方法及装置,其中该方法包括:获取待检测表单的第一特征数据;对待检测表单的描述内容进行分词处理,并根据待检测表单的分词结果、以及历史表单的分词结果从历史表单中筛选出与待检测表单相似度大于预设阈值的相似历史表单;获取每一相似历史表单分别对应的第二特征数据,针对每一相似历史表单,根据第一特征数据、以及该相似历史表单对应的第二特征数据,利用预先训练的表单检测模型确定待检测表单、与该相似历史表单是否重复;待检测表单与任一相似历史表单重复时,删除待检测表单。本发明涉及大数据技术领域,可以筛除重复的表单,避免开发人员对同一问题进行重复处理,提高问题处理效率。

主权项:1.一种重复表单的检测方法,其特征在于,包括:获取待检测表单的第一特征数据;其中,第一特征数据为待检测表单的各参考特征对应的数据;待检测表单中包含对表单进行描述的描述内容;对待检测表单的描述内容进行分词处理,并根据待检测表单的分词结果、以及历史表单的分词结果从历史表单中筛选出与待检测表单相似度大于预设阈值的相似历史表单;其中,历史表单为历史获取的待检测表单中不重复的表单;获取每一相似历史表单分别对应的第二特征数据,针对每一相似历史表单,根据第一特征数据、以及该相似历史表单对应的第二特征数据,利用预先训练的表单检测模型确定待检测表单、与该相似历史表单是否重复;其中,表单检测模型为根据各参考特征通过机器学习得到的判断两个表单是否重复的模型;第一特征数据、与第二特征数据对应的参考特征相同;待检测表单与任一相似历史表单重复时,删除待检测表单;对待检测表单的描述内容进行分词处理,并根据待检测表单的分词结果、以及历史表单的分词结果从历史表单中筛选出与待检测表单相似度大于预设阈值的相似历史表单,包括:利用分词工具对待检测表单的描述内容进行分词处理,得到待检测表单对应的第一分词;获取各历史表单分别对应的第二分词;针对每一历史表单:将待检测表单的第一分词分别与该历史表单的第二分词进行比较,确定该历史表单中与第一分词一致的第二分词的数量;该历史表单中与第一分词一致的第二分词的数量占该历史表单的第二分词总数量的比例大于预设阈值时,确定该历史表单为相似历史表单。

全文数据:

权利要求:

百度查询: 中国银行股份有限公司 重复表单的检测方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。