买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:厦门市美亚柏科信息安全研究所有限公司
摘要:本发明公开了一种基于词性比对的调证数据标题行识别方法、装置及可读介质,包括:对待识别文件进行文本解析,得到待识别文件中的各行数据记录;将每一个行数据记录中的字段在标题字段库进行查询,并统计命中字段的个数,判断是否为标题行或备选标题行;对无法确定为标题行或备选标题行的行数据记录中的每个字段进行词性标注,根据每个字段的词性以及词性与权重的对应关系确定每个字段对应的权重,并统计每一个行数据记录的所有字段的权重总分、所有行数据记录的权重总分的平均值以及行数据记录的平均字段个数,以进一步进行筛选,确定该行数据记录为备选标题行,在备选标题行中确定是否为标题行,能够提高识别准确性和处理效率。
主权项:1.一种基于词性比对的调证数据标题行识别方法,其特征在于,包括以下步骤:获取待识别文件,对所述待识别文件进行文本解析,得到所述待识别文件中的各行数据记录;遍历所述待识别文件中的每一个行数据记录,将每一个行数据记录中的字段在标题字段库进行查询,并统计命中字段的个数,根据所述命中字段的个数判断该行数据记录是否为标题行或备选标题行;对所述待识别文件中无法确定为标题行或备选标题行的行数据记录中的每个字段进行词性标注,确定每个字段的词性,根据每个字段的词性以及词性与权重的对应关系确定每个字段对应的权重,并统计每一个行数据记录的所有字段的权重总分、所有行数据记录的权重总分的平均值以及行数据记录的平均字段个数;基于所述每一个行数据记录的所有字段的权重总分、所有行数据记录的权重总分的平均值以及行数据记录的平均字段个数对所述待识别文件中无法确定为标题行或备选标题行的行数据记录进行筛选,确定该行数据记录为备选标题行,在所述备选标题行中确定该备选标题行是否为标题行。
全文数据:
权利要求:
百度查询: 厦门市美亚柏科信息安全研究所有限公司 基于词性比对的调证数据标题行识别方法、装置及可读介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。