首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于序列标注的网页正文定位方法、装置和计算机设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国人民解放军国防科技大学

摘要:本申请涉及一种基于序列标注的网页正文定位方法、装置和计算机设备。首先构建正则表达式从源码中提取出相应的文本片段,由于提取出的片段中仅有小部分包含所要提取的正文内容,针对这些片段还进行了一次分类,依据正文与非正文片段之间的差异筛选出真正包含正文内容的片段。其次,利用训练集对HMM模型中所要用到的所有参数进行了赋值与初始化。最后,利用维特比算法计算出了正文片段中每个单词归属于不同标签的概率,并选取其中最大的概率进行序列标注,依据标签的类别定位出所有属于正文的内容。

主权项:1.一种基于序列标注的网页正文定位方法,其特征在于,所述方法包括:采用预先设置正则表达式规则表对网页源码进行匹配,得到文本内容,以及对所述文本内容进行分类提取,得到所述文本内容中包含的正文内容;根据所述正文内容训练HMM模型,得到训练好的HMM模型;根据所述正文内容训练HMM模型,得到训练好的HMM模型,包括:根据所述正文内容中单词的所有标签,设置HMM模型的状态集合;根据所述正文内容中所有单词的单词集合,设置HMM模型的观测集合;根据所述正文内容中第一个单词属于各个标签的概率,设置HMM模型的初始标签概率;根据所述正文内容中相邻单词的标签变化,设置HMM模型的转移概率矩阵;根据所述正文内容中单词集合中每个单词在当前标签中出现的概率,设置HMM模型的发射概率矩阵;根据预先获取的正文内容的样本数据对所述HMM模型中的状态集合、观测集合、初始标签概率、转移概率矩阵以及发射概率矩阵进行初始化,得到训练好的HMM模型;根据训练好的HMM模型,采用维特比算法依次计算所述正文内容中每一个位置的单词在各个标签下的概率,选择概率最大的标签对单词进行标注;根据正文内容中所有单词的标注,确定网页正文的内容。

全文数据:

权利要求:

百度查询: 中国人民解放军国防科技大学 基于序列标注的网页正文定位方法、装置和计算机设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。