首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于同义词发现的网页表格信息解析方法_西安理工大学_202110251907.5 

申请/专利权人:西安理工大学

申请日:2021-03-08

公开(公告)日:2024-06-18

公开(公告)号:CN113128210B

主分类号:G06F40/247

分类号:G06F40/247;G06F40/242;G06F40/216;G06F16/35;G06F40/289;G06F16/31

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2021.08.03#实质审查的生效;2021.07.16#公开

摘要:本发明公开的一种基于同义词发现的网页表格信息解析方法,包括以下步骤:步骤1,网页原始数据预处理,得到预训练文本;步骤2,先分词预处理,随后进行关键词筛选,再次进行分词,生成基本知识库;步骤3,将基本知识库利用词向量技术,获得同义词词典;步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里;步骤5,通过同义词词典对二维列表里的数据进行定位,完成解析过程。本发明网页表格信息解析方法,可实现对于用户所需数据的准确提取,由于进行了同义词发现过程,进一步增加了信息提取的准确性。

主权项:1.一种基于同义词发现的网页表格信息解析方法,其特征在于,包括以下步骤:步骤1,网页原始数据预处理,即去掉原始数据中无用代码符号和代码,得到预训练文本;步骤2,对步骤1中的预训练文本进行分词预处理,随后进行关键词筛选,筛选结束后得到关键词词典;将关键词词典再次进行分词,生成词向量的基本知识库;步骤3,将步骤2得到的基本知识库利用词向量技术,得到目标词的相近词出现的概率,获得同义词词典;步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里;步骤5,通过步骤3的同义词词典对步骤4中的二维列表里的数据进行定位,然后根据特征信息的特点,进行信息提取和整合,完成解析过程;所述步骤3具体为:步骤3.1,根据基本知识库建立词汇表,词汇表中任一单词拥有一个随机的词向量;将单词wi的上下文Cwi={wj|j∈|i-R,i∩i+1,i+R},wi即就是上文为中心词的前R个词、下文为中心词的后R个词,把2R-1个上下文词向量的平均值输入CBOW,参数wjh表示wi前面的前R个词和后R个词;由隐含层累加,在第三层的哈夫曼树中沿着某个特定的路径到达某个叶节点,得到对单词wi的预测;步骤3.2,根据单词wi的哈夫曼编码确定从根节点到叶节点的正确路径,同时也确定了路径上所有分类器作出的预测;步骤3.3,采用梯度下降法调整分类器中输入的词向量,使得实际路径向正确路径靠拢;在训练结束后,从词汇表中得到每个单词对应的词向量,获得词向量模型;步骤3.4,保存步骤3.3的词向量模型,调用most_similar方法得到关键词的同义词,获得同义词词典;所述步骤4具体为:步骤4.1,使用Beautifulsuop模块对待处理网页结构解析,利用网页中的表格标签定位到表格相应位置,查找到网页中成对的最小表格标签;步骤4.2,计算表格中tr、td的数量,从而给出二维列表的行数,然后自定义给出列数,通过步骤4.1中解析网页标签的方式填入表格信息。

全文数据:

权利要求:

百度查询: 西安理工大学 一种基于同义词发现的网页表格信息解析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术