首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于互联网公开数据的企业关联信息挖掘方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:拓尔思信息技术股份有限公司

摘要:本发明属于数据挖掘领域,提出了一种基于互联网公开数据的企业关联信息挖掘方法,通过搜索引擎自动搜索目标企业相关信息,获取特征信息,采集目标企业互联网公开数据,使用NLP技术处理采集的互联网公开数据,挖掘企业间关联关系,并分别从面向标题和面向段落的企业实体识别规则进行分阶段的提取,其对面向标题的企业实体识别规则中添加了价值判断,实现了自动且准确的从互联网采集数据中发掘企业关联信息,最大程度的解决了现有企业关联信息获取方法中存在的个人主观因素影响较大、特定站点数据不够全面、验证环节困难等问题。

主权项:1.一种基于互联网公开数据的企业关联信息挖掘方法,其特征在于,具体步骤如下:S1:目标企业信息自动采集:采用Selenium自动化测试工具+Chrome自动化工具,模拟人工对浏览器的操作,对目标企业基本信息使用搜索引擎自动搜索得到标题搜索结果列表;S2:生成企业实体识别规则;人工筛选S1中包含标题和详情页的企业基本信息的合规数据,对企业基本信息中的标题文本和详情页中的段落文本分别进行分词,收集形成对应的特征词词典,对于每一个实体进行分词后取最后一个词存入词典并去重;对文本分词后的词语进行序列标注,所述序列标注的方法为:若企业公司Q在所述特征词词典里,则标记为E,否则拿Q去国家企业信用信息公示系统查询,若能查询到,将Q添加进特征词词典并将Q重新标记为E,其他情况标记为O;总结序列标注生成面向标题和面向段落的企业实体识别规则;S3:生成企业关联关系抽取规则:基于互联网语料库、同义词和近义词表构建企业关联关系抽取关系规则;包括基于触发词的企业关联关系规则和基于依存句法的企业关联关系规则;利用依存句法的企业关联关系识别触发词补充到基于触发词的企业关联关系规则中进行触发词完善;S4:基于S2中面向标题的企业实体识别规则对S1标题搜索结果列表进行分词后的文本是否符合现有的企业实体识别规则,以及文本的企业实体间的关联关系强弱进行价值判断,得到高价值标题列表和低价值标题列表;S5:对高价值的标题列表直接进入标题所属详情页,基于S2中面向段落的企业实体识别规则和S3中面向段落的企业关联关系抽取规则进一步分析所述标题所属详情页段落,得到企业实体和企业关联关系信息。

全文数据:

权利要求:

百度查询: 拓尔思信息技术股份有限公司 一种基于互联网公开数据的企业关联信息挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。