首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】承压设备领域标准知识图谱的构建方法以及搜索系统_合肥通用机械研究院有限公司;合肥通用机械研究院特种设备检验站有限公司;国机特种设备检验有限公司_202410146377.1 

申请/专利权人:合肥通用机械研究院有限公司;合肥通用机械研究院特种设备检验站有限公司;国机特种设备检验有限公司

申请日:2024-02-02

公开(公告)日:2024-06-14

公开(公告)号:CN118193745A

主分类号:G06F16/36

分类号:G06F16/36;G06F40/289;G06F40/295;G06N5/02

优先权:

专利状态码:在审-公开

法律状态:2024.06.14#公开

摘要:本发明涉及知识图谱技术领域,尤其是一种承压设备领域标准知识图谱的构建方法以及搜索系统。本发明对原始数据文件进行分词后,采用不同大小滑动窗口对分词片段进行组合以构建候选词,再结合兼顾了邻接信息熵和增强互信息的筛选指标对候选词进行筛选,以构建领域专业词典,该领域专业词典作为原始数据文件的分词依据,以从原始数据文件中抽取风险防控共性实体。相对于传统的实体抽取需要投入大量的文本标注工作,本发明中领域文本中专业词汇的挖掘方法可以快速高效的识别专业词汇,进而基于专业词典进行实体抽取。可以快速准确的从原始数据中进行实体抽取、关系抽取、属性抽取,实现领域知识图谱的半自动化构建,减少人力成本。

主权项:1.一种承压设备领域标准知识图谱的构建方法,其特征在于,包括以下步骤:S1、获取承压设备领域的相关标准,对相关标准的文本内容进行提取和预处理,形成文本格式的原始数据文件;对原始数据文件进行分词处理和词频分析,获得分词片段;S2、设置多个不同大小的滑动窗口N1、N2、…、Nm、…、NM;滑动窗口取Nm时,令各分词片段与其后Nm-1个分词片段组合形成候选词;集合所有的候选词作为初始候选词库;结合定制的领域停用词典对初始候选词库进行筛选过滤,过滤后的初始候选词库记作领域候选词库;S3、计算领域候选词库中所有候选词的邻接信息熵和增强互信息,将二者得分相加作为候选词的筛选指标,根据设定的筛选条件获取筛选指标较大的候选词构成领域专业词典;S4、结合领域专业词典对原始数据文本进行分词处理和词频统计,结合领域停用词典对分词进行过滤,筛选高频关键词作为风险防控共性实体,并对风险防控共性实体进行统一;高频关键词为过滤后的分词结果中词频大于设定阈值K3的分词;S5、从承压设备领域的相关标准中抽取条款目录序号作为条款实体,抽取条款文字内容作为条款实体属性,抽取条款文字内容中的量化值作为条款实体属性值,抽取目录层级作为条框实体间的层级关系,抽取风险防控共性实体与条框实体间的关联关系,得到实体-关系-实体、实体-属性-属性值两种三元组。

全文数据:

权利要求:

百度查询: 合肥通用机械研究院有限公司;合肥通用机械研究院特种设备检验站有限公司;国机特种设备检验有限公司 承压设备领域标准知识图谱的构建方法以及搜索系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。