买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于BERT和改进PCNN的食品安全关系抽取方法_华中农业大学_202110702743.3 

申请/专利权人:华中农业大学

申请日:2021-06-24

公开(公告)日:2024-04-26

公开(公告)号:CN113821571B

主分类号:G06F16/28

分类号:G06F16/28;G06N3/045;G06N3/0464;G06N3/09

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2022.01.07#实质审查的生效;2021.12.21#公开

摘要:本发明提供了基于BERT和改进PCNN的食品安全关系抽取方法,针对收集到的食品安全领域数据集,利用BERT和PCNN模型的分段最大池化最大程度捕获句子的局部信息,并根据中文是以词而并非以字为基本单位的特性以及注意力机制的优点,结合多核处理、分词技术、注意力机制以及损失函数等方法提出改进的模型BERT‑PCNN‑ATT‑jieba的模型,实现了提高抽取食品安全领域关系的性能的功能,提升了食品安全领域的关系抽取的性能。本发明减少了手工对于食品安全数据标注的成本,为下一步工作奠定了基础。

主权项:1.基于BERT和改进PCNN的食品安全关系抽取方法,其特征在于:包括以下步骤:S1:构建食品安全领域数据集并导入图数据库中;S2:构建食品安全领域关系模型,具体步骤为:S21:采用手工标注的方法对大规模文本进行预处理;S22:采用BERT模型从语料库得到句子的词嵌入向量和位置嵌入向量,将词嵌入向量与位置嵌入向量拼接得到句子的向量;S23:将句子的向量作为输入训练生成PCNN分段卷积神经网络模型;PCNN分段卷积神经网络模型包括依次连接的输入层、卷积层、分段最大池化层、分类层;输入层用于接收BERT模型输出的向量;卷积层用于拼接句子的上下文中词语的语义特征得到句子的特征,通过高层特征限制输入层与隐藏层之间连接元的数目从而减少模型训练的参数;分段最大池化层用于根据实体与实体之间的位置关系捕捉更高层语义特征;分类层用于将分段最大池化层得到的向量通过线性计算将维度降低至n维,并通过softmax分类器预测条件概率并选出最有可能的关系;S3:结合PCNN分段卷积神经网络模型的特点与中文特殊语料的特性,加入注意力机制与分词处理改进PCNN分段卷积神经网络模型得到BERT-PCNN-ATT-jieba模型;具体步骤为:在分段最大池化层与分类层之间添加注意力机制,用于进一步提取高层语义;将分段最大池化层的输出压缩到-1,1值域计算中间参数M,将矩阵与注意力机制初始化矩阵相乘计算权重W,则最终传到softmax函数中得到加权后的输出向量vec为:M=tanhP'8,a=softmaxWTM9,vec=P'aT10;在PCNN分段卷积神经网络模型的分段最大池化层中,在网络训练过程中通过执行MLM过程随机掩盖部分单词,并通过上下文输入到PCNN分段卷积神经网络模型中预测,避免损失句子含义;S4:通过测试集测试模型并进行关系分类;S5:通过比较评估指标评价模型的性能。

全文数据:

权利要求:

百度查询: 华中农业大学 基于BERT和改进PCNN的食品安全关系抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。