首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于半监督的敏感舆情短语生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明涉及基于半监督的敏感舆情短语生成方法,本发明首先利用无监督方法对数据进行伪标注并预训练一个短语生成模型;另外,为了更好的让模型学习到某领域主题相关的敏感短语,进一步提出结合词嵌入表征和词袋表征的主题建模方法,提取敏感的潜在主题特征;最后结合短语生成模型和主题模型,基于少量标注数据进行微调,得到敏感舆情短语生成模型。在构建的敏感舆情数据集和KP20k数据上的实验表明,本发明的方法相比基础模型在F1@5值上提高3%。

主权项:1.基于半监督的敏感舆情短语生成方法,其特征在于,所述方法包括:结合词嵌入表征和词袋表征构建主题模型,用于提取敏感的潜在主题特征;利用无监督方法对数据进行伪标注并预训练一个短语生成模型;最后结合短语生成模型和主题模型,基于少量标注数据进行微调,利用梯度下降算法训练参数,由此构建基于半监督的敏感舆情短语生成方法模型;所述结合词嵌入表征和词袋表征构建主题模型,用于提取敏感的潜在主题特征具体包括:Step1.1、将文本xseq输入到一个能联系上下文的编码矩阵中,使用self-attention的网络结构进行编码;Step1.2、利用多头注意力机制将多个自注意力连接起来;Step1.3、为防止丢失原文本语义,对于输出的结果进行残差连接:Aseq=residualConnecta_xd,xseqStep1.4、将文本的词袋输入xbow经过多层感知机MLP进行编码:Abow=MLPxbowStep1.5、将Abow和Aseq进行拼接得到输入的整体表示A,将A作为VAE模块的输入,寻找数据的潜在分布;具体来说,令A作为VAE的输入,代表推断网络的输出,即潜在表示;VAE模型假设输入数据在潜在表示下的后验概率近似满足高斯分布,即qz|h~Nz;μ,σ2I,μ,σ2分别是高斯分布的均值和方差;另一方面,VAE假设z满足标准高斯先验,即pz~N0,I,在生成阶段,通过采样z~qz|A对样本进行重构,为使重构数据尽可能接近原始数据,VAE在最大化pA的同时,最小化训练得到的后验概率qz|A与其理论变分概率pz|A之间的误差; 通过不断的最小化Loss值,将得到融入词嵌入表征和词袋表征的主题模型,利用文本的重参数z表示文本的潜在的主题表征与在文本解码时进行操作;所述利用无监督方法对数据进行伪标注并预训练一个短语生成模型具体包括:Step2.1、使用一个双向门控递归单元Bi-GRU模型作为编码端,将文本进行编码,对于文本xseq经过一个双向的网络进行编码,从而能模拟词语之间的时序关系,并将两个方向得到的结果进行拼接得到输出,输出包含两个部分:整体的文本编码H和网络记忆模块M:H=Bi-GRUxseq1其中文本编码H,表示最终时刻文本编码的隐状态,网络记忆模块M=hi,用于记录每一个时刻的隐藏状态;Step2.2、在解码时,通过注意力机制查询记忆模型中与舆情文本相关的特征内容进行关注,使用一个GRU网络对上下文向量进行解码,并通过一个条件语言模型生成一个变长的特征向量y=yt:Pgy|x=∏j=1Pgyj|M,z2其中z为潜在的主题表征,Pg为一个单词词汇分布,表示在预测过程中预测第j个单词的概率;Step2.3、在解码端使用单层的GRU网络中,包含一个s={sk}状态机制,sk为k时刻的隐藏状态:sj=GRU[uj;z],sj-13其中GRU表示单层的GRU网络,uj是第j个词嵌入编码的输入,sj-1是前一个隐藏状态,[;]为拼接操作;Step2.4、将设计的记忆单元模块M通过注意力的方式进行对编码器中的特征信息进行学习,从而获取到上下文表征向量c:c=expfh,s,z∑expfh,s,z·M4其中h为编码层隐藏状态,s为解码器的隐藏状态,z为融合表征的重参数,f表示度量词语与词语之间的时序关系:fh,s,z=v·tanhW[h;s;z]+b5v,W,b均是可以学习的参数;Step2.5、结合复制网络,其允许从源输入中直接对关键字进行提取,复制机制复制概率表示:Pc=softmaxσH·Ws6σ,W是可以学习的参数,softmax为归一化网络;Step2.6、最后整合上下文表征向量c与复制网络得到对预测概率Pg的表示:Pg=softmax[s;c]+Pc7其中softmax是归一化函数,[;]为拼接操作;Step2.7、模型的损失函数为:Lkg=-∑n=1logPgy|x,z8所述结合短语生成模型和主题模型,基于少量标注数据进行微调,利用梯度下降算法训练参数,由此构建基于半监督的敏感舆情短语生成方法模型包括Step3.1、输入的一个文本在编码器部分对于双向GRU的输入文本编码H和网络记忆模块M进行特征选取: Step3.2、将主题模型中得到文本的重参数潜在的主题表征z带入模型对seq2seq模型进行指导,为了更好地获得敏感舆情的潜在特征,将解码器输出s进行微调: Step3.3、此时对于单词的预测概率为微调后的参数和主题模型的重参数的预测的概率: y为通过一个条件语言模型生成的一个变长的特征向量,Pg为一个单词词汇分布,表示在预测过程中预测第j个单词的概率;Step3.4、主题模型的损失和短语生成模型的损失的线性组合为整体框架训练目标,损失函数为: 其中超参数γ平衡了NTM和KG模型的影响,以保证两个模块的参数能共同更新共同训练;再利用梯度下降算法训练参数,由此构建基于半监督的敏感舆情短语生成方法模型。

全文数据:

权利要求:

百度查询: 昆明理工大学 基于半监督的敏感舆情短语生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。