基于半监督的敏感舆情短语生成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：昆明理工大学

摘要：本发明涉及基于半监督的敏感舆情短语生成方法，本发明首先利用无监督方法对数据进行伪标注并预训练一个短语生成模型；另外，为了更好的让模型学习到某领域主题相关的敏感短语，进一步提出结合词嵌入表征和词袋表征的主题建模方法，提取敏感的潜在主题特征；最后结合短语生成模型和主题模型，基于少量标注数据进行微调，得到敏感舆情短语生成模型。在构建的敏感舆情数据集和KP20k数据上的实验表明，本发明的方法相比基础模型在F1@5值上提高3％。

主权项：1.基于半监督的敏感舆情短语生成方法，其特征在于，所述方法包括：结合词嵌入表征和词袋表征构建主题模型，用于提取敏感的潜在主题特征；利用无监督方法对数据进行伪标注并预训练一个短语生成模型；最后结合短语生成模型和主题模型，基于少量标注数据进行微调，利用梯度下降算法训练参数，由此构建基于半监督的敏感舆情短语生成方法模型；所述结合词嵌入表征和词袋表征构建主题模型，用于提取敏感的潜在主题特征具体包括：Step1.1、将文本xseq输入到一个能联系上下文的编码矩阵中，使用self-attention的网络结构进行编码；Step1.2、利用多头注意力机制将多个自注意力连接起来；Step1.3、为防止丢失原文本语义，对于输出的结果进行残差连接：Aseq＝residualConnecta_xd,xseqStep1.4、将文本的词袋输入xbow经过多层感知机MLP进行编码：Abow＝MLPxbowStep1.5、将Abow和Aseq进行拼接得到输入的整体表示A，将A作为VAE模块的输入，寻找数据的潜在分布；具体来说，令A作为VAE的输入，代表推断网络的输出，即潜在表示；VAE模型假设输入数据在潜在表示下的后验概率近似满足高斯分布，即qz|h～Nz；μ,σ2I，μ,σ2分别是高斯分布的均值和方差；另一方面，VAE假设z满足标准高斯先验，即pz～N0,I，在生成阶段，通过采样z～qz|A对样本进行重构，为使重构数据尽可能接近原始数据，VAE在最大化pA的同时，最小化训练得到的后验概率qz|A与其理论变分概率pz|A之间的误差；通过不断的最小化Loss值，将得到融入词嵌入表征和词袋表征的主题模型，利用文本的重参数z表示文本的潜在的主题表征与在文本解码时进行操作；所述利用无监督方法对数据进行伪标注并预训练一个短语生成模型具体包括：Step2.1、使用一个双向门控递归单元Bi-GRU模型作为编码端，将文本进行编码，对于文本xseq经过一个双向的网络进行编码，从而能模拟词语之间的时序关系，并将两个方向得到的结果进行拼接得到输出，输出包含两个部分：整体的文本编码H和网络记忆模块M：H＝Bi-GRUxseq1其中文本编码H，表示最终时刻文本编码的隐状态，网络记忆模块M＝hi，用于记录每一个时刻的隐藏状态；Step2.2、在解码时，通过注意力机制查询记忆模型中与舆情文本相关的特征内容进行关注，使用一个GRU网络对上下文向量进行解码，并通过一个条件语言模型生成一个变长的特征向量y＝yt：Pgy|x＝∏j＝1Pgyj|M,z2其中z为潜在的主题表征，Pg为一个单词词汇分布，表示在预测过程中预测第j个单词的概率；Step2.3、在解码端使用单层的GRU网络中，包含一个s＝{sk}状态机制，sk为k时刻的隐藏状态：sj＝GRU[uj；z],sj-13其中GRU表示单层的GRU网络，uj是第j个词嵌入编码的输入，sj-1是前一个隐藏状态，[；]为拼接操作；Step2.4、将设计的记忆单元模块M通过注意力的方式进行对编码器中的特征信息进行学习，从而获取到上下文表征向量c:c＝expfh,s,z∑expfh,s,z·M4其中h为编码层隐藏状态，s为解码器的隐藏状态，z为融合表征的重参数，f表示度量词语与词语之间的时序关系：fh,s,z＝v·tanhW[h；s；z]+b5v,W,b均是可以学习的参数；Step2.5、结合复制网络，其允许从源输入中直接对关键字进行提取，复制机制复制概率表示：Pc＝softmaxσH·Ws6σ,W是可以学习的参数，softmax为归一化网络；Step2.6、最后整合上下文表征向量c与复制网络得到对预测概率Pg的表示：Pg＝softmax[s；c]+Pc7其中softmax是归一化函数，[；]为拼接操作；Step2.7、模型的损失函数为：Lkg＝-∑n＝1logPgy|x,z8所述结合短语生成模型和主题模型，基于少量标注数据进行微调，利用梯度下降算法训练参数，由此构建基于半监督的敏感舆情短语生成方法模型包括Step3.1、输入的一个文本在编码器部分对于双向GRU的输入文本编码H和网络记忆模块M进行特征选取： Step3.2、将主题模型中得到文本的重参数潜在的主题表征z带入模型对seq2seq模型进行指导，为了更好地获得敏感舆情的潜在特征，将解码器输出s进行微调： Step3.3、此时对于单词的预测概率为微调后的参数和主题模型的重参数的预测的概率： y为通过一个条件语言模型生成的一个变长的特征向量，Pg为一个单词词汇分布，表示在预测过程中预测第j个单词的概率；Step3.4、主题模型的损失和短语生成模型的损失的线性组合为整体框架训练目标，损失函数为：其中超参数γ平衡了NTM和KG模型的影响，以保证两个模块的参数能共同更新共同训练；再利用梯度下降算法训练参数，由此构建基于半监督的敏感舆情短语生成方法模型。

全文数据：

权利要求：

百度查询：昆明理工大学基于半监督的敏感舆情短语生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种可自动充电的分体式移动充电桩及其方法

下一篇：基于私有传输协议的文件传输方法、装置和存储介质

相关技术

一种可自动充电的分体式移动充电桩及其方法

基于私有传输协议的文件传输方法、装置和存储介质

核酸探针及利用核酸探针进行DNA检测的方法

一种基于多源大数据的康养服务智能匹配方法及系统

一种飞机液压牵引系统横向稳定性实验平台

钢包上水口拆卸装置

一种用于刺五加深加工的吸附式提纯设备

一种基于多源数据的换电柜电池智能回收管理方法及系统

一种装饰条连接件与立柱压板的连接工艺

基于WO₃@AuNPs和聚合物PAMAM双信号放大的DR1检测试剂盒及应用

一种基于热优化设计的机床五自由度误差测量装置

一种带有光路定向机构的车载顶灯

敏感相关技术

一种能用于敏感肌的湿巾_稳健医疗(嘉鱼)有限公司_202410846019.1

一种居民敏感用户停电管理监测装置_广西电网有限责任公司崇左凭祥供电局_202210033641.1

一种温度敏感变色指示装置_江苏集萃智能液晶科技有限公司_202111107446.0

湿度敏感型雄性不育水稻材料S14119的制备及应用_中国科学院植物研究所_202311396400.4

敏感词过滤方法、装置、计算机设备和可读存储介质_杭州电魂网络科技股份有限公司_202011074973.1

一种核电厂关键敏感设备脱敏优先级确定方法_核电运行研究(上海)有限公司_202310289133.4

平面工艺的敏感区沉积能量叠层仿真标定方法_北京微电子技术研究所_202410377527.X

敏感数据的审计方法、装置及电子设备_阳光保险集团股份有限公司_202410717431.3

整车颤振敏感度评价方法、系统、可读存储介质及设备_麦格纳动力总成(江西)有限公司_202410775377.8

基于小电导机械力敏感性通道的生物埃米孔系统_四川大学_202210758241.7

短语相关技术

利用文本到图像扩散模型实现短语级定位的方法_厦门大学_202410661746.0

基于区块链的新闻时政短语发现方法及系统_德州学院_202410739357.5

基于情感与传播力的热门短语数据实时提取方法及装置_一网互通(北京)科技有限公司_202311475301.5

一种基于拼音距离和滑动窗口的儿童语音短语匹配方法_华东师范大学_202210292844.2

基于半监督的敏感舆情短语生成方法_昆明理工大学_202111085498.2

基于改进的CNN-BiLSTM-CRF雷达短语提取方法_西安诺尼电子科技有限公司_202410451920.9

融合关系短语知识的关系抽取方法、装置和电子设备_清华大学_202110881415.4

一种超短语音语种识别方法_因诺微科技(天津)有限公司_202110752462.9

用于ASR模型的短语提取_谷歌有限责任公司_202180104656.6

一种技能短语抽取方法_上海硕恩网络科技股份有限公司_202010896664.6

生成相关技术

图像生成装置、图像生成方法以及程序_JVC建伍株式会社_202280091420.8

线路信息生成装置、线路信息生成方法及程序_东芝基础设施系统株式会社_202311694211.5

基于手绘图生成图像的生成对抗网络模型调度系统及方法_北京邮电大学_202111573065.1

气溶胶生成装置的控制方法及气溶胶生成装置_深圳市合元科技有限公司_202310325156.6

一种气溶胶生成装置及气溶胶生成设备_深圳市基克纳科技有限公司_202410966213.3

基于大语言生成模型的仿真网络数据包生成方法及系统_上海天旦网络科技发展有限公司_202411170718.5

文本的生成方法、生成装置和可读存储介质_用友网络科技股份有限公司_202410843734.X

脉冲序列的生成方法、生成装置、介质和计算机设备_深圳量旋科技有限公司_202310285190.5

气雾生成装置及用于气雾生成装置的加热器_深圳市合元科技有限公司_202310331626.X

地图生成方法及装置_北京极智嘉科技股份有限公司_202310286520.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于半监督的敏感舆情短语生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务