基于内容增强网络嵌入的主题标签表示学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京航空航天大学

摘要：本发明公开了一种基于内容增强网络嵌入的主题标签表示学习方法，属于自然语言处理领域；首先，根据实际需求获取英文的社交媒体数据和词嵌入模型，从中提取主题标签，用户产生内容和单词；然后搭建异构网络图，获取单词的向量空间以及用户产生内容的表示向量。针对每个存在单词节点与之相连的主题标签，通过节点采样策略获取训练样本，伙同单词的向量空间和用户产生内容的表示向量同时输入多任务学习模型，输出各主题标签与训练样本中各元素间的概率分布，以最小化概率分布与经验分布的均方误差之和为目标，调整模型参数，最终输出主题标签嵌入矩阵即为主题标签的表示学习结果。本发明取得的主题标签表示向量的无监督聚类结果更符合主题分类。

主权项：1.一种基于内容增强网络嵌入的主题标签表示学习方法，其特征在于，具体包括：步骤一，根据实际需求获取英文的社交媒体数据和词嵌入模型，从中提取主题标签和包含主题标签的用户产生内容，并根据提取的主题标签中的文本从词嵌入模型的词表中提取单词；步骤二，将各主题标签，用户产生内容和单词分别作为一个节点，搭建异构网络图；并从词嵌入模型中获取异构网络图中单词的向量组成单词的向量空间，并利用表示模型获取用户产生内容的表示向量；所述的搭建异构网络图具体过程为：步骤301、初始为每一个主题标签指定若干用户产生内容，并将两者相连；步骤302、逐个遍历各主题标签，首先判断主题标签的文本是否包含小写字母，如果是，将字母转换为小写形式后的文本，否则考察原始的文本；然后判断主题标签的文本内容长度是否大于2且存在于单词表，如果是，则将其添加至网络热词列表中；否则，不予处理；步骤303、利用分割函数将遍历的各主题标签分别分割为单词序列；具体为：首先，假设主题标签文本为通过字母大写标记单词首字母的句子，通过正则表达式将文本拆分成若干字符串，在各字符串之间插入空格字符将文本重新拼接；然后，移除位于主题标签文本首尾的数字和下划线，并用空格字符替换主题标签文本中间的数字和下划线；最后，根据空格字符将主题标签文本分割成若干单词，将内容长度大于2的单词添加至单词序列；步骤304、判断单词序列的长度是否大于1，如果是，进入步骤305；否则，进入步骤306；步骤305、遍历单词序列中的单词，通过单词预处理流程对单词进行转化，然后判断转化后的单词是否存在于词嵌入模型的单词表，如果是，将转化后的单词添加至异构网络图，并与主题标签相连，否则不予处理；所述单词预处理流程具体为：判断单词是否包含小写字母，如果是，则将单词的所有字母转化为小写，否则不予处理；步骤306、通过单词预处理流程对主题标签文本进行转化，然后遍历网络热词列表，若网络热词列表中存在单词A为转化后主题标签文本的子字符串，则将单词A添加至异构网络图并与主题标签相连；否则该单词A为未知单词，不予处理；步骤307、通过相关度计算两个主题标签构成的标签对的相关度，并将相关度大于0的主题标签对相连；所述主题标签i和j的相关度计算公式为：其中，ttotal为社交媒体数据中包含主题标签的用户产生内容总数，tij为同时包含主题标签i和j的用户产生内容数量，ti为包含主题标签i的用户产生内容数量，tj为包含主题标签j的用户产生内容数量；步骤三，针对异构网络图中每个存在单词节点与之相连的主题标签，通过节点采样策略获取各主题标签对应的训练样本；将每个主题标签的训练样本，以及单词的向量空间和用户产生内容的表示向量同时输入多任务学习模型进行训练；利用多任务学习模型输出的各主题标签与训练样本中各元素间的概率分布，以最小化概率分布与经验分布的均方误差之和为目标，调整多任务学习模型中主题标签嵌入矩阵的参数和用户产生内容向量转换模块的参数；所述的获取各主题标签对应的训练样本，具体为：首先，指定异构网络图中存在单词节点与之相连的一个主题标签ht为当前采样节点；然后，从主题标签ht的相连与不相连的主题标签，单词，以及用户产生内容中分别选择对象进行组合，得到训练样本；具体为：1、从主题标签ht的相邻主题标签中选择主题标签hpc，并从主题标签ht的非相邻主题标签中随机选择主题标签hnc；相邻主题标签hk被选择的概率为：其中wtk为主题标签ht与主题标签hk之间的边的权重，neighht为主题标签ht的相邻主题标签的集合；规定ht与hpc的经验分布为1，ht与hnc的经验分布为0；2、从与主题标签ht相连的单词中随机选择单词wp，从不与主题标签ht相连的单词中随机选择单词wn；规定ht与wp的经验分布为1，ht与wn的经验分布为0；3、从与主题标签ht相连的用户产生内容中随机选择用户产生内容up，从不与主题标签ht相连的用户产生内容中随机选择用户产生内容un；规定ht与up的经验分布为1，ht与un的经验分布为0；4、对将元素ht和6个元素hpc，hnc，wp，wn，up和un进行组合，得到8个训练样本；每一个训练样本均包括主题标签ht，从hpc和hnc中任选一个主题标签hc，从wp和wc中任选单词w，从up和uc中任选用户产生内容u；最后，从异构网络图中选择下一个存在单词节点与之相连的主题标签ht1为当前节点，再次重复选择对象的过程，通过枚举正负样本的组合得到下一个主题标签ht1的8个训练样本，直至将异构网络图中每个存在单词节点与之相连的主题标签的训练样本获取完毕；均方误差之和的计算公式为：L＝Lhh+Lhw+Lhu其中，Lhh为训练样本中主题标签与主题标签的均方误差；Lhw为训练样本中主题标签与单词的均方误差；Lhu为训练样本中主题标签与用户产生内容的均方误差；均方误差计算公式分别为：其中，S为训练样本，为主题标签ht与主题标签hc的经验分布；pht,hc为主题标签ht与主题标签hc的概率分布；为主题标签ht与单词w的经验分布；pht,w为主题标签ht与单词w的概率分布；为主题标签ht与用户产生内容u的经验分布；pht,u为主题标签ht与用户产生内容u的概率分布；步骤四，重复循环设定的次数后结束训练，最终调整完参数的多任务学习模型输出的主题标签嵌入矩阵，即为主题标签的表示学习结果，完成了主题标签的表示学习；所述的多任务学习模型由主题标签嵌入矩阵、用户产生内容向量转换模块、概率分布计算模块组成；主题标签嵌入矩阵用于存储待学习的主题标签的表示向量；嵌入矩阵的第i行存储索引为i的主题标签的表示向量；未进行学习时嵌入矩阵是随机初始化的，学习过程中对嵌入矩阵的参数进行调整；用户产生内容向量转换模块用于实现用户产生内容到单词的向量空间的映射；多任务学习模型具体过程为：首先输入：主题标签ht和hc的索引、单词w的向量rw，用户产生内容的表示向量ru；通过主题标签嵌入矩阵和主题标签ht和hc的索引，取得主题标签ht和hc的向量rt和rc，通过用户产生内容向量转换模块，将用户产生内容向量ru转换为ru′；转换公式为：ru′＝fru其中，f为模块中实现向量转换的转换函数；然后，通过概率分布计算模块计算ht与hc的概率分布pht,hc，ht与w的概率分布pht,w和ht与u的概率分布pht,u作为输出；计算公式为：

全文数据：

权利要求：

百度查询：北京航空航天大学基于内容增强网络嵌入的主题标签表示学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种密炼机混炼室

下一篇：一种用于金属化薄膜卷筒的堆放装置

相关技术

一种密炼机混炼室

一种用于金属化薄膜卷筒的堆放装置

一种细胞凋亡检测试剂盒

一种利用畜禽粪便发酵高效生物有机肥的生产工艺

一种压缩空气储能系统

一种稳定高效的塑料挤出机

一种双推杆固定可调式光伏支架

一种取料手套箱、取料系统

一种瓶子

一种分捡操作设备

一种体外诊断试剂盒

一种具有防护结构的物料升降装置

主题相关技术

一种融合了主题信息的多意图识别方法和系统_四川启睿克科技有限公司_202111465255.1

与挖掘会话中的主题相关的系统和方法_吉尼赛斯云服务有限公司_202380026704.3

一种智能设备与主题构建方法_海信电子科技(武汉)有限公司_202210430894.2

车机主题的切换方法、装置、服务器及存储介质_雄狮汽车科技(南京)有限公司_202410853155.3

一种获取目标主题数据信息的方法及装置_杭州知衣科技有限公司_202210336663.5

基于特征点过滤与排序的遥感影像主题敏感哈希认证方法_金陵科技学院_202111375607.4

一种基于短文本数据流的局部专属主题检测方法_桂林电子科技大学_202410896649.X

车内主题模式确定方法、电子设备及车辆_长城汽车股份有限公司_202410844878.7

一种主题推荐方法、装置、设备及可读存储介质_中国移动通信有限公司研究院_202311694453.4

用于车载仪表主题的切换方法、处理器、系统及车辆_诺博汽车科技有限公司_202310369394.7

标签相关技术

一种标签定位方法，标签及存储介质_中国移动通信有限公司研究院_202311405644.4

基于标签语义的动态属性网络层次标签推理方法_天津大学合肥创新发展研究院_202410972587.6

可激光印刷的柔性桶标签_艾利丹尼森公司_202380026275.X

一种剥标签模组_黄石博威翔自动化设备有限公司_202420083589.5

一种标签打孔设备_冠利得商标制品(苏州)有限公司_202420471730.9

一种标签纸导向辊_河北卓美标签科技有限公司_202420716909.6

一种不干胶标签粘贴压紧装置_温州恒成印业有限公司_202420228541.9

一种变码可追溯防伪标签_中山市三乡联凯印刷有限公司_202420502772.4

一种防伪标签打孔机_无锡瑞彩包装材料有限公司_202323650999.8

一种标签保护膜贴附设备_广东紫泉标签有限公司_202010686853.0

嵌入相关技术

一种嵌入式法兰支管座_江苏宝昌特种合金科技有限公司_202420725286.9

一种嵌入式晾衣机的安装系统_浙江好易点科技股份有限公司_202420344419.8

图像像素水印嵌入方法、追溯方法、系统及电子设备_杭州海康威视数字技术股份有限公司_202411314327.6

一种便于拆装的嵌入式净水器_绍兴阿利卡电器有限公司_202420446697.4

一种嵌入金属网板的中空玻璃加工用清洗装置_河北卓峰建筑设计有限公司_202420442703.9

一种绝缘散热的嵌入式电脑电源_广州市广海电子实业有限公司_202323139472.9

一种墙体嵌入式控制面板_武汉珂玛影视灯光科技有限公司_202420462169.8

一种嵌入式系统日志处理方法、装置、系统及介质_北京浪潮数据技术有限公司_202011554244.6

一种便于安装的嵌入式的网络交换机_合肥安铁电子技术服务有限公司_202420511156.5

一种应用于AGV车辆的嵌入式PCB控制板_苏州寻迹智行机器人技术有限公司_202420671326.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于内容增强网络嵌入的主题标签表示学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务