买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京航空航天大学
摘要:本发明公开了一种基于内容增强网络嵌入的主题标签表示学习方法,属于自然语言处理领域;首先,根据实际需求获取英文的社交媒体数据和词嵌入模型,从中提取主题标签,用户产生内容和单词;然后搭建异构网络图,获取单词的向量空间以及用户产生内容的表示向量。针对每个存在单词节点与之相连的主题标签,通过节点采样策略获取训练样本,伙同单词的向量空间和用户产生内容的表示向量同时输入多任务学习模型,输出各主题标签与训练样本中各元素间的概率分布,以最小化概率分布与经验分布的均方误差之和为目标,调整模型参数,最终输出主题标签嵌入矩阵即为主题标签的表示学习结果。本发明取得的主题标签表示向量的无监督聚类结果更符合主题分类。
主权项:1.一种基于内容增强网络嵌入的主题标签表示学习方法,其特征在于,具体包括:步骤一,根据实际需求获取英文的社交媒体数据和词嵌入模型,从中提取主题标签和包含主题标签的用户产生内容,并根据提取的主题标签中的文本从词嵌入模型的词表中提取单词;步骤二,将各主题标签,用户产生内容和单词分别作为一个节点,搭建异构网络图;并从词嵌入模型中获取异构网络图中单词的向量组成单词的向量空间,并利用表示模型获取用户产生内容的表示向量;所述的搭建异构网络图具体过程为:步骤301、初始为每一个主题标签指定若干用户产生内容,并将两者相连;步骤302、逐个遍历各主题标签,首先判断主题标签的文本是否包含小写字母,如果是,将字母转换为小写形式后的文本,否则考察原始的文本;然后判断主题标签的文本内容长度是否大于2且存在于单词表,如果是,则将其添加至网络热词列表中;否则,不予处理;步骤303、利用分割函数将遍历的各主题标签分别分割为单词序列;具体为:首先,假设主题标签文本为通过字母大写标记单词首字母的句子,通过正则表达式将文本拆分成若干字符串,在各字符串之间插入空格字符将文本重新拼接;然后,移除位于主题标签文本首尾的数字和下划线,并用空格字符替换主题标签文本中间的数字和下划线;最后,根据空格字符将主题标签文本分割成若干单词,将内容长度大于2的单词添加至单词序列;步骤304、判断单词序列的长度是否大于1,如果是,进入步骤305;否则,进入步骤306;步骤305、遍历单词序列中的单词,通过单词预处理流程对单词进行转化,然后判断转化后的单词是否存在于词嵌入模型的单词表,如果是,将转化后的单词添加至异构网络图,并与主题标签相连,否则不予处理;所述单词预处理流程具体为:判断单词是否包含小写字母,如果是,则将单词的所有字母转化为小写,否则不予处理;步骤306、通过单词预处理流程对主题标签文本进行转化,然后遍历网络热词列表,若网络热词列表中存在单词A为转化后主题标签文本的子字符串,则将单词A添加至异构网络图并与主题标签相连;否则该单词A为未知单词,不予处理;步骤307、通过相关度计算两个主题标签构成的标签对的相关度,并将相关度大于0的主题标签对相连;所述主题标签i和j的相关度计算公式为: 其中,ttotal为社交媒体数据中包含主题标签的用户产生内容总数,tij为同时包含主题标签i和j的用户产生内容数量,ti为包含主题标签i的用户产生内容数量,tj为包含主题标签j的用户产生内容数量;步骤三,针对异构网络图中每个存在单词节点与之相连的主题标签,通过节点采样策略获取各主题标签对应的训练样本;将每个主题标签的训练样本,以及单词的向量空间和用户产生内容的表示向量同时输入多任务学习模型进行训练;利用多任务学习模型输出的各主题标签与训练样本中各元素间的概率分布,以最小化概率分布与经验分布的均方误差之和为目标,调整多任务学习模型中主题标签嵌入矩阵的参数和用户产生内容向量转换模块的参数;所述的获取各主题标签对应的训练样本,具体为:首先,指定异构网络图中存在单词节点与之相连的一个主题标签ht为当前采样节点;然后,从主题标签ht的相连与不相连的主题标签,单词,以及用户产生内容中分别选择对象进行组合,得到训练样本;具体为:1、从主题标签ht的相邻主题标签中选择主题标签hpc,并从主题标签ht的非相邻主题标签中随机选择主题标签hnc;相邻主题标签hk被选择的概率为:其中wtk为主题标签ht与主题标签hk之间的边的权重,neighht为主题标签ht的相邻主题标签的集合;规定ht与hpc的经验分布为1,ht与hnc的经验分布为0;2、从与主题标签ht相连的单词中随机选择单词wp,从不与主题标签ht相连的单词中随机选择单词wn;规定ht与wp的经验分布为1,ht与wn的经验分布为0;3、从与主题标签ht相连的用户产生内容中随机选择用户产生内容up,从不与主题标签ht相连的用户产生内容中随机选择用户产生内容un;规定ht与up的经验分布为1,ht与un的经验分布为0;4、对将元素ht和6个元素hpc,hnc,wp,wn,up和un进行组合,得到8个训练样本;每一个训练样本均包括主题标签ht,从hpc和hnc中任选一个主题标签hc,从wp和wc中任选单词w,从up和uc中任选用户产生内容u;最后,从异构网络图中选择下一个存在单词节点与之相连的主题标签ht1为当前节点,再次重复选择对象的过程,通过枚举正负样本的组合得到下一个主题标签ht1的8个训练样本,直至将异构网络图中每个存在单词节点与之相连的主题标签的训练样本获取完毕;均方误差之和的计算公式为:L=Lhh+Lhw+Lhu其中,Lhh为训练样本中主题标签与主题标签的均方误差;Lhw为训练样本中主题标签与单词的均方误差;Lhu为训练样本中主题标签与用户产生内容的均方误差;均方误差计算公式分别为: 其中,S为训练样本,为主题标签ht与主题标签hc的经验分布;pht,hc为主题标签ht与主题标签hc的概率分布;为主题标签ht与单词w的经验分布;pht,w为主题标签ht与单词w的概率分布;为主题标签ht与用户产生内容u的经验分布;pht,u为主题标签ht与用户产生内容u的概率分布;步骤四,重复循环设定的次数后结束训练,最终调整完参数的多任务学习模型输出的主题标签嵌入矩阵,即为主题标签的表示学习结果,完成了主题标签的表示学习;所述的多任务学习模型由主题标签嵌入矩阵、用户产生内容向量转换模块、概率分布计算模块组成;主题标签嵌入矩阵用于存储待学习的主题标签的表示向量;嵌入矩阵的第i行存储索引为i的主题标签的表示向量;未进行学习时嵌入矩阵是随机初始化的,学习过程中对嵌入矩阵的参数进行调整;用户产生内容向量转换模块用于实现用户产生内容到单词的向量空间的映射;多任务学习模型具体过程为:首先输入:主题标签ht和hc的索引、单词w的向量rw,用户产生内容的表示向量ru;通过主题标签嵌入矩阵和主题标签ht和hc的索引,取得主题标签ht和hc的向量rt和rc,通过用户产生内容向量转换模块,将用户产生内容向量ru转换为ru′;转换公式为:ru′=fru其中,f为模块中实现向量转换的转换函数;然后,通过概率分布计算模块计算ht与hc的概率分布pht,hc,ht与w的概率分布pht,w和ht与u的概率分布pht,u作为输出;计算公式为:
全文数据:
权利要求:
百度查询: 北京航空航天大学 基于内容增强网络嵌入的主题标签表示学习方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。