买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广东坚美铝型材厂(集团)有限公司;嘉应学院
摘要:本发明公开了一种基于HDP等价描述的文本主题提取方法,包括:建立基础最小损失优化问题与基础概率图模型的等价关系;根据所述基础概率图模型,构建针对HDP概率图模型的目标最小损失优化问题,所述目标最小损失优化问题为:求解所述目标最小损失优化问题,并根据所述目标最小损失优化问题的解计算所述HDP概率图模型的模型参数;提取目标文本的词频向量表示;根据模型参数计算数据项对契合度的梯度向量;将梯度向量中大于预设阈值部分的多个分量下标作为目标文本的文本主题。本发明还公开了一种计算机设备及一种计算机可读存储介质。采用本发明,可使用最小损失优化描述,为概率图模型建立等价而高效的正则优化视图。
主权项:1.一种基于HDP等价描述的文本主题提取方法,其特征在于,包括:构建概率图模型-最小损失优化问题转换器,以建立基础最小损失优化问题与基础概率图模型的等价关系;根据所述基础概率图模型,构建针对HDP概率图模型的目标最小损失优化问题,所述目标最小损失优化问题为: 其中,V为词典,|V|为V包含的词汇量,K为主题数,Ψ为|V|×K的矩阵,d为目标文本,deviationd为d与第k个主题词典顺序要求的背离度;求解所述目标最小损失优化问题,并根据所述目标最小损失优化问题的解计算所述HDP概率图模型的模型参数;提取目标文本的词频向量表示;根据所述模型参数计算数据项对契合度的梯度向量;将梯度向量中大于预设阈值部分的多个分量下标作为目标文本的文本主题;其中,所述根据所述基础概率图模型,构建针对HDP概率图模型的目标最小损失优化问题的步骤包括:根据Fenchel-Young不等式,使其中,λk为基础概率图模型中第k个同类型隐变元节点,θ*为最小损失优化的解,lk为第k个隐变元节点的损失度量;使用与主题词典多项式分布参数Φ同规格且无限定的矩阵Ψ存放各主题多项式分布参数对数信息logΦ,其中, 使用矩阵乘法表示目标文本与各主题多项式分布参数契合度fitnessd,其中,fd为目标文本的词频向量, 根据各个主题多项式分布参数与目标文档的契合程度有顺序要求,构建平均负数Δd,k,其中, 使用可导函数定义背离度deviationd,其中,deviationd∈RK=log1+expΔd;将可导结构作用于背离度作为具有损失意义的数据项,并构建正则项,以生成目标最小损失优化问题:
全文数据:
权利要求:
百度查询: 广东坚美铝型材厂(集团)有限公司 嘉应学院 基于HDP等价描述的文本主题提取方法、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。