买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国平安人寿保险股份有限公司
摘要:本发明公开了一种意图识别方法,应用于人工智能技术领域,用于提高未知意图的识别准确率。本发明提供的方法包括:根据预设的正负向分类方法对所述样本标签数据进行分类,得到至少一个输入文本对;将所述输入文本对输入到预设好的预训练模型中进行训练,得到初始语义表征模型;将输入到初始语义表征模型得到的样本向量进行聚类,得到聚类指数和聚类意图标签数据,并根据所述聚类指数和聚类意图标签数据得到语义表征模型;将待识别文本数据和样本标签数据输入到所述语义表征模型,得到预测语义向量和验证语义向量;计算所述预测语义向量与所述验证语义向量之间的相似度结果,并根据所述相似度结果识别所述待识别文本数据中的未知意图。
主权项:1.一种意图识别方法,其特征在于,包括:从预设的数据库中获取样本标签数据和样本无标签数据,根据预设的正负向分类方法对所述样本标签数据进行分类,得到至少一个输入文本对;将所述输入文本对输入到预设的预训练模型中进行训练,得到初始语义表征模型;将所述样本标签数据输入到所述初始语义表征模型,得到样本标签向量,将所述样本无标签数据输入到所述初始语义表征模型,得到样本无标签向量;将所述样本标签数据中的意图标签个数的倍数设置为聚类簇的个数;基于设置的聚类簇个数,对所述样本标签向量和所述样本无标签向量进行聚类,将意图标签相似的所述样本标签向量和或所述样本无标签向量形成聚类簇,聚类结果包括聚类簇的个数和每个聚类簇形成的聚类意图标签;计算每个所述聚类簇的聚类评价指标,根据所述聚类评价指标对聚类得到的所述聚类簇进行筛除,将保留下来的所述聚类簇的聚类意图标签作为聚类意图标签数据;其中,聚类评价指标a为目标样本数据与聚类簇簇内其他样本数据的平均距离,b为样目标样本数据与其他聚类簇内样本的平均距离,di表示第i个目标样本数据,N是指样本数据的个数;其中,所述聚类意图标签数据包括聚类文本和聚类意图标签数据;将所述聚类簇按照聚类簇里的样本数据的个数累加,按照累加的个数对所述聚类簇进行排序,当排序中的样本数据的个数超过全体样本数据的个数的t%时,将之后的所述聚类簇视为无效簇,更新所述聚类簇的个数,并将所述聚类簇的个数作为聚类指数;基于所述聚类指数,通过所述聚类意图标签数据训练所述初始语义表征模型,当聚类评价指标连续K轮迭代没有提升或者迭代次数超过最大迭代次数m,则终止迭代,得到训练好的语义表征模型;从用户端获取用户输入的待识别文本数据,将所述待识别文本数据输入到所述训练好的语义表征模型,得到预测语义向量,将所述样本标签数据输入到所述训练好的语义表征模型,得到验证语义向量;根据所述聚类指数,对所述预测语义向量进行聚类,得到预测聚类结果,对所述验证语义向量进行聚类,得到验证聚类结果,其中,预测聚类结果包括预测聚类簇,所述验证聚类结果包括验证聚类簇;基于匈牙利算法,计算所述预测聚类结果与所述验证聚类结果之间的距离矩阵,并基于最大匹配算法,识别出所述预测聚类结果中的未知意图。
全文数据:
权利要求:
百度查询: 中国平安人寿保险股份有限公司 意图识别方法、装置、计算机设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。