买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:联通沃悦读科技文化有限公司
摘要:本发明涉及人工智能技术领域,涉及一种情感文本数据标注方法、装置、系统及电子设备;所述方法包括获取待标注的情感文本数据,并对其处理;采用基于超球体的k‑means聚类算法对其进行聚类;获取各个球簇的稳定域和环域,根据需要的标记量从外到内的环域中筛选出具有代表性的数据;对各个球簇的稳定域中选择出部分数据进行标注处理,使用经过标注处理后的数据训练分类器;将具有代表性的数据输入到训练后的分类器中,得到分类概率,对分类概率进行不确定性处理,输出具有不确定性的数据;对具有不确定性的数据进行标注处理,并输出已标注情感文本数据。本发明利用大数据处理技术和基于超球的主动学习,解决了文本标注领域中盲目标注的问题。
主权项:1.一种情感文本数据标注方法,其特征在于,所述方法包括:获取待标注的情感文本数据,并对其进行清洗处理和去重处理;采用基于超球体的k-means聚类算法对处理后的待标注的情感文本数据进行聚类,获得待标注的情感文本数据所对应的球簇信息及其近邻关系;根据各个球簇信息及其近邻关系,获取各个球簇的稳定域和环域,并根据需要的标记量依次从外到内的环域中筛选出具有代表性的待标注的情感文本数据;对各个球簇的稳定域中选择出部分待标注情感文本数据进行标注处理,并使用经过标注处理后的情感文本数据初始训练分类器;将具有代表性的待标注的情感文本数据输入到训练完成的分类器中,得到对应分类概率,对预测得到的分类概率进行不确定性处理,输出具有不确定性的待标注的情感文本数据;所述对预测得到的分类概率进行不确定性处理具体包括计算出待标注的情感文本数据所对应的预测概率的不确定性,当所述不确定性超过预设的自适应阈值时,则对应的待标注的情感文本数据具有不确定性;计算出待标注的情感文本数据所对应的预测概率的不确定性所采用的公式表示为: 其中,Gp表示待标注的情感文本数据p的基尼指数,是信息熵的一阶泰勒展开;K表示待标注的情感文本数据的分类数,pk表示属于类别k的概率;选择具有不确定性的待标注的情感文本数据所采用的计算公式表示为: 其中,Selectedinstances表示待标注的情感文本数据,Gx表示待标注的情感文本数据x的基尼指数;表示球簇C的第i层环域包含的待标注的情感文本数据;topN表示基于自适应阈值的取样函数,它能根据环域半径计算出自适应阈值,选取不确定性超过该自适应阈值的N个样本;对所述具有不确定性的待标注的情感文本数据进行标注处理,并输出已标注情感文本数据。
全文数据:
权利要求:
百度查询: 联通沃悦读科技文化有限公司 一种情感文本数据标注方法、装置、系统及电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。