买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国航空综合技术研究所
摘要:本发明涉及一种航空文本数据标注方法及其标注系统,包括以下步骤,步骤1基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;步骤2基于主动学习模型的样本筛选,从未标注数据中筛选出目标样本;步骤3建立基于信息抽取的航空文本标注模型,实现任意航空文本数据标注。本发明通过基于实体核心EODA的数据增强算法对样本数目进行扩充,通过实体识别;在主动学习模型中,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略。在主动学习的框架下,经实验验证标注效率提高。通过算法与模型有效融合提升标注系统的智能化水平。
主权项:1.一种航空文本数据标注方法,其特征在于,其包括以下步骤:步骤1:基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,得到扩充之后的样本,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;具体为:使用实体识别模型对原始航空文本数据的样本中的非实体词和实体词进行区分,然后对非实体词和实体词分别进行增强;其中,实体识别模型为使用概率图模型作为命名实体识别模型,在基于实体数据集中的航空文本内容X的前提下,实体类别Y的条件概率分布表示为PY|X;在无向图G=V,E中,一个随机变量Yv遵从马尔科夫性,则将条件概率分布PY|X称之为条件随机场,如下所示:PYv|X,Yw,w≠v=PYv|X,Yw,w~v;式中:P表示条件概率分布;X表示实体数据集中的航空文本内容;Yv和Yw分别表示顶点v和w对应的随机变量;w~v表示在无向图G中v和w顶点之间有边相连;w≠v表示w为v以外的所有顶点;设定实体数据集中的航空文本内容X和实体类别Y二者具有相同图结构,通过线性链条件随机场实现实体识别任务,长度为n的观测序列X1,X2,...,Xn,其状态序列的条件概率如下所示: 式中:Py|x表示状态序列的条件概率;Zx表示规范化因子;λk表示转移特征函数tk的权重系数;tkyi-1,yi,x,i表示边E上的转移特征函数;μl表示状态特征函数sl的权重系数;slyi,x,i表示顶点V上的状态特征函数;yi-1和yi分别表示输入Xi-1和Xi对应的所有的标记序列;y表示输入X对应的所有的标记序列;所述转移特征函数tk和状态特征函数sl是与位置相关的局部特征函数;实体识别模型的优化目标为最大化似然概率,使用对数似然概率,如下所示: 式中:py|X表示最大化似然概率;scoreX,y表示输入X对应的分值;Yx表示输入X对应的随机变量;y*表示输入X对应的特别标记序列;scorex,y表示输入x对应的分值;步骤2:基于主动学习模型的样本筛选,从未标注数据中筛选出目标样本;基于主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,基于字词级别的最低置信度的样本查询策略表达式如下所示: 式中:y1,y2,ym-1和ym分别表示第1个、第2个、第m-1个和第m个标记序列;m表示标记序列的编号;scoret表示t时刻对应的分值;Pt表示t时刻对应的分值向量;p1,p2和pm分别表示第1个、第2个和第m个分值向量参数;根据基于字词级别的最低置信度的样本查询策略从未标注数据中筛选出目标样本;步骤3:建立基于信息抽取的航空文本标注模型,实现任意航空文本数据标注;使用步骤1得到未标注数据,再使用步骤S2得到筛选样本,对筛选样本区分难度进行判断,将判断结果反馈给实体识别模型和主动学习模型,实现对实体识别模型和主动学习模型中基于字词级别的最低置信度的样本查询策略表达式参数的迭代更新,并返回步骤1继续循环执上述操作,直到迭代达到指定次数或目标值,建立基于信息抽取的航空文本标注模型,所述基于信息抽取的航空文本标注模型包括一定量的标注数据集、参数优化之后的实体识别模型和主动学习模型;将新的航空文本数据输入到基于信息抽取的航空文本标注模型,从而对任意航空文本数据进行标注。
全文数据:
权利要求:
百度查询: 中国航空综合技术研究所 航空文本数据标注方法及其标注系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。