首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种含错中文文本纠错识别分类设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江大学

摘要:本发明公开了一种含错中文文本纠错识别分类设备,该设备由中文文本数据库、中文特征提取模块、文本纠错模块、文本事件要素提取及分类模块组成。中文文本数据库搜集大量中文文本,然后中文特征提取模块负责对中文字词进行编码并转化为高维嵌入向量,接着文本纠错模块对含错文本进行纠错,最后文本事件要素提取及分类模块对文本中的各事件要素进行提取并对文本进行分类。本发明能够根据中文的形态、发音和语义来自动提取中文文本中丰富的特征以自动完成中文文本的纠错以及分类任务,克服了现有成果对于中文文本自动纠错能力较差以及对于中文文本分类模型研究的不足,为自然语言处理中的文本分类技术在中文文本上的应用带来显著增效。

主权项:1.一种含错中文文本纠错识别分类设备,所述设备包括中文文本数据库、中文特征提取模块、文本纠错模块、文本事件要素提取及分类模块,其特征在于,中文文本数据库搜集大量中文文本并存储在计算机的数据库中,中文特征提取模块对中文文本数据库模块中的文字进行编码,将每个字、词都转化为一个高维嵌入向量;当含错中文文本送进设备后,文本纠错模块根据中文特征提取模块中得到的各个字词的高维嵌入向量自动对含错文本进行字词纠错,最后文本事件要素提取及分类模块对文本中的各事件要素进行提取,将提取后的结果转化为事件特征,最后通过该事件特征对于输入到系统的含错中文文本进行分类;其中,所述中文特征提取模块通过字形特征提取、发音特征提取、语义特征提取以及嵌入向量拼接四个步骤实现中文字词的特征提取,具体过程如下:1对于通过文字识别技术获取的文本,通过中文字形特征字典,对于中文字词集合W中的各个字词构建形态嵌入向量集合X:X={x1,x2,...,xn}其中,为中文字词集合中各字词wi,i=1,2,...,n对应的维度为dx的形态嵌入向量;中文特征提取模块在训练过程中根据余弦相似度来自动构建每个字词的形态嵌入向量;以中文字形特征字典为评判标准,由字典判断出的两个中文字或词之间的形态越相近,其嵌入向量之间的余弦相似度就越大;对于两个形态嵌入向量它们之间的余弦相似度计算公式如下: 2对于通过语音识别软件得到的文本,通过中文发音特征字典,对于中文字词集合W中的各个字词构建发音嵌入向量集合Y:Y={y1,y2,...,yn}其中,为中文字词集合中各字词wi,i=1,2,...,n对应的维度为dy的发音嵌入向量;3一个文本中的字或词能够从其相关上下文中获得语义信息,同时也能为其上下文提供语义信息;中文特征提取模块在获取语义嵌入向量时,首先会给定一个窗口大小,然后对于一个字词wi,i=1,2,...,n,设将其作为前景字词时的向量表示为设其将作为背景字词时向量表示为dz为语义嵌入向量的维度,背景字词指包含在前景字词窗口内的字词;设前景字词为wi,背景字词为wj,j=1,2,...,n,则给定前景字词生成背景字词的条件概率通过对向量内积做Softmax运算得到,即: 其中Pg代表计算概率,expg指以自然常数e为底的指数函数,T代表向量的转置;对于一个字词wi,可能在文本数据库中出现很多次,所以将每一次以其作为前景词的所有背景词进行统计,对于重复的背景词也按照重复次数进行保留,记为重数集合C;将字词wi的重数集合Ci中元素j的重数记为cij,cij表示数据库中所有以wi为前景字词的窗口中背景字词wj的个数;然后中文特征提取模块通过最大似然估计来获得每个字词对应的前景向量表示和背景向量表示,具体来说,模块在训练过程中通过最小化以下损失函数J来获得每个字词wi的最佳前景和背景向量表示: 在训练结束后,模块取字词wi的前景向量表示作为该字词最终的语义嵌入向量zi;4在中文特征提取模块中,最后一步操作是步骤1-3所得到的各个字词的形态嵌入向量xi、发音嵌入向量yi和语义嵌入向量zi进行拼接:ei=[xiyizi]从而得到了一个能够唯一表示字词wi,i=1,2,...,n的高维嵌入向量[·]代表向量拼接操作。

全文数据:

权利要求:

百度查询: 浙江大学 一种含错中文文本纠错识别分类设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。