一种含错中文文本纠错识别分类设备

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江大学

摘要：本发明公开了一种含错中文文本纠错识别分类设备，该设备由中文文本数据库、中文特征提取模块、文本纠错模块、文本事件要素提取及分类模块组成。中文文本数据库搜集大量中文文本，然后中文特征提取模块负责对中文字词进行编码并转化为高维嵌入向量，接着文本纠错模块对含错文本进行纠错，最后文本事件要素提取及分类模块对文本中的各事件要素进行提取并对文本进行分类。本发明能够根据中文的形态、发音和语义来自动提取中文文本中丰富的特征以自动完成中文文本的纠错以及分类任务，克服了现有成果对于中文文本自动纠错能力较差以及对于中文文本分类模型研究的不足，为自然语言处理中的文本分类技术在中文文本上的应用带来显著增效。

主权项：1.一种含错中文文本纠错识别分类设备，所述设备包括中文文本数据库、中文特征提取模块、文本纠错模块、文本事件要素提取及分类模块，其特征在于，中文文本数据库搜集大量中文文本并存储在计算机的数据库中，中文特征提取模块对中文文本数据库模块中的文字进行编码，将每个字、词都转化为一个高维嵌入向量；当含错中文文本送进设备后，文本纠错模块根据中文特征提取模块中得到的各个字词的高维嵌入向量自动对含错文本进行字词纠错，最后文本事件要素提取及分类模块对文本中的各事件要素进行提取，将提取后的结果转化为事件特征，最后通过该事件特征对于输入到系统的含错中文文本进行分类；其中，所述中文特征提取模块通过字形特征提取、发音特征提取、语义特征提取以及嵌入向量拼接四个步骤实现中文字词的特征提取，具体过程如下：1对于通过文字识别技术获取的文本，通过中文字形特征字典，对于中文字词集合W中的各个字词构建形态嵌入向量集合X:X＝{x1,x2,...,xn}其中，为中文字词集合中各字词wi,i＝1,2,...,n对应的维度为dx的形态嵌入向量；中文特征提取模块在训练过程中根据余弦相似度来自动构建每个字词的形态嵌入向量；以中文字形特征字典为评判标准，由字典判断出的两个中文字或词之间的形态越相近，其嵌入向量之间的余弦相似度就越大；对于两个形态嵌入向量它们之间的余弦相似度计算公式如下： 2对于通过语音识别软件得到的文本，通过中文发音特征字典，对于中文字词集合W中的各个字词构建发音嵌入向量集合Y:Y＝{y1,y2,...,yn}其中，为中文字词集合中各字词wi,i＝1,2,...,n对应的维度为dy的发音嵌入向量；3一个文本中的字或词能够从其相关上下文中获得语义信息，同时也能为其上下文提供语义信息；中文特征提取模块在获取语义嵌入向量时，首先会给定一个窗口大小，然后对于一个字词wi,i＝1,2,...,n，设将其作为前景字词时的向量表示为设其将作为背景字词时向量表示为dz为语义嵌入向量的维度，背景字词指包含在前景字词窗口内的字词；设前景字词为wi，背景字词为wj,j＝1,2,...,n，则给定前景字词生成背景字词的条件概率通过对向量内积做Softmax运算得到，即：其中Pg代表计算概率，expg指以自然常数e为底的指数函数,T代表向量的转置；对于一个字词wi，可能在文本数据库中出现很多次，所以将每一次以其作为前景词的所有背景词进行统计，对于重复的背景词也按照重复次数进行保留，记为重数集合C；将字词wi的重数集合Ci中元素j的重数记为cij，cij表示数据库中所有以wi为前景字词的窗口中背景字词wj的个数；然后中文特征提取模块通过最大似然估计来获得每个字词对应的前景向量表示和背景向量表示，具体来说，模块在训练过程中通过最小化以下损失函数J来获得每个字词wi的最佳前景和背景向量表示：在训练结束后，模块取字词wi的前景向量表示作为该字词最终的语义嵌入向量zi；4在中文特征提取模块中，最后一步操作是步骤1-3所得到的各个字词的形态嵌入向量xi、发音嵌入向量yi和语义嵌入向量zi进行拼接：ei＝[xiyizi]从而得到了一个能够唯一表示字词wi,i＝1,2,...,n的高维嵌入向量[·]代表向量拼接操作。

全文数据：

权利要求：

百度查询：浙江大学一种含错中文文本纠错识别分类设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种鱼类产卵行为与生态水文指标响应关系量化方法

下一篇：一种分层架构下的无人机网络动态任务卸载方法

相关技术

一种鱼类产卵行为与生态水文指标响应关系量化方法

一种分层架构下的无人机网络动态任务卸载方法

图像检测方法、装置、设备、存储介质及程序产品

独立站数据定向同步方法及其装置、设备、介质

一种预防静脉血栓床上用踝关节辅助锻炼机构

一种双层基质与立体模式的茶树种质资源保存和快速繁育方法

一种发动机选配零件装配过程人机交互防错装置及方法

慢性低度炎症刺激形成衰老成纤维细胞模型的构建方法

一种高速砂尘温控系统

一种基于重载群组列车群组通信的列车运行预测方法、系统及电子设备

一种组合式固定件依附锁定器

一种汽车动力总成振动强度的分析方法、系统及介质

纠错相关技术

无感式坐姿纠错主动提醒学习椅_合肥市第四十五中学_202323521346.X

量子电路图纠错方法、装置、设备、存储介质及程序产品_北京百度网讯科技有限公司_202211529539.7

一种实时的中文拼写纠错样本生成方法_重庆邮电大学_202410715842.9

一种基于多维动态候选集的文本纠错方法_杭州电子科技大学_202411147467.9

一种基于预训练语言模型构建的双模块中文拼写纠错方法_重庆邮电大学_202410715839.7

一种高效自适应面向语音识别引擎的热词纠错方法与系统_电子科技大学_202410910592.4

一种应用于片上存储器的纠错编码系统及方法_南京微盟电子有限公司_202410895457.7

文本纠错模型训练、文本纠错方法、装置、设备和介质_北京海泰方圆科技股份有限公司_202311864820.0

一种铁电存储器纠错方法、系统、设备及产品_晶铁半导体技术(广东)有限公司_202410804366.8

基于多模态的音频检测纠错方法和系统_天津市国瑞数码安全系统股份有限公司_202410752872.7

文本相关技术

文本分类方法及装置_北京沃东天骏信息技术有限公司_201911148366.2

基于情绪的文本到语音_斯纳普公司_202380021010.0

一种文本分类方法及相关装置_腾讯科技(深圳)有限公司_202310312849.1

文本处理方法、装置及计算设备_阿里巴巴集团控股有限公司_201910561669.0

一种智能图纸文本检测识别方法_广州得知智能科技有限责任公司_202410684355.0

一种长文本的无监督分类方法_深圳市查策网络信息技术有限公司_202110691284.3

使用K最近邻扩散的文本到图像生成_元平台技术有限公司_202410306175.9

一种煤矿安全文本挖掘方法_辽宁工程技术大学_202310267991.9

一种文本摘要的质量评价方法_北京工业大学_202010178615.9

文本匹配方法、装置、设备及存储介质_深圳前海微众银行股份有限公司_202110667338.2

识别相关技术

生物识别方法、设备_安克创新科技股份有限公司_202310268307.9

提升AI识别学习能力_华为技术有限公司_201980068228.5

一种物体识别方法、物体识别装置及电子设备_深圳市锐明技术股份有限公司_202080002303.0

手语识别模型训练方法、识别方法、装置、设备及介质_乐山师范学院_202410905261.1

高识别准确率的黑色烟雾识别及展示方法_杭州普鹤科技有限公司_202410978719.6

意图识别模型的训练方法、意图识别方法、装置和介质_京东科技信息技术有限公司_202410760843.5

图像识别模型的训练方法、图像识别方法及设备_北京达佳互联信息技术有限公司_202110791423.X

意图识别方法、意图识别模型训练方法、装置及设备_京东科技控股股份有限公司_202110465878.2

一种遮挡物识别系统及识别方法_陕西兴际通通信有限公司_202310246086.5

车外环境识别装置及车外环境识别方法_株式会社斯巴鲁_201910439393.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种含错中文文本纠错识别分类设备

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务