首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种短句语种识别的方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中译语通科技(昆明)有限公司

摘要:本发明属于机器翻译技术领域,公开了一种短句语种识别的方法及系统,包括:搜集要识别的各个语种的数据并标记数据的语言种类,去除数据中的标点、符号和数字;对没有空格标志的语种按照Unicode码进行分割,将区分大小写语种全部转小写;统计词频,统计每个词在搜集的数据中的语种分布;对词频文件剪枝;对输入短句ABCD输出由步骤四形成word_dict的概率分布;计算ABCD综合概率;计算句子属于语种的得分,选出最大得分为这个句子的语种。本发明利用大量数据生成词频文件和句子本身长度比提出一种新的短句语种识别的方法;应用本发明后可以大大提高对短句的识别精度,从而对依赖语种识别的下游任务提供更精确的识别结果。

主权项:1.一种短句语种识别的方法,其特征在于,所述短句语种识别的方法包括:步骤一,搜集要识别的各个语种的数据并标记数据的语言种类,去除数据中的标点、符号和数字处理成只有语种字符的形式;步骤二,对没有空格标志的语种按照Unicode码进行分割,有空格的按照空格分割,将区分大小写语种全部转小写;步骤三,统计词频,统计每个词在搜集的数据中的语种分布;步骤四,对步骤三中的词频文件剪枝然后进行归一化;步骤五,对输入短句ABCD输出由步骤四形成word_dict的概率分布;步骤六,根据步骤五输出概率计算ABCD属于语种综合概率;步骤七,计算句子属于各个语种的得分,选出最大得分为这个句子的语种。

全文数据:

权利要求:

百度查询: 中译语通科技(昆明)有限公司 一种短句语种识别的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。