首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于识别民生问题类别的方法、装置及电子设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:彭涛

摘要:本公开提供了用于识别民生问题类别的方法、装置、电子设备及存储介质。该方法的一具体实施方式包括:获取待识别民生热线文本;基于预设民生问题类别集中的民生问题类别对应的正则表达式,对待识别民生热线文本进行匹配,得到对应的匹配结果;根据匹配结果,确定待识别民生热线文本对应的民生问题类别集。该实施方式能够实现对民生热线文本的自动分类,无需人工干预,减少了人力成本和时间成本。

主权项:1.一种用于识别民生问题类别的方法,包括:获取待识别民生热线文本,待识别民生热线文本是通过对待识别民生热线录音进行语音识别处理而得到的;基于预设民生问题类别集中的民生问题类别对应的正则表达式,对所述待识别民生热线文本进行匹配,得到对应的匹配结果;根据每个正则表达式的匹配结果,确定所述待识别民生热线文本是否属于该正则表达式对应的民生问题类别,用所述待识别民生热线文本所属的民生问题类别确定所述待识别民生热线文本对应的民生问题类别集;其中,对于所述民生问题类别集中的每个民生问题类别,该民生问题类别对应的正则表达式是通过如下训练步骤预先训练得到的:获取训练样本集和验证样本集,其中,所述训练样本集和所述验证样本集中的样本包括历史民生热线文本和相应的类别标签,每个民生热线文本对应的类别标签的个数为两个以上,民生热线文本对应的类别标签通过人工标注的方式获得;根据该民生问题类别对应的正样本集生成该民生问题类别对应的候选正则表达式集,其中,所述正样本集是所述训练样本集中类别标签包括该民生问题类别的训练样本的集合;基于所述验证样本集,从该民生问题类别对应的候选正则表达式集中确定验证准确率最高的候选正则表达式,作为该民生问题类别对应的正则表达式;其中,所述根据该民生问题类别对应的正样本集生成该民生问题类别对应的候选正则表达式集,包括:对于该民生问题类别对应的正样本集中的每个正样本,对该正样本执行如下正则表达式生成操作:对该正样本中的民生热线文本进行分词和词性标注处理,得到该正样本对应的候选分词序列和候选分词词性序列;从该正样本对应的候选分词序列中提取关键分词;根据所提取的关键分词和对应的词性,生成该正样本对应的候选正则表达式;在生成候选正则表达式时,采用相应的词性代替多个关键分词中的至少一个;所述方法还包括:在获取所述训练样本集之后,对所述训练样本集执行如下均衡化处理操作:从所述训练样本集中确定该民生问题类别对应的正样本集和负样本集,其中,所述负样本集是训练样本集中类别标签不包括该民生问题类别的样本的集合;计算该民生问题类别对应的正样本和负样本的数量比;当所述数量比不属于预设范围时,对所述训练样本集中的样本进行调整,以使所述数量比属于所述预设范围,所述预设范围是0.9-1.1;所述基于所述验证样本集,从该民生问题类别对应的候选正则表达式集中确定验证准确率最高的候选正则表达式,作为该民生问题类别对应的正则表达式包括:对于候选正则表达式集中的每个候选正则表达式,用该正则表达式对验证样本集中的验证样本对应的民生热线文本进行匹配,得到对应的匹配结果;将上述匹配结果与该验证样本对应的类别标签进行比较,若一致则确定该候选正则表达式在该验证样本上的验证结果为正确,若不一致则确定该候选正则表达式在该验证样本上的验证结果为错误;通过上述方式,确定该候选正则表达式在验证样本集中每个验证样本上的验证结果,并进一步计算验证结果为正确的验证样本数量与验证样本总数量的比值,作为该候选正则表达式在该验证样本集上的验证准确率,将验证准确率最高的候选正则表达式确定为该民生问题类别对应的正则表达式。

全文数据:

权利要求:

百度查询: 彭涛 用于识别民生问题类别的方法、装置及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。