首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于依存词组的快速文本分类方法、装置及计算机设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州城市大脑有限公司

摘要:本发明提供一种基于依存词组的快速文本分类方法,其包括构建索引数据库;解析待分析文本以获得索引词,在已构建的依存词组索引数据库内查找与索引词相匹配的目标依存词组,确定每一目标依存词组的所属类别和每一索引词的权重。基于待分析文本所命中的类别数量和每一索引词的权重,计算每一目标依存词组所对应类别的单一分类得分。解析索引词在待分析文本中的文档频率,在该索引词所对应类别的单一分类得分的基础上,融合文档频率加权权重以形成文档加权后得分。基于每一类别所关联的目标依存词组数量,确定是否引入多项式加权因子以获得每一类别的分类得分。对命中的多个类别的分类得分进行排序,选取得分最高的类别作为待分析文本的所属类别。

主权项:1.一种基于依存词组的快速文本分类方法,其特征在于,包括:构建索引数据库:获取与文本样本相关的多个依存词组,对每一依存词组进行归类映射配置并配置每一依存词组内每个词的权重;解析待分析文本以获得索引词,在已构建的索引数据库内查找与索引词相匹配的目标依存词组,确定每一目标依存词组的所属类别和每一索引词在其所属目标依存词组内的权重;基于待分析文本所命中的类别数量和每一索引词在其所属目标依存词组内的权重,采用如下公式计算每一目标依存词组所对应类别的单一分类得分: 其中,min和max分别代表分类概率的基数边界,count表示待分析文本所能命中分类数量的最大值,x表示当前待分析文本所命中的分类数量,n为目标依存词组内词的数量,fi表示第i个词的权重;解析索引词在待分析文本中的文档频率ω,在该索引词所对应类别的单一分类得分yx的基础上,融合文档频率加权权重fω以形成文档加权后得分y’x;汇总所命中的每一类别所关联的目标依存词组,对于仅关联有一个目标依存词组的类别,则将该目标依存词组所对应类别的文档加权后得分y’x作为该类别的分类得分;对于命中同一类别的多个目标依存词组,引入多项式加权因子以加权融合多个目标依存词组文档加权后得分y’x,以多项式加权得分y”x作为该类别的分类得分;对命中的多个类别的分类得分进行排序,选取得分最高的类别作为待分析文本的所属类别。

全文数据:

权利要求:

百度查询: 杭州城市大脑有限公司 基于依存词组的快速文本分类方法、装置及计算机设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。