首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种技能短语抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海硕恩网络科技股份有限公司

摘要:本发明涉及计算机自然语言处理中短语抽取技术领域,具体的讲是一种技能短语抽取方法,首先获取文本内容,对获取的文本进行预处理,即删除文本主题前方带有的数字或者特殊索引符号,然后利用分隔符将文本分割成句子片段,之后构造抽取规则,运行抽取规则抽取技能短语片段,再对抽取的片段进行清洗,删除词语序列中的修饰词等没有实际意义的词语,然后进行分词处理,最后针对分词后的词语序列进行短语构建,形成技能短语。本发明可以应用在非结构化数据中,例如企业招聘等领域,在实施中不需要构建训练集和分类器,降低了数据预备与算法训练成本,能够自动确定技能短语的长度,避免主观性,避免了统计法中阈值选择的难题。

主权项:1.一种技能短语抽取方法,其特征在于:包括如下步骤:S1预处理文本;S2抽取技能短语片段;S3清洗包含技能短语的结构;S4构建技能短语,包括如下步骤:S41建立技能短语预判规则,包括:单词规则和双词规则;单词规则是指词语序列中的词语数量只有1个,且为英文词语,则可直接作为技能短语;双词规则是指词语序列中的词语数量有2个时,则设定如下要求,当满足任一要求时,被视为技能短语:1词语中包含英文词语;2词语的词性均为名词;3多词项是形容词级别词和名称动名词的组合;S42进行序贯合词,序贯合词是针对词语序列中词语数量大于2个时,进行的合词处理,具体处理方法为:S421利用公式PX,Y=countX,YN,按词语顺序分别计算每两个相邻的词语的出现的概率,若PX=Word1,Y=Word2≥PX=Word2,Y=Word3,则证明Word1和Word2可以合成短语,反之则不可;S422再使用S421中的公式判断Word1、Word2、Word3能否组成短语,即在计算中令X=Word1Word2,Y=Word3,然后比较PWord1Word2,Word3与PWord3,Word4,若PWord1Word2,Word3≥PWord3,Word4,则说明Word1Word2,Word3可以合成短语,反之则不可以,此时需要对Word3进行词性检查;S423检查结果为合格时,则将Word3作为其后面词语序列中的新的短语的初始词语,开始新一轮计算词语之间的关系,检查结果为不合格时,则跳过Word3检查下一个词语的词性;S424迭代S421~S423,直到迭代完成词语序列中的所有词语,并生成技能短语;在公式中,PX,Y表示词语X,Y在语料中出现的概率,X、Y分别表示词语序列中的词语,countX,Y表示词语X,Y在语料中出现的数量,N表示语料库中的句子片段总数;S5生成技能短语。

全文数据:

权利要求:

百度查询: 上海硕恩网络科技股份有限公司 一种技能短语抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。