首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于确定文本的关键词的方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:贝壳找房(北京)科技有限公司

摘要:本发明实施例提供一种用于确定文本的关键词的方法和装置,属于文本处理领域。该方法包括:通过对待处理文本进行分词,将所述待处理文本拆分成至少一个元素,以得到分词结果列表;基于所述分词结果列表的所述元素,确定候选对象,其中,任一所述候选对象包括在所述分词结果列表中位置连续的至少一个元素;针对所述候选对象,基于筛选特征进行筛选;以及基于筛选得到的候选对象,确定所述待处理文本的所述关键词。藉此,实现了基于待处理文本就可以确定关键词,无需依赖于预先构建语料文本库。

主权项:1.一种用于确定文本的关键词的方法,其特征在于,该方法包括:通过对待处理文本进行分词,将所述待处理文本拆分成至少一个元素,以得到分词结果列表;基于所述分词结果列表的所述元素,确定候选对象,其中,任一所述候选对象包括在所述分词结果列表中位置连续的至少一个元素;针对所述候选对象,基于筛选特征进行筛选,其中,所述筛选特征包括以下中的至少一者:是否属于预设停用元素集合、分数、所述候选对象之间的输出形式冗余、所述候选对象之间的语义冗余以及所述候选对象与所述待处理文本之间的语义相似度,任一所述候选对象的所述分数体现了所述候选对象成为所述待处理文本的所述关键词的可能性;以及基于筛选得到的候选对象,确定所述待处理文本的所述关键词;针对任一所述候选对象,确定所述分数包括:基于所述候选对象的分数确定特征确定所述候选对象对应的标题分数和或正文分数,其中,针对任一所述候选对象,所述分数确定特征包括以下中的至少一者:第一次数、第二次数、所述候选对象的位置权重、所述候选对象的长度和所述候选对象包括的元素的个数,其中,所述第一次数表示所述候选对象在所述待处理文本的标题中出现的次数,所述第二次数表示所述候选对象在所述待处理文本的正文中出现的次数;以及基于所述候选对象对应的标题分数和或正文分数,确定所述分数;所述输出形式冗余包括:包含冗余、以及重叠冗余;通过以下方式实现对任意两个所述候选对象的输出形式冗余筛选:当所述两个候选对象之间存在包含冗余,则剔除掉长度短的候选对象;当所述两个候选对象之间存在重叠冗余,则剔除掉所述两个候选对象,并使用所述两个候选对象拼接后得到的内容进行代替。

全文数据:

权利要求:

百度查询: 贝壳找房(北京)科技有限公司 用于确定文本的关键词的方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。