首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种标准化文本的获取方法、装置、设备及介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京睿企信息科技有限公司;上海清月人工智能科技有限公司;日照睿安信息科技有限公司;南通睿企科技有限公司

摘要:本发明涉及文本标签处理技术领域,特别是涉及一种目标文本标签的获取方法、装置、设备及介质,所述方法包括以下步骤:首先根据初始文本的字符数和关键词中间信息集获取到每一初始文本的初始文本得分,然后获取每一关键文本标签对应的初始文本的数量,根据上述两者获取到每一关键文本标签的得分,当关键文本标签的得分不小于预设标签得分时,将该关键文本标签确定目标文本标签;可知,本发明能够结合文本的重要程度以及关键文本标签的使用情况筛选出目标文本标签,使得筛选出文本标签更可靠有效,从而具有更高的价值。

主权项:1.一种标准化文本的获取方法,其特征在于,所述方法包括以下步骤:S100,将CEα从CE中移除并添加至预设关键词序列中,计算CEα与新的CE中的每一待处理文本关键词的共现概率;CEα为从CE中随机选取的第α个待处理文本关键词,CE为给定的待处理文本关键词集,所述预设关键词序列的初始状态为空;其中,通过以下步骤确定出待处理文本关键词:S001,从给定的初始文本列表集中的每一初始文本中提取出与初始文本自身对应的初始文本关键词集;所述初始文本关键词集包括若干个初始文本关键词;S002,将若干个初始文本关键词均确定为待处理文本关键词;S200,根据CEα与新的CE中的每一待处理文本关键词的共现概率确定出最大共现概率,并将CEα更新为所述最大共现概率对应的待处理文本关键词,返回执行S100,直至新的CE为空集,获取到CEα对应的最大共现概率列表;所述最大共现概率列表包括若干个最大共现概率;S300,根据每一待处理文本关键词对应的最大共现概率列表,获取到第一目标共现概率列表;其中,通过以下步骤获取第一目标共现概率列表:S301,获取CEα对应的最大共现概率列表的共现概率列表优先级CSα;CSα符合如下条件:CSα=∑β-1e=1Pαe,其中,β为CE中的待处理文本关键词的数量,Pαe为CEα作为第一个添加至预设关键词序列中的待处理文本关键词时对应的第e个最大共现概率;S302,根据每一待处理文本关键词对应的共现概率列表优先级,将其中最大的共现概率列表优先级对应的最大共现概率列表确定为第一目标共现概率列表;S400,将所述第一目标共现概率列表对应的预设关键词序列中的若干个待处理文本关键词按照添加至所述预设关键词序列的先后顺序输入至预设的自然语言处理模型中,以获取到CE对应的标准化文本;所述标准化文本的获取方法还包括以下步骤:S1,将每一初始文本对应的若干个初始文本关键词从对应的初始文本中去除,获取到每一初始文本对应的初始文本片段集;所述初始文本片段集包括若干个初始文本片段;S2,将每一初始文本对应的初始文本关键词集和初始文本片段集输入至预设的语言处理模型中,获取到每一初始文本对应的关键文本;S3,根据若干个初始文本、每一初始文本对应的初始文本关键词集和每一初始文本对应的关键文本,获取到每一初始文本对应的文本权重;其中,所述初始文本对应的文本权重符合以下条件:W00r=W0rmaxW01,W02,……,W0r,……,W0g,其中,W00r为初始文本列表集中的第r个初始文本对应的文本权重,W0r=δr1×Nr×δr2×δr1δrg,δr1为第r个初始文本的字符数,Nr为第r个初始文本对应的初始文本关键词数量,δr2为第r个初始文本对应的关键文本的字符数,r的取值范围为1到g,g为初始文本列表集中的初始文本的数量;S4,当存在初始文本对应的文本权重大于预设的文本权重阈值时,将对应文本权重大于预设的文本权重阈值的初始文本确定为目标文本。

全文数据:

权利要求:

百度查询: 北京睿企信息科技有限公司 上海清月人工智能科技有限公司 日照睿安信息科技有限公司 南通睿企科技有限公司 一种标准化文本的获取方法、装置、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。