首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种自适应的领域词典自动构建方法 

申请/专利权人:慧医大数据技术(深圳)有限公司

申请日:2022-12-28

公开(公告)日:2024-06-28

公开(公告)号:CN118261148A

主分类号:G06F40/242

分类号:G06F40/242;G06F40/289;G06F40/216

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明涉及信息处理技术领域,且公开了一种自适应的领域词典自动构建方法,所述方法包括:S1、获取目标领域文本数据及非目标领域文本数据;S2、依据分词词典对目标领域文本数据及非目标领域文本数据均进行分词处理,分别形成分词数据A和分词数据B;S3、针对分词数据A和分词数据B中的每个词以不同的数据集为基准进行TF‑IDF权重计算处理,并经过滤处理再进行归纳,分别获得正向过滤词库和反向过滤词库。该自适应的领域词典自动构建方法,方便用户方便、快捷、准确的建立自己领域的领域词典,并方便用户建立自己领域的领域知识卡片,且可通过不断循环进行领域词典的自动构建,使用的时间越长,其模型越准确,且领域词库也会越来越丰富。

主权项:1.一种自适应的领域词典自动构建方法,其特征在于,所述方法包括:S1、获取目标领域文本数据及非目标领域文本数据;S2、依据分词词典对目标领域文本数据及非目标领域文本数据均进行分词处理,分别形成分词数据A和分词数据B;S3、针对分词数据A和分词数据B中的每个词以不同的数据集为基准进行TF-IDF权重计算处理,并经过滤处理再进行归纳,分别获得正向过滤词库和反向过滤词库;S4、将正向过滤词库和反向过滤词库中的词进行比对,对正向过滤词库和反向过滤词库中相交集的词进行保留即形成领域词典;S5、提取领域词典中的词传输至分词词典中进行存储。

全文数据:

权利要求:

百度查询: 慧医大数据技术(深圳)有限公司 一种自适应的领域词典自动构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。