首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种提供分布式NLP能力服务的系统及方法 

申请/专利权人:深圳中科保泰科技有限公司

申请日:2024-04-26

公开(公告)日:2024-06-25

公开(公告)号:CN118093207B

主分类号:G06F9/50

分类号:G06F9/50;G06F40/284;G06F9/48;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2024.06.14#实质审查的生效;2024.05.28#公开

摘要:本发明涉及自然语言处理技术领域,具体地说,涉及一种提供分布式NLP能力服务的系统及方法。其包括节点通讯单元、任务调度单元、计算节点单元和监控管理单元;其中,任务调度单元包括任务管理模块、调度策略模块和任务分配模块。该提供分布式NLP能力服务的系统及方法中,在任务调度之前对文本进行分类,划分为短文本、中长文本以及长文本,通过将不同长度的文本分散到不同的计算节点进行处理,可以实现更好的负载均衡,避免某一类文本集中导致的处理延迟或服务中断;且能够根据系统负载、用户需求或业务策略动态调整各类文本的处理优先级。

主权项:1.一种提供分布式NLP能力服务的系统,其特征在于,包括:节点通讯单元(1):用于与计算节点进行通信,发送文本调度指令和接收执行结果;任务调度单元(2):用于根据资源使用情况动态分配文本到各个计算节点,实现并行计算;计算节点单元(3):用于对任务调度单元(2)分配的文本进行处理,并生成相应NPL的输出结果;监控管理单元(4):用于对系统的运行状态性能和各个计算节点的资源使用情况进行实时监控;其中,任务调度单元(2)包括任务管理模块(21)、调度策略模块(22)和任务分配模块(23);所述任务调度单元(2)中:任务管理模块(21)用于接收用户请求处理的文本,基于文本长度、文本类型对接收的文本进行分类并字节分割;调度策略模块(22)用于根据文本的特性和每个节点的资源情况选择计算节点进行任务调度;任务分配模块(23)用于根据调度策略和系统负载,将文本分配给不同的计算节点进行处理;所述任务管理模块(21)的工作步骤如下:S21:通过网络接口以及API接收用户的文本处理请求;S22:计算接收到的文本数据的字符数或字节数,以确定其长度属性,并根据文本内容判断文本所属的类别;S23:根据文本长度和文本类型对文本进行分类;S24:对分类完成的文本进行相应的字节分割;S22中根据文本内容判断文本所属的类别的具体步骤如下:S231:对接收到的文本进行标准化、去除非文本字符以及分词;S232:基于TF-IDF量化文本中词组出现的频率;S233:将词组映射到高维向量空间,捕捉语义关系,生成TF-IDF加权平均词向量;S234:根据TF-IDF加权平均词向量确定文本所属的类别;S232的表达式为: ;其中,是词组在文本中的值;为词组;为文本;是语料库;为词组在文本中出现的次数;为文本中所有词组的总数;为语料库中文本的总数;为包含词组的文本数;在值的公式中引入权重和互信息,表达式为: ;其中,为引入权重和互信息后词组在文本中的值;和均为权重参数;为文本长度对TF的影响;为文本D的长度;为平均文本长度;为词组t和文本D同时出现的概率;为词组t单独出现的概率;为文本D单独出现的概率。

全文数据:

权利要求:

百度查询: 深圳中科保泰科技有限公司 一种提供分布式NLP能力服务的系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。