首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】可动态配置算子的文本处理系统、方法、设备_北京感易智能科技有限公司_202210206835.7 

申请/专利权人:北京感易智能科技有限公司

申请日:2022-03-04

公开(公告)日:2024-06-14

公开(公告)号:CN114579332B

主分类号:G06F9/54

分类号:G06F9/54;G06F11/30

优先权:

专利状态码:有效-授权

法律状态:2024.06.14#授权;2022.06.21#实质审查的生效;2022.06.03#公开

摘要:本发明属于文本处理领域,具体涉及一种可动态配置算子的文本处理系统、方法、设备,旨在解决在文本特征的提取以及处理中,固定算子调度顺序以及资源,导致文本处理效率低、耦合度高的问题。本发明系统包括:算子配置模块,配置为提取同一消息类型不同计算任务的共同逻辑特征、非共同逻辑特征并封装成算子,将算子根据依赖关系进行组合,得到不同消息类型的算子链的基础子链;流程控制模块,配置为控制算子链中的算子运行;消息分发模块,配置为根据消息类型与预构建的消息业务分发对象之间的映射关系,筛选汇总结果并分别分发至消息业务分发对象对应的业务线。本方法解决了算子耦合程度高,复用和扩展困难的问题,提升了文本处理的效率。

主权项:1.一种可动态配置算子的文本处理系统,其特征在于,该系统包括算子配置模块、流程控制模块、消息分发模块;所述算子配置模块,配置为获取不同消息类型的文本以及设定的计算任务;提取同一消息类型不同计算任务的共同逻辑特征,作为第一任务特征,将该第一任务特征封装成bert向量抽取算子,作为第一算子;抽取后,将同一消息类型不同计算任务的非共同逻辑特征分别封装成其他算子,作为第二算子;封装完成后,将第一算子、第二算子根据依赖关系进行组合,得到不同消息类型的算子链的基础子链;所述消息类型包括新闻、公告、债券、研报;所述计算任务包括事件抽取、实体识别;所述依赖关系为根据计算任务处理设定的先后关系配置的调度顺序;还配置为获取任一消息类型的多个新的计算任务;提取新的计算任务之间共同逻辑特征,作为第二任务特征,并选取与第二任务特征相关联的第一算子和第二算子,作为前置算子,将新的计算任务之间的非共同逻辑特征分别封装成其他算子,作为第三算子;封装后,将前置算子与第三算子合并到对应消息类型的算子链中;所述流程控制模块,配置为控制算子链中的算子运行;当检查到同一消息类型的算子链中所有的算子执行成功时,将返回的执行结果组装成新的数据结构,作为汇总结果,将汇总结果推送至所述消息分发模块;所述流程控制模块,包括控制执行单元、弹性伸缩单元和内容整合单元;所述控制执行单元,配置为整合算子的输入和输出内容,并控制各算子的运行;所述弹性伸缩单元与一或多个控制执行单元连接;所述弹性伸缩单元,配置为根据监控告警模块的告警通知信息调整各控制执行单元中的算子的实例个数;当各算子对应的数据队列消息数目高于设定消息数目阈值时,增加实例个数,否则减少实例个数;所述消息数目为当前队列堆积未被消费的消息条数;所述内容整合单元,配置为对算子链中各个算子执行完成后的输出信息进行存储;还配置为使用轮询机制按时间顺序对入库的输出消息进行扫描,当检查到同一消息类型的算子链中所有算子的输出消息时,对输出消息进行汇总处理,将汇总结果推送至消息分发模块,同时将该消息类型的所有子链信息删除;所述汇总处理即将返回的执行结果组装成新的数据结构;所述消息分发模块,配置为根据消息类型与预构建的消息业务分发对象之间的映射关系,筛选汇总结果并分别分发至消息业务分发对象对应的业务线;所述消息业务分发对象包括了业务线设定接收的消息类型以及各消息类型的文本待处理的计算任务;所述业务线即数据需求方;可动态配置算子的文本处理系统还包括监控告警模块;所述监控告警模块,配置为对算子链中的各算子对应的数据队列在执行的过程中进行监控,若执行异常则发送告警通知。

全文数据:

权利要求:

百度查询: 北京感易智能科技有限公司 可动态配置算子的文本处理系统、方法、设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。