首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种分隔符格式文件高性能分析的方法及装置_中国科学院软件研究所_202410300118.X 

申请/专利权人:中国科学院软件研究所

申请日:2024-03-15

公开(公告)日:2024-06-21

公开(公告)号:CN118227669A

主分类号:G06F16/2455

分类号:G06F16/2455;G06F16/22;G06F16/242;G06F16/25

优先权:

专利状态码:在审-公开

法律状态:2024.06.21#公开

摘要:本发明涉及一种分隔符格式文件高性能分析的方法及装置。该方法包括:通过迭代的方式采样输入文件中的控制字符,确定控制字符的符号状态和逻辑位置;根据控制字符确定有限状态推导器模型中应当选取的字符转换层级,所述字符转换层级包括记录级和字段级;将输入文件切分为相等大小的文本块,并将其放入空闲处理单元中,基于有限状态推导器模型实现并行扫描,并利用SIMD加速分隔符的识别,生成位图索引;基于位图索引进行查询,包括关键字搜索查询模式和文件联合查询模式。本发明在线程级与指令级实现了并行处理,解决了CSV文件处理受制于固有格式而只能串行处理的速度瓶颈问题,并提升了处理速度。

主权项:1.一种分隔符格式文件高性能分析的方法,其特征在于,包括以下步骤:通过迭代的方式采样输入文件中的控制字符,确定控制字符的符号状态和逻辑位置;根据控制字符确定有限状态推导器模型中应当选取的字符转换层级,所述字符转换层级包括记录级和字段级;将输入文件切分为相等大小的文本块,并将其放入空闲处理单元中,基于有限状态推导器模型实现并行扫描,并利用SIMD加速分隔符的识别,生成位图索引,所述位图索引将分隔符的逻辑位置映射到物理位置;基于位图索引进行查询,包括关键字搜索查询模式和文件联合查询模式。

全文数据:

权利要求:

百度查询: 中国科学院软件研究所 一种分隔符格式文件高性能分析的方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。