首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】字词频度统计方法及装置_江苏瑞宁信创科技有限公司_202311638509.4 

申请/专利权人:江苏瑞宁信创科技有限公司

申请日:2023-12-04

公开(公告)日:2024-01-05

公开(公告)号:CN117349295A

主分类号:G06F16/22

分类号:G06F16/22;G06F40/126;G06F16/2458

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.01.23#实质审查的生效;2024.01.05#公开

摘要:本发明涉及一种字词频度统计方法及装置,属于信息处理及数据统计的技术领域,该发明的方法包括步骤:设置一个链表数组结构保存的索引表,用于保存字词集中每一字词条目在整个语料库中的出现次数;通过哈希函数计算每一字词条目的码值,将其作为结构化搭建索引表时的数组下标地址;读取整个语料库,使用与前述相同的哈希函数规则计算每一文本字串的码值,并将其与索引表中对应数组元素所指示一个链表内各结点保存的字词条目进行对比,若相同则其对应的统计次数加1;最后根据索引表中各链表结点数据导出字词频度统计结果。本发明适用于文字教学、字词检索等相关技术领域中尤其是在大语料库、较多字词统计条目数量情形下字词频度统计的应用场景。

主权项:1.一种字词频度统计方法,统计字词集中每一个字词条目在整个语料库中各自出现的总次数,其特征在于,所述方法包括:步骤S1:设置一个链表数组结构存储的索引表Index[],其中每个数组元素均对应存储一个线性链表的头指针并初始化取值为NULL,所述线性链表内的各结点均包括用于存储所述字词集中所述一个字词条目的字串S、用于存储所述一个字词条目在所述整个语料库中出现次数的数值T和当前结点之后继结点存储位置的指针N这三个域;步骤S2:针对所述字词集中的所述每一个字词条目,首先利用哈希函数计算其码值C1,然后新创建一个结点并将该结点的字串域S赋值为所述一个字词条目、数值域T赋值为0,最后将该结点插入由数组元素Index[C1]所指示的一条线性链表中,所述哈希函数为C1=HashU1,U2,U3……Ui,式中C1为非负整数,i为所述一个字词条目构成中的字符数量,i的最大值即所述字词集中每一字词条目内字符构成数量的最大值记为L,U1、U2、U3……Ui为所述一个字词条目内依次构成中各字符表示的二进制Unicode编码中部分数位所对应的数值;步骤S3:扫描所述整个语料库中每一文件的文本,针对其中连续字符构成数量不超过所述L的所有文本字串,首先利用与前面相同的哈希函数规则,计算这些文本字串的非负整数码值C2,然后针对其中每一文本字串及其对应计算的码值C2,均依次读取数组元素Index[C2]所指示一个线性链表中的各结点,若结点中S域内的字串与该每一文本字串对比完全相同,则该结点中的T域数值增加1;步骤S4:针对所述索引表Index[]中各非NULL值数组元素所指示的线性链表,依次读取并输出其中每一结点内的S域字串和T域数值,其中S域字串构成作为频度统计对象的所述一个字词条目,T域数值对应构成其在所述整个语料库中出现的总次数。

全文数据:

权利要求:

百度查询: 江苏瑞宁信创科技有限公司 字词频度统计方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。