首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于地址的单字权重统计方法_浙江工业大学_202010708537.9 

申请/专利权人:浙江工业大学

申请日:2020-07-22

公开(公告)日:2024-06-18

公开(公告)号:CN112084771B

主分类号:G06F40/216

分类号:G06F40/216;G06F16/9537;G06F16/29

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2021.01.01#实质审查的生效;2020.12.15#公开

摘要:一种基于地址的单字权重统计方法,输入待统计的总数据表,记为T,其地址数据条数为N,同时建立一个存储表;首先使用逐字加一法对表T进行总字数统计,总字数记为AllWordSum;然后,使用逐字加一法统计表T中每个单字的出现次数perWordSum;同时,使用逐行加一法统计表T中每个单字的出现条数perWordRow;同时,通过计算得出正单字频率WF,逆单字频率IWF,单字加权权重WF‑IWF,按对应方式存储于结果Result中。本发明单字权重非单一化、系统存储率高。

主权项:1.一种基于地址的单字权重统计方法,其特征在于,所述方法包括以下步骤:1输入待统计的总数据表,记为T,其地址数据条数为N,表中保存着大量标准地址数据,同时创建一个Result表,每行数据存储为{w,perWordSum,perWordRow,wfItw},w字段代表该行的单字,perWordSum字段代表该单字在表T中出现的总次数,perWordRow字段代表该单字在表T中出现的总行数,wfItw字段代表该单字在表T中的权重值;2首先使用逐字加一法对表T进行总字数统计,总字数记为AllWordSum,过程如下:2.1选取的第n行数据,记为Tn,n初始值为1,通过移动数据字符下标j的方式判断是否将AllWordSum加1,j初始值为0;2.2若Tn下标j对应的字符非标点符号与空格符则将AllWordSum加1,并将下标j加1,移动到该行数据的下一个字符上,重复2.2操作;2.3若Tn下标j已移动到该行的最后一个字符则将n加1,返回2.1继续操作,直至n等于N,将n重置为1,j重置为0;3其次使用逐字加一法统计表T中每个单字的出现次数perWordSum和表T中每个单字的出现条数perWordRow,a代表在Result表对应的行下标,初始值为0,过程如下:3.1选取表T的第n行数据,记为Tn,逐一移动Tn字符下标j;3.2若该下标j对应的字符w非标点符号与空格符,且没有在Result表中出现,则在Result表新建一行,行下标a加1,Result表第a行的w设为Tn下标j对应的字符,该w与该a对应,perWordSum设为1,perWordRow设为1,返回3.1继续操作;3.3若该下标j对应的字符w非标点符号与空格符,检索到w在Result第a行出现,则下标j加1,将第a行的perWordSum加1,判断该下标对应字符w对应的perWordRow是否已经加过1;3.3.1若下标j对应的字符w所在行,未将perWordRow加1,则将该行的perWordRow加1,返回3.1继续操作;3.3.2若下标j对应的字符w所在行,已将perWordRow加1,则返回3.1继续操作;3.4若Tn下标j已移动到该行的最后一个字上,则考虑n与N的关系;3.4.1若n≠N则将n加1,j置0,返回3.1继续操作;3.4.2若n=N则跳出3操作;4通过每个单字的出现次数perWordSum与总字数AllWordSum之间对应关系,求正单字频率WF: 5通过每个单字的出现条数perWordRow与数据总表数据条数N之间对应关系,求逆单字频率IWF: 6通过正单字频率WF与逆单字频率IWF之间对应关系,求单字加权权重WF-IWF:WF-IWF=WF×IWF;7将统计数据与计算结果按Result要求的单行格式存储。

全文数据:

权利要求:

百度查询: 浙江工业大学 一种基于地址的单字权重统计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。