首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:河海大学

摘要:本发明公开了一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法,步骤为:1对时间序列按照窗口长度和步长提取子序列;2对提取出的子序列经过SAX符号表示将子序列变成符号序列;3选择DC3后缀数组算法对符号序列进行处理,获得后缀数组;4使用基于索引提取匹配前缀的方法,按照原始索引顺序在后缀数组中进行匹配前缀的搜索。5基于编辑距离的容错匹配,设置一个基于编辑距离的容错参数,进行容错匹配,减小字符串匹配的难度,便于找到更长且完整的变长模体。

主权项:1.一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法,其特征在于,包括如下步骤:1提取子序列。设挖掘的时间序列是长度为n的序列T=[t1,t2,t3,t4,..,tn],设置窗口长度m。以时间序列第一个数据为起始点,连续提取m个相邻的数据,并以步长1向后滑动提取子序列,最终提取到n-m+1个子序列,每个子序列为Si=[ti,ti+1,ti+2,...,ti+m-1],其中i∈[1,n-m+1]。2构建子序列SAX符号表示。对提取出的子序列经过SAX符号表示将子序列变成符号序列。首先进行PAA分段聚合近似,设置分段数w,然后计算各段的均值,用均值来表示段,子序列变成w个元素的序列;然后将各个均值映射到事先划分好的值域区间中,使用自定义的字母对归属同一区间的均值进行表示,可以得到子序列的符号序列,即子序列的SAX符号表示。3构建后缀数组。字符串后缀是指从某个位置i开始到整个串末尾结束的一个特殊子串。字符串S的从第i个字符开始的后缀表示为Suffixi。后缀数组SA是一个一维数组,它将字符串的后缀集合Suffix,按照字典序从小到大进行排序之后,把排好序的后缀在字符串中的原索引位置依次放入SA中。选择D-C3后缀数组算法对符号序列CS进行处理,首先将符号序列CS中的字符下标以模3的方式分为三类,C0,C1,C2。后缀集合Suffix中的Suffixi,i模3结果为0的后缀是C0类,结果为1的是C1类,结果为2的是C2类。先将属于C1和C2类的后缀挑选出来,经过字典排序得到排名。然后将属于C0类后缀的首个字符拼接上,下一个相邻字符的后缀在C1和C2类中的排名,将拼接后的字符串进行字典排序,确定属于C0类的后缀排名。最后再通过字典序,比较C-1、C2类和C0类中的后缀,获得后缀数组SA。4基于索引提取匹配前缀。匹配前缀prefixp1,p2,L表示的是符号序列C-S下标为p1的后缀Suffixp1和下标为p2的后缀Suffixp2,前L个字符相同。rank数组是后缀集合Suffix中Suffixi按字典序排名的集合。候选模体集合MS,保存的是符号序列CS中的匹配前缀prefix的集合。首先,判断符号序列CS的当前索引i,是否被包含在候选模体集MS中。如果被包含,则跳过当前匹配前缀的搜索,否则再进行邻近后缀间的字符的相似性比较,减少多余前缀的匹配,提高时间效率。然后,通过rank数组确定当前Suffixi的排名ranki,通过后缀数组SA找到当前后缀Suffixi邻近的二个后缀SuffixSAranki-1和SuffixSAranki+1,进行匹配前缀prefix的搜索。最后,将搜索到的匹配前缀prefix放入候选模体集MS中。5基于编辑距离的容错匹配。设置编辑距离参数ld,在寻找最长公共前缀的匹配过程中,如果按照字符串严格相等去取公共前缀,会增加匹配的难度,特别是对于长模体,模体实例之间可能只有一些个别字符的差异,但是由于这种严格相等的比较方式,会导致模体分割为局部的模体,本方法设置一个基于编辑距离的容错参数,进行容错匹配,减小字符串匹配的难度,便于找到更长且完整的变长模体。

全文数据:

权利要求:

百度查询: 河海大学 一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。