Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜汉阴县社会治理智能科技有限责任公司杨超获国家专利权

恭喜汉阴县社会治理智能科技有限责任公司杨超获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜汉阴县社会治理智能科技有限责任公司申请的专利基于机器学习的SSR代理下应用程序流量识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113935436B

龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111368158.0,技术领域涉及:G06F18/2431;该发明授权基于机器学习的SSR代理下应用程序流量识别方法是由杨超;郭刚;李玥;陈明哲;张琨;郑昱设计研发完成,并于2021-11-18向国家知识产权局提交的专利申请。

基于机器学习的SSR代理下应用程序流量识别方法在说明书摘要公布了:本发明提出了一种基于机器学习的SSR代理下应用程序流量识别方法。用于解决现有技术SSR代理下应用程序流量识别准确率低的问题。方案包括:1收集智能手机流量数据并进行预处理,得到流数据集;2获取流数据集时间间隔统计特征向量集合、时间间隔分布特征向量集合、数据包长度统计特征集合、数据包长度均匀分布特征集合、数据包长度对数分布特征集合及数据包长度序列特征集合,组合成特征矩阵;3利用特征矩阵获取SSR代理下应用程序的训练集与测试集;4基于随机森林算法生成多分类模型,并利用模型得到SSR代理下应用程序流量识别结果。本发明使模型能够更准确的识别SSR代理下的应用程序流量,且有效提高了识别可靠性。

本发明授权基于机器学习的SSR代理下应用程序流量识别方法在权利要求书中公布了:1.一种基于机器学习的SSR代理下应用程序流量识别方法,其特征在于,包括:1获取智能手机的流量数据,并对其按照如下步骤进行预处理:1a在流量数据中选取非重传数据包中的TCP数据包,组成原始数据集;1b根据原始数据集中数据包的到达时间,对所有数据包按照从小到大的顺序进行排序,得到排序后原始数据集;1c根据如下规则对排序后原始数据集中的数据包进行分组,得到突发数据集B:1c1将排序后原始数据集中的第一个数据包作为第一数据突发分组的首个数据包;1c2遍历排序后原始数据集中的数据包,若当前数据包的达到时间与前一个数据包的到达时间间隔小于1秒,则将当前数据包划分到前一个数据包所在的数据突发分组,否则,创建一个数据突发分组,并将当前数据包作为其中的首个数据包;1c3对所有数据包完成分组后,得到突发数据集B:B={burst1,burst2,...,burstr,...,burstt}其中,burstr表示第r个数据突发分组,r=1,2,...,t,t为创建的数据突发分组总个数;1d利用突发数据集B得到流数据集F:1d1将第r个数据突发分组中具有相同或者互为相反的源IP地址、目的IP地址、源端口号、目的端口号的数据包合成为第w个流数据;1d2根据第w个流数据中数据包的时间戳大小,按照由小到大的顺序进行排列,得到其排序后流数据floww;1d3获取所有数据突发分组对应的排序后流数据,得到初始流数据集F':F'={flow1,flow2,...,floww,...,flowe},其中,flowe表示第t个数据突发分组合成的第e个流数据中数据包排序后流数据;1e将初始流数据集F'里每一个排序后流数据的所有数据包中与第一个数据包发送方向相同的数据包作为输出包、其余数据包作为输入包,将每一个排序后流数据中的输入包组成输入包集合、输出包组成输出包集合、输入包与输出包共同组成的双向包集合;1f对初始流数据集F'进行噪声过滤,是通过分别判断初始流数据集F'里每一个排序后流数据所包含的输入包、输出包数量实现去除智能手机后台APP或手机操作系统产生的数据包所构成的流数据分组,若数量少于预先设定的阈值个数,则将当前这个排序后流数据从流数据集F中滤除,反之,予以保留;得到流数据集F:F={flow1,flow2,...,flowk,...,flowx},其中,flowk代表第k个流数据分组,k=1,2,...,x,x为F中流数据分组总个数,且x≤e;2获取流数据集F的时间间隔统计特征向量集合CST:2a分别计算流数据分组flowk中输入包集合、输出包集合、双向包集合中相邻数据包之间时间间隔序列的统计值,得到其三个数据包集合对应的第一特征向量;2b对第一特征向量进行横向拼接,得到流数据分组flowk的时间间隔统计值特征向量CSTk;2c取k=1,2,...,x,得到所有流数据分组的时间间隔统计值特征向量,将其组成流数据集F的时间间隔统计特征向量集合CST:CST={CST1,CST2,...,CSTk,...,CSTx};3获取流数据集F的时间间隔分布特征向量CDT:3a在0,104]范围内,以10为底划分出11个对数区间:0,10-6],10-6,10-5],10-5,10-4],10-4,10-3],…,103,104];分别统计流数据分组flowk中输入包集合、输出包集合、双向包集合中相邻数据包之间时间间隔序列隔落在每个区间中的数量值,并将该数量值按照上述所属区间的先后顺序进行排列,得到其三个数据包集合对应的第二特征向量;3b对第二特征向量进行横向拼接,得到流数据分组flowk的时间间隔分布特征向量CDTk;3c取k=1,2,...,x,得到所有流数据分组的时间间隔分布特征向量,将其组成流数据集F的时间间隔分布特征向量CDT:CDT={CDT1,CDT2,...,CDTk,...,CDTx};4获取流数据集F的数据包长度统计特征集合CSL:4a分别计算流数据分组flowk中输入包集合、输出包集合、双向包集合中所有数据包长度,并计算数据包长度统计值,得到其三个数据包集合对应的第三特征向量;4b对第三特征向量进行横向拼接,得到流数据分组flowk的数据包长度统计值向量CSLk;4c取k=1,2,...,x,得到所有流数据分组的数据包长度统计值向量,将其组成流数据集F的数据包长度统计特征集合CSL:CSL={CSL1,CSL2,...,CSLk,...,CSLx};5获取流数据集F的数据包长度均匀分布特征集合CDL1:5a在0,2500]的范围内,均匀划分出25个区间:0,80],80,160],…,1960,2000];分别统计流数据分组flowk中输入包集合、输出包集合、双向包集合中数据包长度落在相应区间的数量值,并将该数量值按照上述所属区间的先后顺序进行排列,得到其三个数据包集合对应的第四特征向量;5b对第四特征向量进行横向拼接,得到流数据分组flowk的数据包长度均匀分布特征向量CDL1k;5c取k=1,2,...,x,得到所有流数据分组的数据包长度均匀分布特征向量,将其组成流数据集F的据包长度均匀分布特征向量集合CDL1:CDL1={CDL11,CDL12,...,CDL1k,...,CDL1x};6获取流数据集F的数据包长度对数分布特征集合CDL2:6a在0,211]范围内,以2位底划分出11个对数区间:0,21],21,22],22,23],23,24],…,210,211];分别统计流数据分组flowk中输入包集合、输出包集合、双向包集合中数据包长度落在相应区间的数量值,并将该数量值按照上述所属区间的先后顺序进行排列,得到其三个数据包集合对应的第五特征向量;6b对第五特征向量进行横向拼接,得到流数据分组flowk的数据包长度对数分布特征向量CDL2k;6c取k=1,2,...,x,得到所有流数据分组的数据包长度对数分布特征向量,将其组成流数据集F的数据包长度对数分布特征向量集合CDL2:CDL2={CDL21,CDL22,...,CDL2k,...,CDL2x};7获取流数据集F的数据包长度序列特征集合CSEL:7a在每个数据包集合中,设置m个区间集合USEC:USEC={USEC1,USEC2,...,USECi,...,USECm}其中,USECi代表第i个区间,i=1,2,...,m;每个区间包含q个数据包,s代表一个数据包集合中所含数据包的数量;7b将一个数据包集合内的数据包按照出现的先后顺序分配到m个区间内;7c统计每个区间的数据包代表长度,得到数据包长度序列特征向量;实现如下:按顺序取每个子区间内出现次数最多的数据包,将其长度作为该子区间数据包代表长度;把数据包集合包含的数据包数量除以m并向上取整得到每个子区间内应该包含的数据包数量,当数据包集合包含的数据包数量不够按照每个子区间内应该包含的数据包数量分到m个子区间内时,即出现靠后的一个或多个子区间没有包含数据包的情况时,设置没有分配到数据包的子区间数据包代表长度为0;7d分别统计流数据分组flowk中输入包集合、输出包集合、双向包集合中数据包长度序列特征向量,得到其三个数据包集合对应的第六特征向量;7e对第六特征向量进行横向拼接,得到流数据分组flowk的数据包长度序列特征向量CSELk;7f取k=1,2,...,x,得到所有流数据分组的数据包长度序列特征向量,将其组成流数据集F的数据包长度序列特征集合CSEL:CSEL={CSEL1,CSEL2,...,CSELk,...,CSELx};8获取流数据集F的特征矩阵C:8a针对步骤2-7中得到的特征集合,将其中时间间隔统计特征向量CSTk、时间间隔分布特征向量CDTk、数据包长度统计值向量CSLk、数据包长度均匀分布特征向量CDL1k、数据包长度对数分布特征向量CDL2k及数据包长度序列特征向量CSELk进行横向拼接,得到流数据分组flowk的临时特征向量TCk;分别获取获取流数据集F中所有流数据分组的临时特征向量,得到临时特征向量集合TC:TC={TC1,TC2,...,TCk,...,TCx};8b将临时特征向量集合TC中的临时特征向量进行横向拼接,得到流数据flowk的特征向量Ck;所述横向拼接规则如下:当k=1时,取临时特征向量TCk+1、TCk+2与TCk进行横向拼接,当1<k<x时,将临时特征向量TCk-1、TCk+1与TCk进行横向拼接,当k=x时,取临时特征向量TCk-1、TCk-2与TCk进行横向拼接;8c将得到的所有特征向量C1,C2,...,Ck,...,Cx进行纵向拼接,得到流数据集F的特征矩阵C,即处理好的数据集;该数据集中的每行数据代表一个流数据所对应的特征向量、每列数据代表一个特征;9获取软件ShadowsocksR代理下应用程序训练集TR与流量测试集TE:9a从流数据集F的特征矩阵C中随机选择不少于80%的特征向量作为特征向量训练集TR',其余特征向量组成流量测试集TE;9b对特征向量训练集TR'中的特征向量添加对应的应用程序标签L,并将所有特征向量与每个特征向量的标签L共同组成训练集TR;10将训练集TR作为随机森林算法的输入,基于随机森林算法生成多分类模型;11将软件ShadowsocksR代理下应用程序流量测试集TE作为多分类模型的输入进行测试,得到TE中每个特征向量所对应的应用程序标签,即应用程序流量的识别结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人汉阴县社会治理智能科技有限责任公司,其通讯地址为:725199 陕西省安康市汉阴县城关镇凤凰国际商业步行街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。