买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国人民解放军战略支援部队信息工程大学
摘要:本发明提供一种基于改进simhash的有害网址检测方法、装置与系统。该方法包括:获取疑似有害网页的HTML文件,从HTML文件中抽取得到网页标题和网页正文并进行分词;计算每个词汇的词汇权重和哈希值;根据词汇权重和哈希值采用simhash算法计算网页标题的签名和网页正文的签名,将两个签名进行拼接得到疑似有害网页的网页签名,记作签名A;将签名A分割成若干个相同长度的子签名段,利用预先构建的分段索引对每个子签名段进行检索以便提取得到与签名A存在至少一个相同子签名段的候选网页签名集;计算签名A与候选网页签名集中每个签名B之间的相似度,若存在至少一个相似度值大于设定阈值的签名B,则认为签名A对应的疑似有害网页的URL为有害网址。
主权项:1.基于改进simhash的有害网址检测方法,其特征在于,包括:步骤1:获取疑似有害网页的HTML文件,从所述HTML文件中抽取得到网页标题和网页正文,并对所述网页标题和所述网页正文进行分词;步骤2:计算每个词汇的词汇权重和哈希值;步骤3:根据词汇权重和哈希值采用simhash算法计算网页标题的签名和网页正文的签名,将两个签名进行拼接得到所述疑似有害网页的网页签名,记作签名A;步骤4:将签名A分割成若干个相同长度的子签名段,利用预先构建的分段索引对每个子签名段进行检索以便提取得到与签名A存在至少一个相同子签名段的候选网页签名集;所述候选网页签名集中包括至少一个已知有害网址的网页签名,记作签名B;步骤5:计算签名A与所述候选网页签名集中每个签名B之间的相似度,若存在至少一个相似度值大于设定阈值的签名B,则认为签名A对应的疑似有害网页的URL为有害网址。
全文数据:
权利要求:
百度查询: 中国人民解放军战略支援部队信息工程大学 基于改进simhash的有害网址检测方法、装置与系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。