首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于人工智能的不规则数据提取方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广州敏行数字科技有限公司

摘要:本申请涉及大数据领域,尤其涉及一种基于人工智能的不规则数据提取方法及系统,包括:对网页的静态部分和动态部分采用不同的提取规则进行网页数据提取;将从网页的静态部分提取的网页数据形成静态数据集,将从网页的动态部分提取的网页数据形成动态数据集;依据静态数据集和动态数据集得到网页的融合网页数据,依据网页的融合网页数据进行该网页的监控。本申请可以降低网页数据的提取难度。

主权项:1.一种基于人工智能的不规则数据提取方法,其特征在于,包括如下步骤:步骤S110、对网页的静态部分和动态部分采用不同的提取规则进行网页数据提取;网页的静态部分的网页数据提取规则是在提取周期内进行1次网页数据提取,网页的动态部分的网页数据提取规则是在提取周期内进行N次网页数据提取;依据提取周期、网页的动态部分的语言类型、网页的动态部分所需的文件类型和网页的动态部分的类型,计算在提取周期内对网页的动态部分进行网页数据提取的次数N;依据公式计算得到在提取周期T内对网页的第i种动态部分进行网页数据提取的次数Ni;其中,LDi为网页的第i种动态部分的类型权重;aij为网页的第i种动态部分的第j种语言的类型;Aj为第j种语言的类型权重;J为网页的第i种动态部分具有的语言的数量;wijm为网页的第i种动态部分在第j种语言的情况下所需的第m个文件的类型;Wm为第m个文件的类型权重;M为网页的第i种动态部分在第j种语言的情况下所需的文件的数量;T′为标准提取周期,是个常数;步骤S120、将从网页的静态部分提取的网页数据形成静态数据集,将从网页的动态部分提取的网页数据形成动态数据集;步骤S130、依据静态数据集和动态数据集得到网页的融合网页数据,依据网页的融合网页数据进行该网页的监控;依据公式计算得到网页的融合网页数据RH;其中,cyx为动态数据集中的第y个类别的第x个网页数据,σy为第y个类别的权重系数,τd为动态数据集的权重系数,W1为动态数据集的融合权重,br为静态数据集中的第r个网页数据,W2为静态数据集的融合权重。

全文数据:

权利要求:

百度查询: 广州敏行数字科技有限公司 基于人工智能的不规则数据提取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。