首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于商旅行程业务数据的异常用户生成内容识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东美亚商旅科技有限公司

摘要:本发明提出一种基于商旅行程业务数据的异常用户生成内容识别方法,实时监测和记录商旅行程的各项数据;基于改进算法对各个数据的异常分数进行计算,判断行程数据所属用户是否存在异常;筛选出可能存在异常的用户;将各项信息提取出来,换成统一的格式后,将不同来源的行程数据进行合并,进行异常内容识别,记录到数据库或输出到文件中,以便相关人员采取相应的措施;通过实时监测和记录商旅行程数据,结合改进算法对行程数据的分析和判断,从整体上评估用户的行程数据是否存在异常,可以及时发现存在异常的用户和行程数据,通过自动化的方法对行程数据进行异常检测和识别,只有被标记为异常才需要人工干预,其更加高效及时。

主权项:1.一种基于商旅行程业务数据的异常用户生成内容识别方法,其特征在于,所述方法为:S1:通过日志记录、爬虫技术实时监测和记录商旅行程的各项数据,其中各项数据包括行程信息、用户操作、数据异常;S2:根据行程数据的完整性、一致性、频率以及用户的操作行为,基于聚类的方法通过局部离群因子检测法的思想融合成改进算法,改进算法对各个数据的异常分数进行计算,判断行程数据所属用户是否存在异常;其中所述基于聚类的方法通过局部离群因子检测法的思想融合成改进算法的步骤包括,将数据聚类后,区分聚类后的大小簇,并将每簇按数据量大小从大到小排序后计算异常分数,若数据点属于大簇,则计算其与当前簇的聚类中心的距离,若数据点属于小簇,则计算他与最近的大簇的聚类中心的距离;得出异常分数,即计算出用户的行程数据的完整性异常得分、一致性异常得分、频率异常得分、操作行为异常得分指标,根据指标来判断用户是否异常;若用户的各数据的异常分数得分高于设定的阈值,则判定该用户为异常用户;其中,对于前几族的和占总量的,则将前几簇作为大簇,之后的作为小簇;和或,当前一簇是后一簇数量的倍时,则将包括所述前一簇在内的前几簇作为大簇,包括所述后一簇对应的后几簇作为小簇;所述计算异常分数的步骤中,包括;计算第t个点的异常分数值F,F定义为:;所述数据聚类,包括;通过设为一组数据,记为集合A;设为数据不同的簇,记为集合B,且使用聚类算法后数据形成的簇,需要满足,则k为确定的聚类簇数;所述区分聚类后的大小簇,包括;设为满足数据聚类条件的集合簇,各个簇按元素从小到大排序即满足;由此定义两个参数分别为、,以及设c为小簇和小簇的分界,则c满足或;即大簇,小簇,其中当时,表示大簇的数据数量和需要占超过x%的数据,表示前一个簇的数量是后一个簇数量的x倍;S3:根据判断结果,通过SQL查询语句或者使用数据库操作工具筛选出可能存在异常的用户,并获取其相关的行程数据;S4:通过正则表达式匹配或者字符串处理函数将获取的行程数据中的各项信息提取出来,并转换成统一的格式后,将不同来源的行程数据进行合并,以便后续的分析处理;S5:通过自然语言处理对合并后的行程数据进行异常内容识别,识别出行程数据中的异常情况;S6:将识别出异常的内容记录到数据库或输出到文件中,并提供给相关人员进行查看和处理,以便相关人员采取相应的措施。

全文数据:

权利要求:

百度查询: 广东美亚商旅科技有限公司 一种基于商旅行程业务数据的异常用户生成内容识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。