首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于密度聚类方法的出租车异常订单识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华设设计集团股份有限公司

摘要:本发明公开了一种基于密度聚类方法的出租车异常订单识别方法,本技术方案基于出租车订单数据,提取订单的相关时空特征,对可能异常订单进行识别的方法。首先,对原始数据进行预处理,包括数据的坐标系转换以及数据的清洗;随后对预处理后的数据进行网格化处理;之后,通过基于密度聚类的方法,对各相似订单簇中的异常样本点进行识别;最后对异常识别结果进行分析,获得可能异常订单的时空分布特征。本发明基于聚类算法,能够实现可能异常订单的自动识别,并通过网格划分对相似订单进行集计,并对结果进行修正,能够显著提升算法的准确性。

主权项:1.一种基于密度聚类方法的出租车异常订单识别方法,其特征在于,包括以下步骤:步骤1:对原始数据进行预处理,包括数据的坐标系转换以及数据的清洗,具体为:步骤1-1:将原始数据中以字符串形式存储的经纬度转换为数值;步骤1-2:剔除错误数据和重复数据,所述错误数据包括经纬度缺失的数据和经纬度超出目标研究区域的数据,所述重复数据即同一出行订单反复出现的数据;步骤2:对预处理后的数据进行网格化处理;步骤3:通过基于密度聚类的方法,对各相似订单簇中的异常样本点进行识别:步骤3-1:提取订单特征:行程时间:根据订单的起始时间,获得该订单的耗费时间;起终点距离:在网格划分后,同一网格下实际的上下车坐标可能并不相同,因此增加此参数对不同订单进行更精细化的区分;欧几里得速度:根据订单起终点的直线距离,以及订单的行程时间,获得该订单的欧几里得速度;订单是否处于高峰时段;订单时段为工作日或休息日;步骤3-2:聚合订单,基于网格划分的方法,将目标区域内起终点网格编号相同的订单进行聚合,对于起终点直线距离接近的订单,其订单时长接近,因此样本分布存在聚集性;步骤3-3:基于密度聚类方法和步骤3-1提取的特征对订单进行聚类:基于密度聚类方法,根据步骤3-1提取的参数,对订单进行聚类,将不同区域的样本点进行分离;由于异常订单距离正常的样本点较远,根据订单时长再对识别得到的不同聚类簇进行区分;对于各聚类簇,通过其订单时长的中位数与设定的阈值进行判断,如下式: 其中,li为聚类簇i的标签值,1表示正常样本,-1表示异常样本,tm,i为聚类簇i的订单时长中位数,Tm为所有样本的订单时长中位数;对于聚类簇标记为-1,逐个对其订单时长与设定阈值进行比较;步骤4:对异常识别结果进行分析,获得可能异常订单的时空分布特征,分析指标具体为:订单总体比例:指可能异常订单占总体订单数的比例;不同日期分布:用于对不同日期的异常订单的绝对数量及所占比例进行监控,进而在指标发生异常波动时进行探因;不同司机可能异常订单数量:统计不同司机的可能异常订单数量,进而对数量较高的司机进行进一步的调查;不同特征日及不同特征时段异常订单分布:通过统计不同特征日及不同特征时段异常订单。

全文数据:

权利要求:

百度查询: 华设设计集团股份有限公司 一种基于密度聚类方法的出租车异常订单识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。