一种疑似源头企业研判的方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京华录高诚科技有限公司

摘要：本发明公开了一种疑似源头企业研判的方法及系统，具体涉及数据挖掘技术领域，收集车辆超限运输数据，包括企业注册信息、车辆GPS轨迹数据、运单历史记录、违法记录，并将收集到的车辆超限运输数据进行整合和数据清洗，存储到数据库中，将数据清洗后的企业注册信息和运单历史记录数据进行特征提取，利用聚类算法对企业进行聚类分析，根据聚类结果，识别超限运输行为的疑似源头企业群体，基于挖掘的疑似源头企业群体，挖掘企业之间的关联规则，根据关联规则的支持度和置信度，识别出超限运输行为特征，对车辆GPS轨迹数据进行密度聚类，识别出具有相似行驶轨迹的车辆群体，根据聚类结果，分析其行驶轨迹的规律性和异常性，对疑似源头企业进行研判。

主权项：1.一种疑似源头企业研判的方法，其特征在于，具体包括以下步骤：步骤S1、收集车辆超限运输数据，包括企业注册信息、车辆GPS轨迹数据、运单历史记录、违法记录，具体步骤如下：步骤A1、企业注册信息采集：获取车辆运输相关企业的注册信息，并将获取到的注册信息存储到一个数据表中；步骤A2、车辆GPS轨迹数据采集：从车辆安装的GPS定位设备中获取车辆的轨迹数据，以时间戳为索引将轨迹数据存储到数据库中；步骤A3、运单历史记录采集：从车辆运输企业处获取车辆的运单历史记录，将运单历史记录存储到数据库中，并与GPS轨迹数据进行关联；步骤A4、违法记录采集：从交通管理部门获取车辆的违法记录，将违法记录存储到数据库中，并与相关车辆和企业信息进行关联；并将收集到的车辆超限运输数据进行整合和数据清洗，存储到数据库中，具体步骤如下：步骤B1、数据整合：将收集到的企业注册信息、车辆GPS轨迹数据、运单历史记录和违法记录数据整合到一个统一的数据集中，并根据数据之间的关联关系建立数据表之间的连接；步骤B2、数据清洗：对车辆超限运输数据进行数据清洗，包括缺失值和异常值处理操作，所述缺失值处理是通过对缺失的企业注册信息进行补充，异常值处理是对超出范围的GPS坐标进行修正，并统一不同数据的格式；步骤B3、数据存储：创建数据库表结构，包括企业信息表、车辆GPS轨迹表、运单记录表和违法记录表，并将整合和清洗后的数据存储到相应的数据库表中；步骤S2、将数据清洗后的企业注册信息和运单历史记录数据进行特征提取，利用聚类算法对企业进行聚类分析，具体步骤如下：步骤C1、特征提取：使用词嵌入方法将企业注册信息和运单历史记录的文本数据进行特征提取，并将文本数据转换为企业特征向量，进一步包括以下步骤：步骤C101、构建词汇表：将所述企业的文本数据中出现的单词构建成一个词汇表，每个单词对应一个唯一的索引；步骤C102、词嵌入模型训练：使用词嵌入模型在文本语料库上进行训练，将单词映射到高维的连续向量空间中；步骤C103、特征向量：对于每条文本数据，利用训练好的词嵌入模型，将其中的单词转换为对应的词向量，并将这些词向量转换为文本数据的企业特征向量，设文本数据包含n个单词，对应的词向量分别为，利用平均池化进行特征提取，所述平均池化将所有单词的词向量进行平均，得到整个文本数据的企业特征向量，具体计算公式如下：其中，表示企业特征向量，表示第i个单词对应的词向量，n表示单词的数量；步骤C2、聚类分析：将企业特征向量输入到聚类算法中进行聚类分析，并将相似的企业划分到同一簇中，设有N个企业，每个企业有M个特征，将它们表示为一个NxM的矩阵A，采用K-means算法进行聚类分析，将矩阵A分成K个簇，每个簇对应一个超限运输行为的疑似源头企业群，所述K-means的目标函数为：其中，J表示K-means的目标函数值，K表示簇的数量，表示数据点，表示第j个簇的中心点；将相似的企业归为同一类别，根据聚类结果，识别超限运输行为的疑似源头企业群体，具体步骤如下：步骤D1、识别疑似源头企业群体：设定阈值来判断企业是否存在超限运输行为，将超限运输事件的频率作为判断标准，对于每个簇，统计其内部企业超限运输行为的情况，当超过设定的阈值，则将该簇识别为超限运输行为的疑似源头企业群体；步骤D2、可视化展示：通过可视化的方式展示聚类结果，将N维特征向量降到2维，绘制散点图，每个点表示一个企业，颜色表示该企业所属的簇；步骤S3、基于挖掘的疑似源头企业群体，提取其运单历史记录和行为数据，挖掘企业之间的关联规则，根据关联规则的支持度和置信度，识别出超限运输行为特征，具体步骤如下：步骤E1、构建项集：将提取的运单历史记录数据集转换为项集，每个项代表一种运输行为；步骤E2、计算支持度：对于每个项集，计算其在数据集中的支持度，所述支持度表示项集出现的频率，具体计算公式如下：其中，表示项集X在数据集中的支持度，是项集X在数据集中出现的次数，是数据集中的总记录数；步骤E3、生成关联规则：设置最小支持度阈值和最小置信度阈值，并使用Apriori算法生成频繁项集和关联规则；步骤E4、计算置信度：对于每条关联规则，计算其置信度，所述置信度表示当一个项集出现时，另一个项集也出现的概率，具体计算公式如下：其中，表示当项集X出现时，项集Y也出现的概率，是项集X和Y同时出现的支持度，表示项集X在数据集中的支持度；步骤E5、选择关联规则：将支持度大于预设阈值的规则进行保留，并分析所保留的关联规则，评估其置信度和支持度；步骤E6、疑似源头企业研判：将支持度和置信度大于预设阈值和的关联规则所涉及的企业视为疑似源头企业；步骤S4、对车辆GPS轨迹数据进行密度聚类，识别出具有相似行驶轨迹的车辆群体，根据聚类结果，分析其行驶轨迹的规律性和异常性，对疑似超限运输源头企业进行研判。

全文数据：

权利要求：

百度查询：北京华录高诚科技有限公司一种疑似源头企业研判的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种疑似源头企业研判的方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务