首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于开源时空数据的时空目标描述文字生成方法 

申请/专利权人:北京理工大学

申请日:2022-03-21

公开(公告)日:2024-06-18

公开(公告)号:CN114707511B

主分类号:G06F40/30

分类号:G06F40/30;G06F40/289;G06F16/215;G06F16/29;G06F16/9537

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2022.07.22#实质审查的生效;2022.07.05#公开

摘要:本发明涉及一种基于开源时空数据的时空目标描述文字生成方法,属于时空数据分析与挖掘技术领域。本方法通过分析时空目标数据的特点,经过数据清洗、行为描述短语生成、位置描述短语生成和目标描述生成,提取时空目标活动轨迹的语义信息,生成目标活动状态文字描述,可用于时空数据语义理解等。本方法能够对不含显示语义信息的时空数据进行理解,能够准确、高效地分析时空数据中各时空目标的行为模式,并能够准确识别时空数据在地图上所经过的地理位置,不依赖于在线网络,可以实现面向海量时空数据的快速语义感知,为时空数据语义分析提供技术支撑。本发明拓展了时空数据的应用范围,具有良好的应用前景。

主权项:1.一种基于开源时空数据的时空目标描述文字生成方法,其特征在于,包括以下步骤:步骤1:对时空目标轨迹数据进行清洗,在保证数据规模的情况下,对原始的轨迹实现归一化压缩;当进行数据清晰时,通过轨迹数据几何线段化实现;通过将原始的不规则轨迹点转化为轨迹线段的集合,再通过均匀插值处理对线段集合进行扩充;步骤1.1:基于Douglas-Peucker算法,对轨迹数据进行压缩;步骤1.1.1:在轨迹曲线首尾两点E、F之间连接一条直线EF,该直线为曲线的弦;步骤1.1.2:遍历曲线上其他所有点,求每个点到直线EF的距离,找到最大距离的点C,最大距离记为dmax;步骤1.1.3:比较该距离dmax与预先定义的阈值Dmax大小,如果dmax<Dmax,则将该直线EF作为曲线段的近似,曲线段处理完毕;若dmax≥Dmax,则使C点将曲线EF分为EC和CF两段,并分别对这两段进行步骤1.1.1至步骤1.1.3的处理;步骤1.1.4:当所有曲线都处理完毕时,依次连接各个分割点形成的折线,即为原始曲线的路径,分割点组成的点集即为压缩后的轨迹点集;步骤1.2:对压缩点集进行归一化插值;设归一化点集大小为Cmax,对于一组压缩后的轨迹点集H={p1,p2,...,pn},每两个点{pi,pj}之间都是一条拟合的直线轨迹,以pi和pj之间的时间差Timedisi,j与p1和pn时间差的比值作为该线段在整体轨迹中的占比,则pi和pj之间插入轨迹点数为Ii,j=Ri,j*Cmax;对每一段线段执行同样操作,最终得到归一化的轨迹序列{H1,H2,,...,Hi,...,HM},其中每一条轨迹序列Hi长度为Cmax;步骤2:生成目标行为描述短语;即:识别目标的活动意图,并与历史记录作比较,生成特定的文字描述;步骤2.1:计算目标轨迹形状;对时空目标的轨迹形状归类:{Dot:0,StraightLine:1,Circle:2,Ring:3,Mass:4},其中,Dot表示点型,StraightLine表示直线型,Circle表示类圆型,Ring表示圆环型,Mass表示混乱型;其中,轨迹形状归类方法如下:步骤2.1.1:对于一条轨迹序列Hi={p1,p2,...,pn},如果轨迹序列中所有点的坐标偏移量小于阈值δdot,则将轨迹归类为Dot型;否则转步骤2.1.2;其中,地球上的两点X=lat1,lon1和Y=lat2,lon2空间距离DisXY,采用HaverSine公式计算:DisXY=HaverSinvLat+coslat1*coslat2*HaverSinvLonvLat=abslat1-lat2vLon=abslon1-lon2 其中,vlat代表点X的纬度和点Y的纬度差的绝对值,vlon代表点X的经度和点Y的经度差的绝对值;HaverSin表示半正矢公式;abs代表取绝对值;cos表示余弦函数;lat、lon均表示弧度,通过将角度形式经纬度转换得到,转换公式为: 其中,radian代表弧度,degrees代表角度,π表示圆周率;步骤2.1.2:连接点p1和点pn形成一条直线计算p2~pn-1所有点到线段的距离diH,1<i<n;如果diH的最大值不大于设定的阈值δd,则将轨迹归类为StraightLine型;否则转步骤2.1.3;其中,点pi到直线lineH的距离diH由下式计算: 其中,lon1、lat1、lon2、lat2分别是直线lineH两端点的经纬度角度坐标,loni、lati是点pi角度坐标;步骤2.1.3:将所有点p1~pn连接起来,形成一条空间线向量获取该线向量的重心以为圆心,以与点p1的空间距离为半径ri作圆Zi,统计Hi中落在该圆内的点的数量如果大于设定的阈值δZ,则转步骤2.1.5,否则转步骤2.1.4;步骤2.1.4:以ri的34为半径作小圆Zi2,统计Hi中落在小圆Zi2中的点的数量如果小于设定的阈值δC,则将轨迹形状归类为Ring型,否则归类为Circle型;步骤2.1.5:如果不满足以上任意形状的轨迹,则归类为Mass型;步骤2.1.6:轨迹增加Shape属性,其值为其轨迹形状id;步骤2.2:为轨迹数据中的各项属性设定优先级权重,优先级排布为0、1、2...,数字越小,优先级越高,得到属性集列表,并确定各属性的取值是“范围”类还是“有限集”类;步骤2.3:建立任务与属性的决策链;基于步骤2.2中设定的属性优先级,构建基于规则式的分类模型class,如下式所示:class=Modelattr0,attr1,...,attrn其中,attri,i∈[0,n]是按属性优先级排列的时空目标属性,n为属性数量;Model表示定义的分类模型基类;遍历每一种行为模式,依据属性优先级,构建出判别逻辑链,判别链类似决策树的一条路径;步骤2.3.1:对于行为模式列表mList中的任一项mi,设其依赖属性集为即Em是E的子集,将Em按E中优先级权重排序;步骤2.3.2:遍历排序后的属性集Em,如果当前属性mi取值是范围类,则判定当前属性是否满足特定阈值σr,如果满足,则该属性取值为1,如果不满足,则该属性取值为0;如果当前属性mi取值不是范围类,则判断当前属性是否属于特定取值有限集σs,如果属于,则该属性取值为1,不属于则该属性取值为0;步骤2.3.4:如果对于行为模式列表mList中的行为,目标有不同个可能的行为mTemp,则根据同名目标历史行为记录,查询最近的K条记录mK,将mK按频率排序,并将mTemp与排序后的mK作对比,保留规则如下式所示:{mlifmlinmTempandmK.indexmlassmallaspossible}其中,indexml表示ml在mK中的位置,指“在mTemp中出现、且在mK中的位置尽可能靠前”;步骤2.3.5:基于建立的分类模型,将待分类的目标的属性按照属性优先级排列的顺序,构建n元组,传入分类模型,得到目标行为类别标签;步骤3:生成目标位置描述短语;即:识别轨迹列表在地图上所经历的区域,并转化为相对简单的文字短语;包括以下步骤:步骤3.1:收集geojson数据,生成Level0,Level1,...Levelm的多级区划地图,其中Level0由若干个Level1组成,以此类推;为各级区划建立一组多叉树Ts,Ti∈Ts,Ti的根节点rooti为第0级区划,其代表最粗粒度划分的地图,rooti的孩子结点为将rooti进一步细分所得的第1级区划,以此类推,叶子结点为最细粒度的Levelm级区划,并为树中的每一个结点建立指向父亲结点的映射以及指向对应区划地图的映射;步骤3.2:基于步骤2中生成的空间线向量以及步骤3.1中生成的多级区划数据,基于“分治”思想,层级细化对轨迹所经过的区域进行计算;步骤3.2.1:首先,采用Level0级区划地图,依次遍历Level0中所有图层,每个图层是一个面向量,对轨迹线向量和Level0i做相交判定,统计Level0级区域,转步骤3.2.2;步骤3.2.2:步骤3.2.1中统计的Level0级区域,分别调取对应的Level1粒度区划地图;重复以上步骤,直到获得最细粒度Levelm的经过区域列表Areasm,转步骤3.2.3;步骤3.3:基于步骤3.1中建立的多叉树,对步骤3.2中获得的Areasm列表中在地图上相邻的区域进行合并,将指向同一个父亲结点的区划合并成上级区划;步骤3.4:遍历步骤3.3中生成的合并列表Areamerge,对于每一项做如下处理:步骤3.4.1:依次遍历轨迹点列表p1~pn,将每一个点pi与做Intersect判断;步骤3.4.2:统计与相交的轨迹点的数量CAmi;步骤3.4.3:计算与重叠率rHi,如下所示: 步骤3.5:基于包含轨迹点数量和重叠率,分别对Areamerge进行排序,并取两个排序列表中频率最高的三个区域作为活动区域描述;步骤4:将生成的目标行为描述短语和目标位置描述短语嵌入固定句式,生成目标活动文字描述。

全文数据:

权利要求:

百度查询: 北京理工大学 一种基于开源时空数据的时空目标描述文字生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。