首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于大数据的身体健康评估系统_西安澎湃跃动电子科技有限公司_202410420064.0 

申请/专利权人:西安澎湃跃动电子科技有限公司

申请日:2024-04-09

公开(公告)日:2024-06-21

公开(公告)号:CN118016240B

主分类号:G16H20/30

分类号:G16H20/30;G06F18/23;G06N7/01;G16H50/30

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.05.28#实质审查的生效;2024.05.10#公开

摘要:本发明公开了一种基于大数据的身体健康评估系统,系统包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块。本发明属于数据处理技术领域,具体是指一种基于大数据的身体健康评估系统,本方案基于定义高维距离度量函数确定边权重,进而构建拓扑图并基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;提高数据的准确性和处理效率;基于差异指数识别离群样本,基于万有引力系数优化数据集位置,提高算法适应性;基于高维距离度量函数进行聚类,进而提高健康评估系统的精准性;基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略。

主权项:1.一种基于大数据的身体健康评估系统,其特征在于:系统包括数据采集模块、样本二次切除模块、数据集优化模块、聚类处理模块和超参数设置模块;所述数据采集模块采集历史数据和实时数据;所述样本二次切除模块通过定义高维距离度量函数,基于样本权重进行初次剪切,基于样本权重概率密度和自适应权重阈值进行二次剪切;所述数据集优化模块基于差异指数识别离群样本,基于万有引力系数优化数据集位置;所述聚类处理模块基于高维距离度量函数进行聚类,基于轮盘赌选择法选择聚类中心,基于簇标签确定身体健康评估结果;所述超参数设置模块基于高斯分布函数和个体适应度值设计游走学习权重;对不同适应度值个体分别设计移动策略,从而对系统内部参数进行优化;所述样本二次切除模块具体包括以下内容:定义高维距离度量函数,用于计算每个数据维度的相似性,所用公式如下: ;式中,hd1·是高维距离度量函数,x和y是样本数据;d1是数据维度数;xi1和yi1分别是样本x和样本y在第i1维度的位置;f是控制距离度量的参数;确定边权重,并基于边权重构建拓扑图,节点表示样本数据,每个节点与其k个最近邻节点相连,边的权重如下公式确定: ;式中,ωij是节点oi和节点oj之间边的权重;O是节点集;op和oq是节点集中两个不同的节点;剪切无效边,计算样本权重,预先设有样本权重阈值,当样本权重低于样本权重阈值时,剪切与样本直接相关的边;所用公式如下: ;式中,Wi是第i个样本的权重;是节点oi的k个近邻节点集合;k是最近邻数量;计算概率密度,基于核密度估计函数计算样本权重的概率密度,所用公式如下: ;式中,p·是样本权重的概率密度函数,W是待估计权重;n是样本数量;h是带宽参数;K·是高斯核函数;二次剪切,计算自适应权重阈值,对低于自适应权重阈值的样本进行二次剪切,所用公式如下: ; ;式中,是权重阈值,pmin·是最小概率密度;是p·的反函数的最小值;所述超参数设置模块具体包括以下内容:搜索种群初始化,基于所搜索的阈值与参数建立搜索空间,初始化搜索个体位置,将归一化后的基于个体位置聚类迭代k次后的聚类结果的平均差异指数作为个体适应度值,初始化个体位置所用公式如下: ;式中,是第I个搜索个体第d维度的位置;Upd和Lowd分别是第d维度的搜索上限和搜索下限;划分等级,基于个体适应度值进行降序处理,按照3:3:4的比例划分为A组、B组和C组;设计游走学习权重,所用公式如下: ;式中,Gw是游走学习权重;G·是高斯分布函数;PI是第I个体的适应度值;PbestP是最优个体的适应度值;g是随机游走参数,g是模块内部超参数;ε和是相互独立的0到1范围内的随机值;是个体历史最优适应度值;设计移动策略,分别对三个组的个体设计移动策略,对于高适应度值的个体减少随机性,对于低适应度值的个体增加随机性,所用公式如下: ; ; ;式中,Ax、Bx和Cx分别是三个组的个体表示;PrA、PrB和PrC分别是三个组内随机个体的适应度值;Ind是从1和2随机选择的数;是B组个体第d维度的平均位置;、和分别是A组、B组和C组个体在第t+1次迭代时的位置;是B组随机个体在第t次迭代时的位置;搜索判定,预先设有适应度阈值,当存在个体适应度值高于适应度阈值时,搜索结束,基于个体位置设置超参数;若达到最大迭代次数则重新初始化种群位置进行搜索;否则重新划分组迭代搜索;所述数据集优化模块具体包括以下内容:计算差异指数,将被切除的数据作为离群样本,将离群样本与其k个最近邻作为一组,计算每个离群样本的差异指数,预先设有差异阈值,当离群样本的差异指数低于差异阈值时,恢复为样本数据,不予切除,所用公式如下: ;式中,R是差异指数,用于衡量组间不相似性与组内不相似性之间的差异;和分别是组间不相似性的平均秩和组内不相似性的平均秩;优化数据集,基于万有引力系数迭代调整样本位置,以备后续聚类处理,所用公式如下: ; ;式中,是原样本位置,是优化后的样本位置;T是迭代次数;c是时间段数量,Gl是第l个时间段的万有引力系数;s是每个时间段的样本数量;和分别是样本和样本的最近有效邻居位置;和分别是样本和样本在第l时间段的位置;n是样本总量;所述聚类处理模块具体包括以下内容:确定聚类中心,随机选择一个数据点作为初始聚类中心,对于每个数据点,将高维距离度量函数值作为它到当前存在的聚类中心的距离,计算最短距离,表示为Dx,然后计算每个样本被选为下一个聚类中心的概率,最后根据轮盘赌选择法选择聚类中心,直到选择了k个聚类中心,聚类中心数量和最近邻数量相同,所用公式如下: ;式中,P是数据点被选为下一聚类中心的概率;x是数据点;X是数据集;计算关联程度,计算每个点与每个聚类中心的关联程度,表示为uj1i,所用公式如下: ;式中,dj1i是第i个数据点和第j1个聚类中心的高维距离度量值;dk1i是第i个数据点和第k1个聚类中心的高维距离度量值;c是聚类数量;m是模糊度参数,是超参数;更新聚类中心,所用公式如下: ;式中,vj1是更新后的第j1个聚类中心;聚类判定,预先设有聚类阈值,若聚类中心收敛或各簇的差异指数低于聚类阈值时,聚类结束,将同一个簇的历史数据最多数量的标签作为簇标签,将实时数据对应的簇标签作为身体健康评估结果;若达到最大迭代次数,则重新初始化聚类中心;否则继续迭代聚类。

全文数据:

权利要求:

百度查询: 西安澎湃跃动电子科技有限公司 一种基于大数据的身体健康评估系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。