首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种高性能计算应用的性能监测系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:国家超级计算天津中心

摘要:本发明涉及一种高性能计算应用的性能监测系统,包括:数据采集客户端,用于实时采集一个或多个集群上的高性能计算应用的性能指标数据;数据收集服务器,用于从数据采集客户端获取所述性能指标数据,并存储至数据存储服务器中;数据存储服务器,用于存储所述性能指标数据;作业信息获取模块,部署在每一集群的边界节点上,用于获取一个或多个待监测作业的作业信息,并根据所述作业信息从所述数据存储服务器中获取待监测作业对应的目标性能指标数据;监测结果确定模块,用于基于待监测作业对应的目标性能指标数据,确定单个作业的监测结果,或者确定多个作业的监测结果。本发明能够实时监测相同或不同集群上的单个或多个高性能计算应用的性能。

主权项:1.一种高性能计算应用的性能监测系统,其特征在在于,包括:数据采集客户端,用于实时采集一个或多个集群上的高性能计算应用的性能指标数据;数据收集服务器,用于从所述数据采集客户端获取所述性能指标数据,并存储至数据存储服务器中;数据存储服务器,用于存储所述性能指标数据;作业信息获取模块,部署在每一所述集群的边界节点上,用于获取一个或多个待监测作业的作业信息,并根据所述作业信息从所述数据存储服务器中获取所述待监测作业对应的目标性能指标数据,其中,所述作业是指应用运行的一次过程,每一所述作业由对应集群中的多个节点执行,所述作业信息包括作业id、作业对应的集群id,作业对应的应用信息、作业的起始时间信息;监测结果确定模块,用于基于所述待监测作业对应的目标性能指标数据,确定单个作业的监测结果,或者确定多个作业的监测结果,所述多个作业为不同集群的同类作业、同集群的不同作业、同集群的同类作业或不同集群的不同作业;所述监测结果确定模块包括第一性能监测单元,用于基于单个待监测作业对应的目标性能指标数据确定所述单个作业的监测结果,具体采用改进多层级roofline折线图、雷达图、时序图或节点热力图的方式确定所述单个作业的监测结果;当所述第一性能监测单元采用改进多层级roofline折线图监测单个作业时,具体用于:分别采用算力与访存带宽和算力与文件系统访问带宽的关系对单个作业进行监测,设定算力为π,访存带宽为β,访问带宽为γ,则访存计算强度上限为: 文件系统计算强度上限为: 当小于访存计算强度上限Immax时,则判断所述访存带宽导致的应用性能受限;当小于文件系统计算强度上限Ifmax时,则判断所述访问带宽导致的应用性能受限;当大于等于访存计算强度上限Immax时,则判断所述算力导致应用性能受限;当大于等于文件系统计算强度上限Ifmax时,则判断所述算力导致应用性能受限;所述监测结果确定模块包括第二性能监测单元,用于基于多个待监测作业对应的目标性能指标数据确定所述多个作业的监测结果,具体包括:根据所需对比的参数,获取每一作业的每一目标性能数据对应的第一对比参数、第二对比参数、第三对比参数和第四对比参数中的至少一个,其中:在每一作业运行时间段内,设定Metric为指标名称变量,n为节点名称变量,dy为某个时间点的指标数据,每个节点的某一个指标的指标集记为Metricn={d1,d2,d3,d4.....dy-3,dy-2,dy-1,dy},一个作业包含一或多个节点的指标数据,设定job为作业id,cluster为集群id,则每个作业的某个指标的指标集则记为: 第一对比参数的计算公式为:minvalue=minMetriccluster_job;其中,min表示计算一组数据最小值;第二对比参数的计算公式为:maxvalue=maxMetriccluster_job;其中,max表示计算一组数据最大值;第三对比参数的计算公式为: 其中,len表示求一组数据的长度;第四对比参数的计算公式为: 其中,avg表示avgvalue的简称;将所有待监测作业对应的目标性能指标数据对应的第一对比参数、第二对比参数、第三对比参数和第四对比参数进行综合对比,确定资源利用率最高的应用。

全文数据:

权利要求:

百度查询: 国家超级计算天津中心 一种高性能计算应用的性能监测系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术