searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

一种设备算力综合评估方法

2023-10-20 02:03:48
46
0

一、背景

        算力是设备通过对数据进行处理后实现结果输出的一种能力,在数字经济时代,算力已然成为当前最具活力和创新力的新型生产力。为了解决算力资源存在区域和行业分配不均、供需不匹配的问题,算力交易服务应运而生。算力交易服务通过整合海量闲置算力和低成本低能耗算力资源形成算力资源池,承接算力需求方的计算任务,对算力资源进行统一调度,极大提升算力的使用效率,促进算力经济发展,实现节能减排。
对异构设备的算力进行有效评估是合理利用算力的一个重要条件。从广义上讲,算力是一个包含了计算、存储、传输(网络)要素的综合能力。现有的算力评估方案主要有两类:


1)基于计算能力进行单一维度评估的方案。如当前使用最广泛的浮点运算性能方法,其通过单位时间内完成的高精度浮点运算次数来评估设备的算力。该类评估方案的问题是忽略了除计算能力以外的存储、传输(网络)要素对数据处理过程的重要影响,具有较大的局限性和片面性。


2)基于算力模型进行评分的方案。这类方案采用评分的方式,将设备的计算、存储、传输(网络)要素分开进行独立评估,基于模型计算一个得分数。其根据得分数将设备的算力简单地划分为几个等级,只是评估设备的整体算力水平,不能显著区分出同一个算力等级区间设备的真实算力差异,一般仅用于对数据中心进行算力等级分类。


        可以看到现有的两类算力评估方案均存在对设备算力评估不准确的问题,亟需一个更有效的方法来将算力的要素充分表达出来,从而更加全面地反映设备的真实算力、提供可靠的算力评估结果。

二、综合评估方案

        设备算力综合评估方案是基于工作量证明,并在实施工作量证明的过程中引入数据网络传输和数据存储读写操作,实现对设备的计算、存储、传输(网络)要素的综合能力评估。
       

        该技术方案涉及到两个角色,分别为计算服务平台和计算设备,其中计算服务平台为计算设备提供算力综合评估服务。具体包括:

1)计算服务平台提供算力种子,计算设备获取算力种子,生成算力DAG数据集(D1)。计算服务平台的算力种子可以进行周期性更新,算力DAG数据集必须使用最新的算力种子进行计算,设备可以独立计算,也可以直接从其它设备同步。算力DAG数据集生成方式是将其划分为N个子集,每个子集的内容采用不可逆的映射方式(如Hash)依赖于前面已生成的部分子集,形成数据的有向性和随机性。算力DAG数据集作为工作量证明的数据源之一,其在工作量证明期间一般保存在内存中,以充分发挥存储介质的读写能力,但不限制使用其它存储介质。算力DAG数据集(D1)的大小一般接近可用内存空间大小(减去预留给存储算力挑战任务数据和算力挑战任务结果的存储空间),但不限制使用其它容量规格。算力DAG数据集可以在工作量证明完成后转存到外存介质,在下一次算力挑战前重新载入内存。


2)计算设备收集并上报本地设备信息,发起算力挑战。计算设备收集的本地设备信息包括计算设备支持的计算单元的类型、频率和使用率等信息,但不限制同时收集其它软硬件信息,以方便计算服务平台提供有针对性的挑战任务参数。


3)计算服务平台为计算设备分发算力挑战任务。计算服务平台根据计算设备上报的软硬件信息,完成符合其设备规格的算力挑战任务难度系数(d)和随机数据(D2)生成,同时记录下时间点t1作为计算设备算力挑战任务的开始时间,并下发算力挑战任务给计算设备。计算服务平台支持的计算单元类型不限于CPU、GPU、FPGA,还可以包括TPU、NPU等各类ASCI计算单元。算力挑战任务的难度系数是根据计算设备的计算单元类型、频率和使用率等信息计算出的一个数值,作用是使所有计算设备的算力挑战任务控制在一个合理的预期时间T内完成。算力挑战任务随机数据的生成可以在接收到算力挑战请求时实时生成,也可以采用预生成方式缓存起来,在接收到计算设备算力挑战请求时直接从缓存中获取符合规格的数据进行下发。算力挑战任务的数据采用随机生成是为了避免数据复用导致计算设备在工作量证明中进行作弊的可能。算力挑战数据(D2)的另一个作用是评估计算设备的下行网络传输能力,可以通过变更算力挑战任务数据的大小来调整下行网络传输能力在算力综合评估中的比重。


4)计算设备进行工作量证明。计算设备完成接收算力挑战任务随机数据后开始进行工作量证明,工作量证明是寻找满足难度系数随机数的过程。用户生成随机数Nonce,计算一个关于Nonce、算力挑战数据、DAG数据集的Hash值,如果Hash值满足难度系数要求,则完成算力任务挑战。其中难度系数可以表示为一串二进制数据以0开始连续的0串长度,根据概率论来评估计算终端为寻找满足难度系数Hash值所进行的计算量,具有数学上的可靠性保证。其中参与计算的DAG数据集的数据片段是根据Nonce和算力挑战数据选取的,具有随机性和可验证性,如用 Hash(Nonce, 算力挑战数据) % N的结果来选取DAG数据集的一个子集(D3)。确定DAG数据子集后,则可以计算Hash(Nonce,算力挑战数据,选取的DAG数据子集)的结果,如果本次计算结果满足挑战任务的难度系数要求,则完成工作量证明,否则重新寻找下一个Nonce。在进行工作量证明中可以对DAG数据子集进行复用次数(n)设置,这样就可以通过变更DAG数据子集的长度和复用次数来调整存储读取性能在算力综合评估中的比重。完成工作量证明后,用得到的Nonce进行Hash生成DAG数据(D4),并将DAG数据的部分(D5)和Nonce一起作为计算结果提交给计算服务平台。其中DAG数据(D4)是用于评估计算设备存储写入性能,可以通过变更其大小来调整存储写入性能在算力综合评估中的比重。其中数据(D5)是用于评估计算设备的上行网络传输能力,可以通过变更其大小来调整上行网络传输能力在算力综合评估中的比重。


5)计算平台进行算力综合评估。计算平台在完成接收计算设备提交的算力挑战任务结果时,记录时间点t2,并对计算结果进行验证。验证方式是根据计算设备提交的Nonce执行同样的hash运算确认计算结果满足难度系数要求,并执行并行验证数据(D5)是由满足难度系数要求的Nonce所计算生成。算力挑战任务结果验证通过,则整个算力算力挑战任务的总耗时为t = t2 – t1,根据t和难度系数值(d)可以计算出设备的算力值,完成计算设备终端的综合算力评估。

三、总结

        本技术方案解决了现有算力评估方法维度单一、不能真实反映计算设备算力的问题。使用一种综合计算、存储、传输(网络)要素的工作量证明方法,实现对异构计算终端算力的有效评估,具有简单、客观、准确的特点。同时其支持各要素在算力中的比重调节手段,可满足定制化的算力评估需求。

0条评论
0 / 1000
w****n
14文章数
1粉丝数
w****n
14 文章 | 1 粉丝
w****n
14文章数
1粉丝数
w****n
14 文章 | 1 粉丝
原创

一种设备算力综合评估方法

2023-10-20 02:03:48
46
0

一、背景

        算力是设备通过对数据进行处理后实现结果输出的一种能力,在数字经济时代,算力已然成为当前最具活力和创新力的新型生产力。为了解决算力资源存在区域和行业分配不均、供需不匹配的问题,算力交易服务应运而生。算力交易服务通过整合海量闲置算力和低成本低能耗算力资源形成算力资源池,承接算力需求方的计算任务,对算力资源进行统一调度,极大提升算力的使用效率,促进算力经济发展,实现节能减排。
对异构设备的算力进行有效评估是合理利用算力的一个重要条件。从广义上讲,算力是一个包含了计算、存储、传输(网络)要素的综合能力。现有的算力评估方案主要有两类:


1)基于计算能力进行单一维度评估的方案。如当前使用最广泛的浮点运算性能方法,其通过单位时间内完成的高精度浮点运算次数来评估设备的算力。该类评估方案的问题是忽略了除计算能力以外的存储、传输(网络)要素对数据处理过程的重要影响,具有较大的局限性和片面性。


2)基于算力模型进行评分的方案。这类方案采用评分的方式,将设备的计算、存储、传输(网络)要素分开进行独立评估,基于模型计算一个得分数。其根据得分数将设备的算力简单地划分为几个等级,只是评估设备的整体算力水平,不能显著区分出同一个算力等级区间设备的真实算力差异,一般仅用于对数据中心进行算力等级分类。


        可以看到现有的两类算力评估方案均存在对设备算力评估不准确的问题,亟需一个更有效的方法来将算力的要素充分表达出来,从而更加全面地反映设备的真实算力、提供可靠的算力评估结果。

二、综合评估方案

        设备算力综合评估方案是基于工作量证明,并在实施工作量证明的过程中引入数据网络传输和数据存储读写操作,实现对设备的计算、存储、传输(网络)要素的综合能力评估。
       

        该技术方案涉及到两个角色,分别为计算服务平台和计算设备,其中计算服务平台为计算设备提供算力综合评估服务。具体包括:

1)计算服务平台提供算力种子,计算设备获取算力种子,生成算力DAG数据集(D1)。计算服务平台的算力种子可以进行周期性更新,算力DAG数据集必须使用最新的算力种子进行计算,设备可以独立计算,也可以直接从其它设备同步。算力DAG数据集生成方式是将其划分为N个子集,每个子集的内容采用不可逆的映射方式(如Hash)依赖于前面已生成的部分子集,形成数据的有向性和随机性。算力DAG数据集作为工作量证明的数据源之一,其在工作量证明期间一般保存在内存中,以充分发挥存储介质的读写能力,但不限制使用其它存储介质。算力DAG数据集(D1)的大小一般接近可用内存空间大小(减去预留给存储算力挑战任务数据和算力挑战任务结果的存储空间),但不限制使用其它容量规格。算力DAG数据集可以在工作量证明完成后转存到外存介质,在下一次算力挑战前重新载入内存。


2)计算设备收集并上报本地设备信息,发起算力挑战。计算设备收集的本地设备信息包括计算设备支持的计算单元的类型、频率和使用率等信息,但不限制同时收集其它软硬件信息,以方便计算服务平台提供有针对性的挑战任务参数。


3)计算服务平台为计算设备分发算力挑战任务。计算服务平台根据计算设备上报的软硬件信息,完成符合其设备规格的算力挑战任务难度系数(d)和随机数据(D2)生成,同时记录下时间点t1作为计算设备算力挑战任务的开始时间,并下发算力挑战任务给计算设备。计算服务平台支持的计算单元类型不限于CPU、GPU、FPGA,还可以包括TPU、NPU等各类ASCI计算单元。算力挑战任务的难度系数是根据计算设备的计算单元类型、频率和使用率等信息计算出的一个数值,作用是使所有计算设备的算力挑战任务控制在一个合理的预期时间T内完成。算力挑战任务随机数据的生成可以在接收到算力挑战请求时实时生成,也可以采用预生成方式缓存起来,在接收到计算设备算力挑战请求时直接从缓存中获取符合规格的数据进行下发。算力挑战任务的数据采用随机生成是为了避免数据复用导致计算设备在工作量证明中进行作弊的可能。算力挑战数据(D2)的另一个作用是评估计算设备的下行网络传输能力,可以通过变更算力挑战任务数据的大小来调整下行网络传输能力在算力综合评估中的比重。


4)计算设备进行工作量证明。计算设备完成接收算力挑战任务随机数据后开始进行工作量证明,工作量证明是寻找满足难度系数随机数的过程。用户生成随机数Nonce,计算一个关于Nonce、算力挑战数据、DAG数据集的Hash值,如果Hash值满足难度系数要求,则完成算力任务挑战。其中难度系数可以表示为一串二进制数据以0开始连续的0串长度,根据概率论来评估计算终端为寻找满足难度系数Hash值所进行的计算量,具有数学上的可靠性保证。其中参与计算的DAG数据集的数据片段是根据Nonce和算力挑战数据选取的,具有随机性和可验证性,如用 Hash(Nonce, 算力挑战数据) % N的结果来选取DAG数据集的一个子集(D3)。确定DAG数据子集后,则可以计算Hash(Nonce,算力挑战数据,选取的DAG数据子集)的结果,如果本次计算结果满足挑战任务的难度系数要求,则完成工作量证明,否则重新寻找下一个Nonce。在进行工作量证明中可以对DAG数据子集进行复用次数(n)设置,这样就可以通过变更DAG数据子集的长度和复用次数来调整存储读取性能在算力综合评估中的比重。完成工作量证明后,用得到的Nonce进行Hash生成DAG数据(D4),并将DAG数据的部分(D5)和Nonce一起作为计算结果提交给计算服务平台。其中DAG数据(D4)是用于评估计算设备存储写入性能,可以通过变更其大小来调整存储写入性能在算力综合评估中的比重。其中数据(D5)是用于评估计算设备的上行网络传输能力,可以通过变更其大小来调整上行网络传输能力在算力综合评估中的比重。


5)计算平台进行算力综合评估。计算平台在完成接收计算设备提交的算力挑战任务结果时,记录时间点t2,并对计算结果进行验证。验证方式是根据计算设备提交的Nonce执行同样的hash运算确认计算结果满足难度系数要求,并执行并行验证数据(D5)是由满足难度系数要求的Nonce所计算生成。算力挑战任务结果验证通过,则整个算力算力挑战任务的总耗时为t = t2 – t1,根据t和难度系数值(d)可以计算出设备的算力值,完成计算设备终端的综合算力评估。

三、总结

        本技术方案解决了现有算力评估方法维度单一、不能真实反映计算设备算力的问题。使用一种综合计算、存储、传输(网络)要素的工作量证明方法,实现对异构计算终端算力的有效评估,具有简单、客观、准确的特点。同时其支持各要素在算力中的比重调节手段,可满足定制化的算力评估需求。

文章来自个人专栏
隐私计算
3 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0