Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于整数深度学习原语的动态精度管理 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:英特尔公司

摘要:一个实施例提供图形处理单元以执行与神经网络相关联的计算,图形处理单元包括:计算单元,其包括具有动态精度定点逻辑的硬件逻辑单元;解码单元,其对指令解码以用于由计算单元执行,指令使计算单元对一组动态定点张量执行矩阵算术运算;以及动态精度管理器,其动态地调节在矩阵算术运算期间由计算单元执行的计算操作的精度,动态精度管理器调节,其调节计算操作的精度以防止算术溢出。

主权项:1.一种用于执行与神经网络相关联的计算的图形处理单元,所述图形处理单元包括:计算单元,其包括具有动态精度定点逻辑的硬件逻辑单元;解码单元,其用于对指令进行解码以用于由所述计算单元执行,所述指令使所述计算单元对一组动态定点张量执行矩阵算术运算;以及动态精度管理器,其用于动态地调节在所述矩阵算术运算期间由所述计算单元执行的计算操作的精度,所述动态精度管理器调节所述计算操作的精度以防止算术溢出。

全文数据:用于整数深度学习原语的动态精度管理[0001]交叉引用[0002]本申请也要求2017年5月5日提交的美国暂时性专利申请号62501,796的权益,其通过引用被全部并入本文。技术领域[0003]实施例通常涉及数据处理,并且更特别地涉及经由通用图形处理单元进行数据处理。背景技术[0004]当前的并行图形数据处理包括被开发来对图像数据执行特定的操作(例如,线性内插、曲面细分、光栅化、纹理映射、深度测试等)的系统和方法。在传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的部分变得可编程,使这样的处理器能够支持用于处理顶点和片段数据的各种各样的操作。[0005]为了进一步增加性能,图形处理器一般实现处理技术,例如流水线,其试图贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程S頂T架构的并行图形处理器被设计为使得在图形流水线中的并行处理的量最大化。在SMT架构中,几组并行线程试图尽可能经常地一起同步地执行程序指令以增加处理效率。可在ShaneCook的“CUDAProgramming”(第3章,37-51页(2013和或NicholasWilt的CUDAHandbookuAComprehensiveGuidetoGF1UProgramming”(章节2.6.2到3.1.22013年6月)中找到SIMT架构的软件和硬件的一般概述。附图说明[0006]为了使本发明的特征可被详细地理解,可通过参考实施例来做出对本发明的更特定的描述,其中一些实施例在附图中示出。然而应注意,附图仅示出一般实施例,并且因此不应被考虑为所有实施例的范围的限制。[0007]图1是示出了被配置为实现本文所述的实施例的一个或多个方面的计算机系统的方框图;[0008]图2A-图2D示出了根据实施例的并行处理器部件;[0009]图3A-图3B是根据实施例的图形微处理器的方框图;[0010]图4A-图4F示出了示例性架构,其中多个GPU通信地耦合到多个多核处理器;[0011]图5示出了根据实施例的图形处理流水线;[0012]图6示出了根据实施例的机器学习软件堆栈;[0013]图7示出了根据实施例的高度并行通用图形处理单元;[0014]图8示出了根据实施例的多GPU计算系统;[0015]图9A-图9B示出了示例性深度神经网络的层;[0016]图10示出了示例性递归神经网络;[0017]图11示出了深度神经网络的训练和部署;[0018]图12是示出了分布式学习的方框图;[0019]图13示出了适合于使用所训练的模型来执行推理的示例性推理片上系统SOC;[0020]图14示出了根据实施例的在浮点格式和动态定点格式之间的比较;[0021]图15A示出了根据实施例的动态定点量化;[0022]图15B示出了根据实施例的解量化;[0023]图16A示出了根据本文所述的实施例的用于算术运算和向下转换的等式;[0024]图16B示出了根据实施例的用于硬件加速动态定点原语的等式;[0025]图17示出了根据实施例的浮点到动态定点有偏舍入;[0026]图18示出了根据实施例的多处理器单元的方框图;[0027]图19A-图19B示出了根据实施例的可被配置有动态精度能力的逻辑单元;[0028]图20示出了根据实施例的用于实现对整数深度学习原语的动态精度管理的逻辑的方框图;[0029]图21A-图21D示出了根据本文所述的实施例的封闭动态定点和低精度浮点数据;[0030]图22是根据实施例的处理系统的方框图;[0031]图23是根据实施例的处理器的方框图;[0032]图24是根据实施例的图形处理器的方框图;[0033]图25是根据一些实施例的图形处理器的图形处理引擎的方框图;[0034]图26是由额外的实施例提供的图形处理器的方框图;[0035]图27示出了包括在一些实施例中采用的处理元件的阵列的线程执行逻辑;[0036]图28是示出了根据一些实施例的图形处理器指令格式的方框图;[0037]图29是根据另一实施例的图形处理器的方框图;[0038]图30A-图30B示出了根据一些实施例的图形处理器命令格式和命令序列;[0039]图31示出了根据一些实施例的用于数据处理系统的示例性图形软件架构;[0040]图32是示出了根据实施例的IP核心开发系统的方框图;[0041]图33是示出了根据实施例的示例性片上系统集成电路的方框图;[0042]图34是示出了根据实施例的额外的图形处理器的方框图;以及[0043]图35是示出了根据实施例的片上系统集成电路的额外的示例性图形处理器的方框图。具体实施方式[0044]在一些实施例中,图形处理单元GPU通信地耦合到主机处理器核心以加速图形操作、机器学习操作、图样分析操作和各种通用GPUGPGPU功能。GPU可通过总线或另一互连例如高速互连,例如PCIe或NVLink通信地耦合到主机处理器核心。在其它实施例中,GHJ可与核心集成在同一封装或芯片上,并通过内部处理器总线互连(S卩,在封装或芯片内部通信地耦合到核心。不考虑GPU被连接的方式,处理器核心可以以被包含在作业描述符中的命令指令的序列的形式将作业分配到GPUt3GPU然后使用专用电路逻辑以用于有效地处理这些命令指令。[0045]在下文的描述中,阐述了很多特定的细节以提供更彻底的理解。然而,对本领域中的技术人员显而易见的是,可在没有这些特定细节的一个或多个的情况下实践本文所述的实施例。在其它实例中,没有描述公知的特征以避免使当前实施例的细节模糊。[0046]系统概述[0047]图1是示出了被配置为实现本文所述的实施例的一个或多个方面的计算系统100的方框图。计算系统100包括处理子系统101,其具有一个或多个处理器102和经由可包括存储器集线器105的互连路径进行通信的系统存储器104。存储器集线器105可以是在芯片组部件内的单独部件或可集成在一个或多个处理器102内。存储器集线器105经由通信链路106与IO子系统111耦合。IO子系统111包括IO集线器107,其可使计算系统100能够从一个或多个输入设备108接收输入。此外,IO集线器107可实现可被包括在一个或多个处理器102中的显示控制器以向一个或多个显示设备IlOA提供输出。在一个实施例中,与IO集线器107耦合的一个或多个显示设备IlOA可包括本地、内部或嵌入式显示设备。[0048]在一个实施例中,处理子系统101包括经由总线或其它通信链路113耦合到存储器集线器105的一个或多个并行处理器112。通信链路113可以是任何数量的基于标准的通信链路技术或协议中的一个,所述基于标准的通信链路技术或协议例如但不限于快速PCI,或可以是供应商特定通信接口或通信结构。在一个实施例中,一个或多个并行处理器112形成包括大量处理核心和或处理集群的在计算上聚焦的并行或矢量处理系统,例如多核集成MIC处理器。在一个实施例中,一个或多个并行处理器112形成图形处理子系统,其可将像素输出到经由IO集线器107耦合的一个或多个显示设备IlOA中的一个。一个或多个并行处理器112也可包括显示控制器和显示接口(未示出)以实现到一个或多个显示设备IlOB的直接连接。[0049]在IO子系统111内,系统存储单元114可连接到IO集线器107以针对计算系统100提供存储机制。IO开关116可用于提供接口机制以实现在IO集线器107和其它部件之间的连接,其它部件是例如网络适配器118和或可集成到平台内的无线网络适配器119和可经由一个或多个附件设备120而添加的各种其它设备。网络适配器118可以是以太网适配器或另一有线网络适配器。无线网络适配器119可包括Wi-Fi、蓝牙、近场通信NFC或包括一个或多个无线电装置的其它网络设备中的一个或多个。[0050]计算系统100可包括未明确示出的其它部件,包括USB或其它端口连接、光学存储驱动器、视频捕获设备等,也可连接到IO集线器107。可使用任何适当的协议例如,基于PCI外围部件互连)的协议例如,快速PCI或任何其它总线或点对点通信接口和或协议例如,NV-链路高速互连或在本领域中已知的互连协议来实现使图1中的各种部件互连的通信路径。[0051]在一个实施例中,一个或多个并行处理器112合并被优化以用于图形和视频处理的电路,包括例如视频输出电路,并构成图形处理单元GPU。在另一实施例中,一个或多个并行处理器112合并被优化以用于通用处理的电路,同时维持在本文更详细描述的基本计算架构。在又一实施例中,计算系统100的部件可与一个或多个其它系统一起集成在单个集成电路上。例如,一个或多个并行处理器112、存储器集线器105、处理器102和IO集线器107可集成到片上系统(SoC集成电路内。可选地,计算系统100的部件可集成到单个封装内以形成系统级封装SIP配置。在一个实施例中,计算系统100的部件的至少一部分可集成到多芯片模块MCM内,多芯片模块可与其它多芯片模块一起互连到模块化计算系统内。[0052]将认识到,本文所示的计算系统100是示出性的,以及变化和修改是可能的。可按需要修改连接拓扑,包括桥的数量和布置、处理器102的数量和并行处理器112的数量。例如,在一些实施例中,系统存储器104直接地而不是通过桥来连接到处理器102,同时其它设备经由存储器集线器105和处理器102与系统存储器104通信。在其它可选的拓扑中,并行处理器112连接到IO集线器107或直接连接到一个或多个处理器102中的一个而不是连接到存储器集线器105。在其它实施例中,IO集线器107和存储器集线器105可集成到单个芯片内。一些实施例可包括经由多个插槽附接的两个或更多组处理器102,插槽可与并行处理器112的两个或更多个实例耦合。[0053]本文所述的特定部件中的一些是可选的,并且可以不被包括在计算系统100的所有实现中。例如,可支持任何数量的附加卡或外围设备,或可消除一些部件。此外,一些架构可针对与图1所示的部件类似的部件使用不同的术语。例如,在一些架构中存储器集线器105可被称为北桥,而IO集线器107可被称为南桥。[0054]图2A示出了根据实施例的并行处理器200。可使用一个或多个集成电路设备(例如,可编程处理器、专用集成电路ASIC或现场可编程门阵列(FPGA来实现并行处理器200的各种部件。根据实施例,所示的并行处理器200是图1所示的一个或多个并行处理器112的变形。[0055]在一个实施例中,并行处理器200包括并行处理单元202。并行处理单元包括IO单元204,其实现与包括并行处理单元202的其它实例的其它设备的通信。IO单元204可直接连接到其它设备。在一个实施例中,IO单元204经由集线器或开关接口(例如存储器集线器105的使用与其它设备连接。在存储器集线器105和IO单元204之间的连接形成通信链路113。在并行处理单元202内,IO单元204与主机接口206和存储器交叉开关216连接,其中主机接口206接收涉及执行处理操作的命令,而存储器交叉开关216接收涉及执行存储器操作的命令。[0056]当主机接口206经由IO单元204接收命令缓冲器时,主机接口206可将用于执行那些命令的作业操作引导到前端208。在一个实施例中,前端208与调度器210耦合,调度器210被配置为将命令或其它作业项目分配到处理集群阵列212。在一个实施例中,在任务被分发到处理集群阵列212的处理集群之前,调度器210确保处理集群阵列212正确地被配置并且在有效状态中。在一个实施例中,经由在微控制器上执行的固件逻辑来实现调度器210。微控制器实现的调度器210可被配置为在粗和细粒度下执行复杂的调度和作业分发操作,实现在处理阵列212上执行的线程的快速先占和上下文切换。在一个实施例中,主机软件可经由多个图形处理门铃中的一个来证明用于在处理阵列212上调度的工作负载。工作负载可接着由在调度器微控制器内的调度器210的逻辑自动分发在整个处理阵列212中。[0057]处理集群阵列212可包括多达“N”个处理集群(例如集群214A、集群214B到集群214N。处理集群阵列212的每个集群214A-214N可执行大量并发线程。调度器210可使用各种调度和或作业分配算法来将作业分配到处理集群阵列212的集群214A-214N,调度和或作业分配算法可取决于针对每种类型的程序或计算产生的工作负载而改变。调度可由调度器210动态地操纵,或可在被配置用于由处理集群阵列212执行的程序逻辑的编译期间部分地由编译器逻辑帮助。在一个实施例中,处理集群阵列212的不同集群214A-214N可被分配以用于处理不同类型的程序或用于执行不同类型的计算。[0058]处理集群阵列212可被配置为执行各种类型的并行处理操作。在一个实施例中,处理集群阵列212被配置为执行通用并行计算操作。例如,处理集群阵列212可包括用于执行处理任务的逻辑,处理任务包括视频和或音频数据的过滤、执行包括物理操作的建模操作,以及执行数据变换。[0059]在一个实施例中,处理集群阵列212被配置为执行并行图形处理操作。在并行处理器200被配置为执行图形处理操作的实施例中,处理集群阵列212可包括用于支持这样的图形处理操作的执行的额外的逻辑,包括但不限于用于执行纹理操作的纹理采样逻辑以及曲面细分逻辑和其它顶点处理逻辑。此外,处理集群阵列212可被配置为执行图形处理相关的着色器程序,例如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。并行处理单元202可经由IO单元204从系统存储器传送数据以用于处理。在处理期间,所传送的数据可在处理期间存储到片上存储器例如并行处理器存储器222,然后被写回到系统存储器。[0060]在一个实施例中,当并行处理单元202用于执行图形处理时,调度器210可被配置为将处理工作负载划分为近似相等大小的任务,以更好地实现图形处理操作到处理集群阵列212的多个集群214A-214N的分发。在一些实施例中,处理集群阵列212的部分可被配置为执行不同类型的处理。例如,第一部分可被配置为执行顶点着色和拓扑生成,第二部分可被配置为执行曲面细分和几何着色,以及第三部分可被配置为执行像素着色或其它屏幕空间操作,以产生渲染的图像用于显示。由集群214A-214N中的一个或多个产生的中间数据可存储在缓冲器中以允许中间数据在集群214A-214N之间传输,用于进一步处理。[0061]在操作期间,处理集群阵列212可接收要经由调度器210来执行的处理任务,调度器210从前端208接收规定处理任务的命令。对于图形处理操作,处理任务可包括待处理的数据例如,表面补片数据、原语数据、顶点数据和或像素数据)的索引以及状态参数和规定数据如何被处理例如什么程序将被执行)的命令。调度器210可被配置为取出与任务相对应的索引,或可从前端208接收索引。前端208可被配置为在由进入的命令缓冲器例如批处理缓冲器、推进缓冲器等规定的工作负载被发起之前确保处理集群阵列212被配置到有效状态。[0062]并行处理单元202的一个或多个实例中的每个可与并行处理器存储器222耦合。可经由存储器交叉开关216存取并行处理器存储器222,存储器交叉开关216可从处理集群阵列212以及IO单元204接收存储器请求。存储器交叉开关216可经由存储器接口218来存取并行处理器存储器222。存储器接口218可包括多个划分单元例如划分单元220A、划分单元220B到划分单元220N,每个划分单元可耦合到并行处理器存储器222的一部分例如存储器单元)。在一个实现中,划分单元220A-220N的数量被配置为等于存储器单元的数量,使得第一划分单元220A具有相对应的第一存储器单元224A,第二划分单元220B具有相对应的第二存储器单元224B,以及第N划分单元220N具有相对应的N存储器单元224N。在其它实施例中,划分单元220A-220N的数量可以不等于存储器设备的数量。[0063]在各种实施例中,存储器单元224A-224N可包括各种类型的存储器设备,包括动态随机存取存储器DRAM或图形随机存取存储器,例如同步图形随机存取存储器SGRAM,包括图形双数据率GDDR存储器。在一个实施例中,存储器单元224A-224N还可包括3D堆叠式存储器,包括但不限于高带宽存储器HBM。本领域中的技术人员将认识到,存储器单元224A-224N的特定实现可改变,并且可选自各种常规设计中的一个。渲染目标例如帧缓冲器或纹理图)可存储在存储器单元224A-224N中,允许划分单元220A-220N并行地写每个渲染目标的部分以有效地使用并行处理器存储器222的可用带宽。在一些实施例中,可以有利于利用系统存储器结合本地高速缓存存储器的统一的存储器设计而排除并行处理器存储器222的本地实例。[0064]在一个实施例中,处理集群阵列212的集群214A-214N中的任一个可处理将被写到并行处理器存储器222内的存储器单元224A-224N中的任一个的数据。存储器交叉开关216可被配置为将每个集群214A-214N的输出传送到任一划分单元220A-220N或另一集群214A-214N,其可对输出执行额外的处理操作。每个集群214A-214N可通过存储器交叉开关216与存储器接口218通信以从各种外部存储器设备读取或写到各种外部存储器设备。在一个实施例中,存储器交叉开关216具有到存储器接口218的连接以与IO单元204通信,以及具有到并行处理器存储器222的本地实例的连接,使在不同处理集群214A-214N内的处理单元能够与系统存储器或不是并行处理单元202本地的其它存储器通信。在一个实施例中,存储器交叉开关216可使用虚拟通道来分离在集群214A-214N和划分单元220A-220N之间的业务流。[0065]虽然在并行处理器200内示出了并行处理单元202的单个实例,但是可包括并行处理单元202的任何数量的实例。例如,并行处理单元202的多个实例可提供在单个附加卡上,或多个附加卡可被互连。并行处理单元202的不同实例可被配置为交互操作,即使不同实例具有不同数量的处理核心、不同量的本地并行处理器存储器和或其它配置差异。例如,在一个实施例中,并行处理单元202的一些实例相对于其它实例可包括更高精度浮点单元。可以各种配置和形状因子来实现合并行处理单元202或并行处理器200的一个或多个实例的系统,包括但不限于桌上型计算机、膝上型计算机或手持个人计算机、服务器、工作站、游戏控制台和或嵌入式系统。[0066]图2B是根据实施例的划分单元220的方框图。在一个实施例中,划分单元220是图2A的划分单元220A-220N中的一个的实例。如所示,划分单元220包括L2高速缓存221、帧缓冲器接口225和ROP226光栅操作单元)丄2高速缓存221是被配置为执行从存储器交叉开关216和ROP226接收的加载和存储操作的读写高速缓存。读未命中和紧急写回请求由L2高速缓存221输出到帧缓冲器接口225用于处理。更新也可经由帧缓冲器接口225被发送到帧缓冲器用于处理。在一个实施例中,帧缓冲器接口225与在并行处理器存储器中的存储器单元例如图2的存储器单元224A-224N例如在并行处理器存储器222内))中的一个接合。[0067]在图形应用中,ROP226是执行光栅操作(例如,模板印刷、z测试、混合等)的处理单元。ROP226然后输出存储在图形存储器中的经处理的图形数据。在一些实施例中,ROP226包括压缩逻辑以用于压缩被写到存储器的深度或颜色数据,并将从存储器读取的深度或颜色数据解压缩。压缩逻辑可以是利用多个压缩算法中的一个或多个的无损压缩逻辑。由ROP226执行的压缩的类型可基于待压缩的数据的统计特性而改变。例如,在一个实施例中,在每瓦片基础上对深度和颜色数据执行增量颜色压缩。[0068]在一些实施例中,ROP226被包括在每个处理集群(例如图2的集群214A-214N内而不是在划分单元220内。在这样的实施例中,通过存储器交叉开关216来传输针对像素数据而不是对像素片段数据的读和写请求。经处理的图形数据可显示在显示设备(例如,图1的一个或多个显示设备110中的一个上,被路由用于进一步由处理器102处理,或被路由用于进一步由在图2A的并行处理器200内的处理实体中的一个处理。[0069]图2C是根据实施例的在并行处理单元内的处理集群214的方框图。在一个实施例中,处理集群是图2的处理集群214A-214N中的一个的实例。处理集群214可被配置为并行地执行很多线程,其中术语“线程”指在特定的一组输入数据上执行的特定程序的实例。在一些实施例中,单指令多数据SIMD指令发出技术用于支持大量线程的并行执行而不提供多个独立的指令单元。在其它实施例中,单指令多线程SIMT技术用于使用公共指令单元来支持大量通常同步的线程的并行执行,所述公共指令单元被配置为向在处理集群的每一个内的一组处理引擎发出指令。与Snro执行制度其中所有处理引擎一般执行相同的指令不同,SIMT执行通过给定线程程序来允许不同的线程更容易遵循发散的执行路径。本领域中的技术人员将理解,sn®处理制度代表snrr处理制度的功能子集。[0070]可经由流水线管理器232来控制处理集群214的操作,流水线管理器232将处理任务分发到SMT并行处理器。流水线管理器232从图2的调度器210接收指令,并经由图形多处理器234和或纹理单元236来管理那些指令的执行。所示图形多处理器234是SMT并行处理器的示例性实例。然而,不同架构的各种类型的SIMT并行处理器可被包括在处理集群214内。图形多处理器234的一个或多个实例可被包括在处理集群214内。图形多处理器234可处理数据,并且数据交叉开关240可用于将经处理的数据分发到多个可能的目的地中的一个,包括其它着色器单元。流水线管理器232可通过指定经由数据交叉开关240分发的经处理的数据的目的地来便于经处理的数据的分发。[0071]在处理集群214内的每个图形多处理器234可包括相同的一组功能执行逻辑例如算术逻辑单元、加载-存储单元等)。可以用流水线方式来配置功能执行逻辑,其中新指令可在先前的指令完成之前被发出。功能执行逻辑支持各种操作,包括整数和浮点算术、比较操作、布尔操作、移位和各种代数功能的计算。在一个实施例中,可运用相同的功能-单元硬件以执行不同的操作,并且功能单元的任何组合可存在。[0072]发送到处理集群214的指令构成线程。在这组并行处理引擎上执行的一组线程是线程组。线程组对不同的输入数据执行同一程序。在线程组内的每个线程可被指派到在图形多处理器234内的不同的处理引擎。线程组可包括比在图形多处理器234内的处理引擎的数量少的线程。当线程组包括比处理引擎的数量少的线程时,处理引擎中的一个或多个可能在那个线程组正被处理的周期期间是空闲的。线程组也可包括比在图形多处理器234内的处理引擎的数量多的线程。当线程组包括比在图形多处理器234内的处理引擎的数量多的线程时,处理可在连续的时钟循环期间被执行。在一个实施例中,可在图形多处理器234上同时执行多个线程组。[0073]在一个实施例中,图形多处理器234包括内部高速缓存存储器以执行加载和存储操作。在一个实施例中,图形多处理器234可放弃内部高速缓存并使用在处理集群214内的高速缓冲存储器例如Ll高速缓存308。每个图形多处理器234也访问在所有处理集群214当中共享的划分单元例如图2的划分单元220A-220N内的L2高速缓存,并可用于在线程之间传送数据。图形多处理器234也可存取片外全局存储器,其可包括本地并行处理器存储器和或系统存储器中的一个或多个。在并行处理单元202外部的任何存储器可用作全局存储器。其中处理集群214包括图形多处理器234的多个实例的实施例可共享可以存储在Ll高速缓存308中的公共指令和数据。[0074]每个处理集群214可包括被配置为将虚拟地址映射到物理地址的MMU245存储器管理单元)。在其它实施例中,MMU245的一个或多个实例可存在于图2的存储器接口218内。MMU245包括用于将虚拟地址映射到瓦片的物理地址和可选地高速缓存行索引的一组页表条目(PTE13MMU245可包括地址旁路转换缓冲区(TLB或可存在于图形多处理器234内的高速缓存或Ll高速缓存或处理集群214。物理地址被处理以分发表面数据访问地点以允许有效请求在划分单元当中交织。高速缓存行索引可用于确定针对高速缓存行的请求是命中还是未命中。[0075]在图形和计算应用中,处理集群214可被配置使得每个图形多处理器234耦合到纹理单元236以用于执行纹理映射操作,例如确定纹理样本位置、读取纹理数据和过滤纹理数据。纹理数据是从内部纹理Ll高速缓存未示出)中读取的或在一些实施例中是从图形多处理器234内的Ll高速缓存中读取的,并按需要从L2高速缓存、本地并行处理器存储器或系统存储器取出。每个图形多处理器234将经处理的任务输出到数据交叉开关240,以向另一处理集群214提供经处理的任务以用于进一步处理或经由存储器交叉开关216将经处理的任务存储在L2高速缓存、本地并行处理器存储器或系统存储器中。预ROP242预光栅操作单元被配置为从图形多处理器234接收数据、将数据引导到ROP单元,其可以与本文所述的划分单元例如图2的划分单元220A-220N位于一起。预ROP242的单元可针对颜色混合执行优化、组织像素彩色数据,并执行地址转换。[0076]将认识到,本文所述的核心架构是示出性的,以及变化和修改是可能的。任何数量的处理单元例如,图形多处理器234、纹理单元236、预ROP242等可被包括在处理集群214内。此外,虽然只示出一个处理集群214,但是如本文所述的并行处理单元可包括任何数量的处理集群214的实例。在一个实施例中,每个处理集群214可被配置为使用单独和不同的处理单元、Ll高速缓存等来独立于其它处理集群214而操作。[0077]图2D示出了根据一个实施例的图形多处理器234。在这样的实施例中,图形多处理器234与处理集群214的流水线管理器232耦合。图形多处理器234具有执行流水线,包括但不限于指令高速缓存252、指令单元254、地址映射单元256、寄存器文件258、一个或多个通用图形处理单元GPGPU核心262和一个或多个加载存储单元266APGPU核心262和加载存储单元266经由存储器和高速缓存存储器互连268与高速缓存存储器272和共享存储器270耦合。[0078]在一个实施例中,指令高速缓存252从流水线管理器232接收要执行的指令流。指令被高速缓存在指令高速缓存252中并被调度用于由指令单元254执行。指令单元254可分派指令作为线程组例如warp,线程组的每个线程被指派到GPGPU核心262内的不同执行单元。指令可通过指定统一地址空间内的地址来访问本地、共享或全局地址空间中的任一个。地址映射单元256可用于将统一地址空间中的地址转换成可由加载存储单元266存取的不同的存储器地址。[0079]寄存器文件258提供用于图形多处理器234的功能单元的一组寄存器。寄存器文件258提供用于连接到图形多处理器234的功能单元例如GPGPU核心262、加载存储单元266的数据路径的操作数的暂时性存储。在一个实施例中,寄存器文件258在每个功能单元之间进行划分,使得每个功能单元被分配有寄存器文件258的专用部分。在一个实施例中,寄存器文件258在由图形多处理器234执行的不同warp之间进行划分。[0080]GPGPU核心262的每个可以包括用于执行图形多处理器234的指令的浮点单元FPU和或整数算术逻辑单元ALU。根据实施例,GPGPU核心262可在架构上是类似的,或可在架构上是不同的。例如,在一个实施例中,GPGPU核心262的第一部分包括单精度FPU和整数ALU,而GPGPU核心262的第二部分包括双精度FPU。在一个实施例中,FPU可实现用于浮点算术的IEEE754-2008标准或实现可变精度浮点算术。图形多处理器234可另外包括一个或多个固定功能或特殊功能单元以执行特定的功能,例如复制矩形或像素混合操作。在一个实施例中,GPGPU核心中的一个或或多个也可包括固定或特殊功能逻辑。[0081]在一个实施例中,GPGPU核心262包括能够对多组数据执行单个指令的SMD逻辑。在一个实施例中,GPGPU核心262可以物理地执行Snffi4、SMD8和SniD16指令,并逻辑地执行3頂01、3頂02和3頂032指令。6?6?1]核心的3頂0指令可在编译时间由着色器编译器生成或当执行针对单程序多数据SPMD或SHIT架构编写和编译的程序时自动生成。可经由单个SMD指令来执行被配置用于SIMT执行模型的程序的多个线程。例如,在一个实施例中,执行相同或相似操作的八个S頂T线程可经由单个S頂D8逻辑单元来并行地执行。[0082]存储器和高速缓存互连268是互连网络,其将图形多处理器234的每个功能单元连接到寄存器文件258和共享存储器270。在一个实施例中,存储器和高速缓存互连268是交叉开关互连,其允许加载存储单元266在共享存储器270和寄存器文件258之间实现加载和存储操作。寄存器文件258可在与GPGPU核心262相同的频率下操作,因此在GPGPU核心262和寄存器文件258之间的数据传送是非常低的延迟。共享存储器270可用于实现在图形多处理器234内的功能单元上执行的线程之间的通信。高速缓存存储器272可用作例如数据高速缓存,以用于对在功能单元和纹理单元236之间传递的纹理数据进行高速缓存。共享存储器270也可用作被管理的高速缓存的程序。除了在高速缓存存储器272内存储的自动缓存的数据以外,在GPGPU核心262上执行的线程还可以编程的方式将数据存储在共享存储器内。[0083]图3A-图3B示出了根据实施例的额外的图形多处理器。所示图形多处理器325、350是图2C的图形多处理器234的变形。所示图形多处理器320、350可被配置为能够同时执行大量执行线程的流多处理器SM。[0084]图3A示出了根据额外的实施例的图形多处理器325。图形多处理器325包括关于图2D的图形多处理器234的执行资源单元的多个额外的实例。例如,图形多处理器325可包括指令单元332A-332B、寄存器文件334A-334B和纹理单元344A-344B的多个实例。图形多处理器325还包括多组图形或计算执行单元例如,GPGPU核心336A-336B、GPGPU核心337A-337B、GPGPU核心338A-338B和多组加载存储单元340A-340B。在一个实施例中,执行资源单元具有公共指令高速缓存330、纹理和或数据高速缓存存储器342和共享存储器346。[0085]各种部件可经由互连结构327进行通信。在一个实施例中,互连结构327包括一个或多个交叉开关以实现在图形多处理器325的各种部件之间的通信。在一个实施例中,互连结构327是单独的、高速网络结构层,其上堆叠图形多处理器325的每个部件。图形多处理器325的部件经由互连结构327与远程部件通信。例如,GPGPU核心336A-336B、337A-337B和3378A-338B每个可以经由互连结构327与共享存储器346通信。互连结构327可仲裁图形多处理器325内的通信以确保在部件之间的公平的带宽分配。[0086]图3B示出了根据额外的实施例的图形多处理器350。图形处理器包括多组执行资源356A-356D,其中每组执行资源包括多个指令单元、寄存器文件、GPGPU核心和加载存储单元,如图2D和图3A所示的。执行资源356A-356D可与纹理单元360A-360D协力作业以用于纹理操作,同时共享指令高速缓存354和共享存储器362。在一个实施例中,执行资源356A-356D可共享指令高速缓存354和共享存储器362以及纹理和或数据高速缓存存储器358A-358B的多个实例。各种部件可经由与图3A的互连结构327类似的互连结构352进行通信。[0087]本领域中的技术人员将理解,在图1、图2A-图2D和图3A-图3B中所述的架构关于当前实施例的范围是描述性的而不是限制性的。因此,可在任何适当地配置的处理单元上实现本文所述的技术,所述处理单元包括而不限于一个或多个移动应用处理器、包括多核GPU的一个或多个桌上型计算机或服务器中央处理单元CPU、一个或多个并行处理单元例如图2的并行处理单元202以及一个或多个图形处理器或专用处理单元,而不偏离本文所述的实施例的范围。[0088]在一些实施例中,如本文所述的并行处理器或GPGPU通信地耦合到主机处理器核心以加速图形操作、机器学习操作、图样分析操作和各种通用GPUGPGPU功能。GPU可通过总线或另一互连例如高速互连,例如PCIe或NVLink通信地耦合到主机处理器核心。在另一实施例中,GPU可与核心集成在同一封装或芯片上,并通过内部处理器总线互连(S卩,在封装或芯片内部通信地耦合到核心。不考虑GPU被连接的方式,处理器核心可以以被包含在作业描述符中的命令指令的序列的形式中将作业分发到GPUt3GPU然后使用专用电路逻辑以用于有效地处理这些命令指令。[0089]用于GPU到主机处理器互连的技术[0090]图4A示出了示例性架构,其中多个GPU410-413通过高速链路440-443例如总线、点对点互连等通信地耦合到多个多核处理器405-406。在一个实施例中,高速链路440-443取决于实现支持4GBs、30GBS、80GBS或更高速度的通信吞吐量。可使用各种互连协议,包括但不限于PCIe4.0或5.0和NVLink例如,NVLinkI.KNVLink2.0、或另一Nvidia高速信令互连NVHS。然而,本发明的基本原理不限于任何特定的通信协议或吞吐量。[0091]此外,在一个实施例中,通过高速链路444-445来互连GPU410-413中的两个或更多个,这可使用与用于高速链路440-443的协议链路相同或不同的协议链路来实现。类似地,可通过高速链路433来连接多核处理器405-406中的两个或更多个,高速链路433可以是在20GBs、30GBs、120GBs或更高速度下操作的对称多处理器SMP总线。可选地,可使用相同的协议链路例如通过公共互连结构来实现在图4A所示的各种系统部件之间的所有通信。然而,如所提到的,本发明的基本原理不限于任何特定类型的互连技术。[0092]在一个实施例中,每个多核处理器405-406分别经由存储器互连430-431通信地耦合到处理器存储器401-402,并且每个GPU410-413分别通过GPU存储器互连450-453通信地耦合到GPU存储器420-423。存储器互连430-431和450-453可利用相同或不同的存储器存取技术。作为示例而不是限制,处理器存储器401-402和GPU存储器420-423可以是易失性存储器,例如动态随机存取存储器(DRAM包括堆叠式DRAM、图形DDRSDRAMGDDR例如⑶DR5、⑶DR6或高带宽存储器HBM和或可以是非易失性存储器,例如3DXPoint或Nano-Ram。在一个实施例中,存储器的某个部分可以是易失性存储器,而另一部分可以是非易失性存储器例如使用二级存储器2LM分级结构)。[0093]如下所述,虽然各种处理器405-406和GPU410-413可分别物理地耦合到特定的存储器401-402、420-423,但是可实现统一存储器架构,其中同一虚拟系统地址空间(也被称为“有效地址”空间)分布在各种物理存储器的全部当中。例如,处理器存储器401-402每个可以包括64GB的系统存储器地址空间,以及GPU存储器420-423每个可以包括32GB的系统存储器地址空间(在这个示例中导致总共256GB可寻址存储器)。[0094]图4B不出了根据一个实施例的用于多核处理器407和图形加速模块446之间的互连的额外细节。图形加速模块446可包括集成在线卡上的一个或多个GPU芯片,线卡经由高速链路440耦合到处理器407。可选地,图形加速模块446可与处理器407集成在同一封装或芯片上。[0095]所示处理器407包括多个核心460A-460D,每个核心具有旁路转换缓冲区461A-461D和一个或多个高速缓存462A-462D。核心可包括用于执行指令并处理数据的各种其它部件例如,指令取出单元、分支预测单元、解码器、执行单元、记录器缓冲器等),其没有被示出以避免使本发明的基本原理模糊。高速缓存462A-462D可包括1级LI和2级(L2高速缓存。此外,一个或多个共享高速缓存426可被包括在缓存分级结构中并由几组核心460A-460D共享。例如,处理器407的一个实施例包括24个核心,每个核心具有它自己的Ll高速缓存、12个共享L2高速缓存和12个共享L3高速缓存。在这个实施例中,L2和L3高速缓存中的一个由两个相邻的核心共享。处理器407和图形加速器集成模块446与系统存储器441连接,系统存储器441可包括处理器存储器401-402。[0096]经由核心间通信通过一致性总线464来针对存储在各种高速缓存462A-460D、456和系统存储器441中的数据和指令维持一致性。例如,每个高速缓存可具有与其相关联的高速缓存一致性逻辑电路以响应于对特定的高速缓存行的检测到的读或写而通过一致性总线464进行通信。在一个实现中,通过一致性总线464来实现高速缓存窥探协议以窥探高速缓存存取。高速缓存窥探一致性技术被本领域中的技术人员很好地理解,并且将不在本文详细描述以避免使本发明的基本原理模糊。[0097]在一个实施例中,代理电路425将图形加速模块446通信地耦合到一致性总线464,允许图形加速模块446参与高速缓存一致性协议作为核心的对等物。特别是,接口435通过高速链路440例如PCIe总线、NVLink等提供到代理电路425的连接性,并且接口437将图形加速模块446连接到链路440。[0098]在一个实现中,加速器集成电路436代表图形加速模块446的多个图形处理引擎431、432、N提供高速缓存管理、存储器存取、上下文管理和中断管理服务。图形处理引擎431、432、N每个可以包括单独的图形处理单元GPU。可选地,图形处理引擎431、432、N可包括在GPU例如图形执行单元)内的不同类型的图形处理引擎、媒体处理引擎例如视频编码器解码器)、采样器和Blit引擎。换句话说,图形加速模块可以是具有多个图形处理引擎431-432、N的GPU,或图形处理引擎431-432、N可以是集成在公共封装、线卡或芯片上的单独GPU0[0099]在一个实施例中,加速器集成电路436包括用于执行各种存储器管理功能(例如,虚拟到物理存储器转换也被称为有效到实际存储器转换和用于存取系统存储器441的存储器存取协议的存储器管理单元MMU439。匪1]439还可包括用于缓存虚拟有效到物理真实地址转换的旁路转换缓冲区(TLB未示出)。在一个实施例中,加速器集成电路436包括取出单元491以取出定义待执行的操作的命令、指令、作业描述符等。在一个实现中,高速缓存438存储命令和数据以用于由图形处理引擎431-432、N有效地存取。在一个实施例中,存储在高速缓存438和图形存储器433-434、N中的数据保持与核心高速缓存462A-462D、456和系统存储器441一致。如所提到的,这可经由代理电路425来完成,代理电路425代表高速缓存438和存储器433-434、N参与高速缓存一致性机制(例如将与在处理器高速缓存462A-462D、456上的高速缓存行的修改存取有关的更新发送到高速缓存438并从高速缓存438接收更新)。[0100]一组寄存器449存储由图形处理引擎431-432、N执行的线程的上下文数据,并且上下文管理电路448管理线程上下文。例如,上下文管理电路448可执行保存和恢复操作以在上下文切换期间保存和恢复各种线程的上下文例如其中第一线程被保存,而第二线程被存储,使得第二线程可由图形处理引擎执行)。例如,在上下文切换时,上下文管理电路448可将当前寄存器值存储到存储器中的指定区域例如由上下文指针所标识的)。它可接着在返回到上下文时恢复寄存器值。在一个实施例中,中断管理电路447接收并处理从系统设备接收的中断。[0101]在一个实现中,来自图形处理引擎431的虚拟有效地址由MMU439转换成在系统存储器411中的真实物理地址。加速器集成电路436的一个实施例支持多个(例如4、8、16个)图形加速器模块446和或其它加速器设备。图形加速器模块446可专用于在处理器407上执行的单个应用或可在多个应用之间被共享。在一个实施例中,呈现虚拟化图形执行环境,其中与多个应用或虚拟机VM共享图形处理引擎431-432、N的资源。资源可被细划分为“片”,其基于与VM和或应用相关联的处理要求和优先级而被分配给不同的VM和或应用。[0102]因此,加速器集成电路充当到用于图形加速模块446的系统的桥,并提供地址转换和系统存储器高速缓存服务。此外,加速器集成电路436可针对主机处理器提供虚拟化设施以管理图形处理引擎、中断和存储器管理的虚拟化。[0103]因为图形处理引擎431-432、N的硬件资源明确地映射到由主机处理器407可见的真实地址空间,所以任何主机处理器可直接使用有效地址值来处理这些资源。在一个实施例中,加速器集成电路436的一个功能是图形处理引擎431-432、N的物理分离,使得它们对系统看来作为独立的单元。[0104]如所提到的,在所示实施例中,一个或多个图形存储器433_434、M分别耦合到图形处理引擎431-432、N中的每个。图形存储器433-434、M存储由图形处理引擎431-432、N中的每个处理的指令和数据。图形存储器433-434、M可以是易失性存储器,例如DRAM包括堆叠式DRAM、GDDR存储器(例如GDDR5、GDDR6或HBM,和或可以是非易失性存储器,例如3DXPoint或Nano-Ram〇[0105]在一个实施例中,为了减少在链路440上的数据业务,偏置技术用于确保存储在图形存储器433-434、M中的数据是由图形处理引擎431-432、N最频繁地使用并且优选地不由核心460A-460D使用至少不是频繁地的数据。类似地,偏置机制试图保持由在核心的高速缓存462A-462D、456和系统存储器411内的核心(并且优选地不是图形处理引擎431-432、N所需的数据。[0106]图4C示出了另一实施例,其中加速器集成电路436集成在处理器407内。在这个实施例中,图形处理引擎431-432、N通过高速链路440经由接口437和接口435其再次可利用任何形式的总线或接口协议直接与加速器集成电路436通信。加速器集成电路436可执行与关于图4B所述的相同的操作,但可能在更高的吞吐量下,假定它极接近一致性总线462和高速缓存462A-462D、456。[0107]—个实施例支持不同的编程模型,包括专用进程编程模型无图形加速模块虚拟化和共享编程模型有虚拟化)。后者可包括由加速器集成电路436控制的编程模型和由图形加速模块446控制的编程模型。[0108]在专用进程模型的一个实施例中,图形处理引擎431_432、N专用于在单个操作系统下的单个应用或过程。单个应用可将其它应用请求送入提供在VM分区内的虚拟化的图形处理引擎431-432、N。[0109]在专用进程编程模型中,图形处理引擎431-432、N可由多个VM或应用分区共享。共享模型需要系统管理程序来虚拟化图形处理引擎431-432、N以允许由每个操作系统访问。对于没有管理程序的单分区系统,图形处理引擎431-432、N由操作系统拥有。在这两种情况下,操作系统都可虚拟化图形处理引擎431-432、N以提供对每个过程或应用的访问。[0110]对于共享编程模型,图形加速模块446或单独的图形处理引擎431-432、N使用进程句柄来选择进程元素。在一个实施例中,进程元素存储在系统存储器411中,并且是使用本文所述的有效地址到真实地址转换技术可寻址的。进程句柄可以是当向图形处理引擎431-432、N注册它的上下文时被提供到主机进程的实现特定的值也就是说,调用系统软件以将进程元素添加到进程元素链接列表)。进程句柄的较低的16位可以是在进程元素链接列表内的进程元素的偏移。[0111]图4D示出了示例性加速器集成片490。如在本文使用的,“片”包括加速器集成电路436的处理资源的特定部分。在系统存储器411内的应用有效地址空间482存储进程元素483。在一个实施例中,响应于来自在处理器407上执行的应用480的GPU调用481而存储进程元素483。进程元素483包含相对应的应用480的进程状态。被包含在进程元素483中的作业描述符WD484可以是由应用请求的单个作业,或可包含指向作业的队列的指针。在后一情况下,WD484是指向在应用的地址空间482中的作业请求队列的指针。[0112]图形加速模块446和或单独的图形处理引擎431-432、N可由系统中的进程的全部或子集共享。本发明的实施例包括用于建立进程状态并将WD484发送到图形加速模块446以在虚拟化环境中开始作业的基础设施。[0113]在一个实现中,专用进程编程模型是实现特定的。在这个模型中,单个进程拥有图形加速模块446或单独的图形处理引擎431。因为图形加速模块446由单个进程拥有,所以管理程序为拥有分区初始化加速器集成电路436,并且操作系统在图形加速模块446被分配时的时间为拥有进程初始化加速器集成电路436。[0114]在操作中,在加速器集成片490中的WD取出单元491取出下一WD484,其包括由图形加速模块446的图形处理引擎中的一个完成的作业的指示。来自WD484的数据可存储在寄存器449中并由如所示的MMU439、中断管理电路447和或上下文管理电路446使用。例如,MMU439的一个实施例包括用于访问在OS虚拟地址空间485内的片段页表486的片段页行走电路。中断管理电路447可处理从图形加速模块446接收的中断事件492。当执行图形操作时,由图形处理引擎431-432、N产生的有效地址493由MMU439转换成真实地址。[0115]在一个实施例中,同一组寄存器449针对每个图形处理引擎431-432、N和或图形加速模块446是重复的,并且可由管理程序或操作系统初始化。这些重复的寄存器中的每个可被包括在加速器集成片490中。在表1中示出可由管理程序初始化的示例性寄存器。[0116]表1-管理程序初始化的寄存器[0118]在表2中示出可由操作系统初始化的示例性寄存器。[0119]表2-操作系统初始化的寄存器[0122]在一个实施例中,每个WD484对特定的图形加速模块446和或图形处理引擎431-432、N是特定的。它包含图形处理引擎431-432、N需要来完成它的作业的所有信息,或它可以是指向应用在其中已建立待完成的作业的命令队列的存储器位置的指针。[0123]图4E示出了共享模型的一个实施例的额外细节。这个实施例包括其中存储有进程元素列表499的管理程序真实地址空间498。管理程序真实地址空间498是经由管理程序496可访问的,管理程序496对操作系统495的图形加速模块引擎进行虚拟化。[0124]共享编程模型允许来自系统中的分区的全部或子集的进程的全部或子集使用图形加速模块446。存在两个编程模型,其中图形加速模块446由多个进程和分区共享:时间片共孚和图形指向共孚。[0125]在这个模型中,系统管理程序496拥有图形加速模块446,并使它的功能对所有操作系统495变得可用。为了使图形加速模块446通过系统管理程序496支持虚拟化,图形加速模块446可坚持下文的要求:1应用的作业请求必须是自主的(也就是说,状态不需要在作业之间被维持),或图形加速模块446必须提供上下文保存和恢复机制。2应用的作业请求由图形加速模块446保证以在规定数量的时间内完成,包括任何转换错误,或图形加速模块446提供用于抢占作业的处理的能力。3图形加速模块446当在直接共享编程模型中操作时必须被保证在进程之间的公平。[0126]在一个实施例中,对于共享模型,应用480需要使用图形加速模块446类型、作业描述符WD、权限屏蔽寄存器AMR值和上下文保存恢复区域指针CSRP来进行操作系统495系统调用。图形加速模块446类型描述系统调用的目标加速功能。图形加速模块446类型可以是系统特定值。WD特别针对图形加速模块446进行格式化,并且可以以图形加速模块446命令、指向用户定义的结构的有效地址指针、指向命令的队列的有效地址指针或任何其它数据结构的形式来描述将由图形加速模块446完成的作业。在一个实施例中,AMR值是用于当前进程的AMR状态。被传递到操作系统的值类似于设置AMR的应用。如果加速器集成电路436和图形加速模块446实现不支持用户权限掩蔽覆盖寄存器UAMOR,则操作系统可在传递管理程序调用中的AMR之前将当前UAMOR值应用于AMR值。管理程序496可以可选地在将AMR放置到进程元素483内之前应用当前权限掩蔽覆盖寄存器AMOR值。在一个实施例中,CSRP是包含用于图形加速模块446的应用的地址空间482中的区域的有效地址的寄存器449中的一个以保存并恢复上下文状态。如果在作业之间或当作业被抢占时没有状态需要被保存,则这个指针是可选的。上下文保存恢复区域可以是固定的系统存储器。[0127]当接收到系统调用时,操作系统495可证实应用480已注册并且被给予权限来使用图形加速模块446。操作系统495然后使用在表3中所示的信息来调用管理程序496。[0128]表3-0S到管理程序调用参数[0130]当接收到管理程序调用时,管理程序496证实操作系统495已注册并且被给予权限来使用图形加速模块446。然后管理程序496将进程元素483放置在相对应的图形加速模块446类型的进程元素链接列表内。进程元素可包括表4所示的信息。[0131]表4-进程元素信息[0133][0134]在一个实施例中,管理程序对加速器集成片490的多个寄存器449进行初始化。[0135]如图4F所示,本发明的一个实施例采用经由公共虚拟地址空间可寻址的统一存储器,所述公共虚拟地址空间用于存取物理处理器存储器401-402和GPU存储器420-423。在这个实现中,在GPU410-413上执行的操作利用同一虚拟有效存储器地址空间来存取处理器存储器401-402,反之亦然,从而简化可编程性。在一个实施例中,虚拟有效地址空间的第一部分被分配到处理器存储器401,第二部分被分配到第二处理器存储器402,第三部分被分配到GPU存储器420,依此类推。整个虚拟有效存储器空间(有时被称为有效地址空间)因而分布在处理器存储器401-402和GPU存储器40-423的每个上,允许任何处理器或GPU利用映射到任何物理存储器的虚拟地址来存取那个存储器。[0136]在一个实施例中,在丽U439A-439E的一个或多个内的偏置一致性管理电路494A-494E确保在主机处理器例如405的高速缓存和GPU410-413之间的高速缓存一致性,并实现指示某些类型的数据应存储于其中的物理存储器的偏置技术。虽然在图4F中示出了偏置一致性管理电路494A-494E的多个实例,但是偏置一致性电路可在一个或多个主机处理器405的MMU内和或在加速器集成电路436内实现。[0137]—个实施例允许GPU附接的存储器420-423被映射为系统存储器的部分,并使用共享虚拟存储器SVM技术被存取,但没有遭受与完全的系统高速缓存一致性相关联的一般性能缺陷。GPU附接的存储器420-423作为系统存储器被存取而没有繁重的高速缓存一致性开销的能力针对GPU卸载提供有益的操作环境。这个布置允许主机处理器405软件建立操作数和访问计算结果,而没有传统IODMA数据拷贝的开销。这样的传统拷贝涉及驱动器调用、中断和存储器映射的IOMMIO存取,其相对于简单的存储器存取都是低效的。同时,存取GPU附接的存储器420-423而没有高速缓存一致性开销的能力可能对卸载的计算的执行时间是关键的。在大量流式传送写存储器业务的情况下,例如高速缓存一致性开销可明显减小由GPU410-413看到的有效写带宽。操作数建立的效率、结果访问的效率和GPU计算的效率都在确定GPU卸载的有效性时起作用。[0138]在一个实现中,在GPU偏置和主机处理器偏置之间的选择由偏置跟踪器数据结构驱动。例如可使用偏置表,其可以是包括每GPU附接的存储器页的1或2位的页面粒状结构BP,在存储器页的粒度下被控制)。偏置表可在GPU410-413中有或没有偏置高速缓存的情况下,在一个或多个GHJ附接的存储器420-423的被盗存储器范围内实现例如以用于对偏置表的频繁地最近使用的条目进行高速缓存)。可选地,可在GHJ内维持整个偏置表。[0139]在一个实现中,与对GPU附接的存储器420-423的每次存取相关联的偏置表条目在对GHJ存储器的实际存取之前被存取,引起下文的操作。首先,来自GPU410-413的找到它们在GPU偏置中的页面的本地请求被直接转发到相对应的GPU存储器420-423。来自GPU的找到它们在主机偏置中的页面的本地请求被转发到处理器405例如通过如上讨论的高速链路)。在一个实施例中,来自处理器405的找到它们在主机处理器偏置中的所请求的页面的请求完成如正常存储器读取之类的请求。可选地,指向GPU偏置的页面的请求可被转发到GPU410-413。如果GPU当前不使用页面,则它可接着将该页面转换到主机处理器偏置。[0140]页面的偏置状态可由基于软件的机制、硬件辅助的基于软件的机制改变,或对于有限的一组情况,由纯粹基于硬件的机制改变。[0141]用于改变偏置状态的一个机制采用API调用(例如OpenCL,其继而调用GPU的设备驱动器,其继而将消息或使命令描述符加入队列发送到GPU,GPU引导它改变偏置状态的,并且对于一些转变,在主机中执行高速缓存刷新操作。高速缓存刷新操作对于从主机处理器405到GPU偏置的转变是需要的,但对于相反的转变是不需要的。[0142]在一个实施例中,通过暂时性渲染不可由主机处理器405缓存的GPU偏置的页面来维持高速缓存一致性。为了存取这些页面,处理器405可请求从GPU410的存取,GPU410取决于实现可以或可以不立刻授予存取权限。因此,为了减少在处理器405和GPU410之间的通信,有益的是确保GPU偏置的页面是由GPU但不是主机处理器405所需的页面,反之亦然。[0143]图形处理流水线[0144]图5示出了根据实施例的图形处理流水线500。在一个实施例中,图形处理器可实现所示的图形处理流水线500。图形处理器可被包括在如本文所述的并行处理子系统例如图2的并行处理器200内,并行处理器200在一个实施例中是图1的并行处理器112的变形。各种并行处理系统可经由如本文所述的并行处理单元例如图2的并行处理单元202的一个或多个实例来实现图形处理流水线500。例如,着色器单元例如图3的图形多处理器234可被配置为执行顶点处理单元504、曲面细分控制处理单元508、曲面细分评估处理单元512、几何处理单元516和片段像素处理单元514中的一个或多个的功能。数据汇编器502、原语汇编器506、514、516、曲面细分单元510、光栅化器522和光栅操作单元526的功能也可由在处理集群(例如图3的处理集群214内的其它处理引擎和相对应的划分单元例如图2的划分单元220A-220N执行。也可使用一个或多个功能的专用处理单元来实现图形处理流水线500。在一个实施例中,图形处理流水线500的一个或多个部分可由在通用处理器例如CPU内的并行处理逻辑执行。在一个实施例中,图形处理流水线500的一个或多个部分可经由存储器接口528来存取片上存储器例如,如在图2中的并行处理器存储器222,存储器接口528可以是图2的存储器接口218的实例。[0145]在一个实施例中,数据汇编器502是收集表面和原语的顶点数据的处理单元。数据汇编器502然后向顶点处理单元504输出包括顶点属性的顶点数据。顶点处理单元504是执行顶点着色器程序的可编程执行单元,其如由顶点着色器程序规定的对顶点数据进行照明和变换。顶点处理单元504读取存储在高速缓存、本地或系统存储器中的数据以用于在处理顶点数据时使用,并可被编程以将顶点数据从基于对象的坐标表示变换到世界空间坐标空间或标准化设备坐标空间。[0146]原语汇编器506的第一实例从顶点处理单元504接收顶点属性。原语汇编器506按需要读取所存储的顶点属性并构造图形原语以用于由曲面细分控制处理单元508处理。图形原语包括三角形、线段、点、补片等,如由各种图形处理应用编程接口(API支持的。[0147]曲面细分控制处理单元508将输入顶点处理为用于几何补片的控制点。控制点从来自补片(例如补片的基底)的输入表示变换为适合于在表面评估中由曲面细分评估处理单元512使用的表示。曲面细分控制处理单元508也可计算用于几何补片的边的曲面细分因子。曲面细分因子应用于单个边,并量化与边相关联的细节的视图相关水平。曲面细分单元510被配置为接收用于补片的边的曲面细分因子并将补片细划分为多个几何原语,例如线、三角形或四边形原语,其被发送到曲面细分评估处理单元512。曲面细分评估处理单元512对细分的补片的参量化坐标进行操作以生成与几何原语相关联的每个顶点的表面表示和顶点属性。[0148]原语汇编器514的第二实例从曲面细分评估处理单元512接收顶点属性,按需要读取所存储的顶点属性,并构造图形原语以用于由几何处理单元516处理。几何处理单元516是可编程执行单元,其执行几何着色器程序以变换如由几何着色器程序规定的从原语汇编器514接收的图形原语。在一个实施例中,几何处理单元516被编程以将图形原语细划分为一个或多个新图形原语,并计算用于光栅化新图形原语的参数。[0149]在一些实施例中,几何处理单元516可添加或删除在几何流中的元素。几何处理单元516向原语汇编器518输出规定新图形原语的参数和顶点。原语汇编器518从几何处理单元516接收参数和顶点,并构造图形原语以用于由视口缩放、剔除和剪辑单元520处理。几何处理单元516读取存储在并行处理器存储器或系统存储器中的数据以用于在处理几何数据时使用。视口缩放、剔除和剪辑单元520执行剪辑、剔除和视口缩放,并向光栅化器522输出经处理的图形原语。[0150]光栅化器522可执行深度剔除和其它基于深度的优化。光栅化器522还对新图形原语执行扫描转换以生成片段,并将那些片段和相关联的覆盖数据输出到片段像素处理单元524。片段像素处理单元524是被配置为执行片段着色器程序或像素着色器程序的可编程执行单元。片段像素处理单元524如由片段或像素着色器程序规定的变换从光栅化器522接收的片段或像素。例如,片段像素处理单元524可被编程以执行操作,包括但不限于纹理映射、着色、混合、纹理校正和透视校正以产生被输出到光栅操作单元526的已着色的片段或像素。片段像素处理单元524可读取存储在并行处理器存储器或系统存储器中的数据以用于在处理片段数据时使用。片段或像素着色器程序可被配置为取决于被配置用于处理单元的采样速率在样本、像素、瓦片或其它粒度下着色。[0151]光栅操作单元526是执行光栅操作包括但不限于模板印刷、z测试、混合等并输出像素数据作为经处理的图形数据以被存储在图形存储器例如,如在图2中的并行处理器存储器222和或如在图1中的系统存储器104,以被显示一个或多个显示设备110上或用于进一步由一个或多个处理器102中的一个或并行处理器112处理)中的处理单元。在一些实施例中,光栅操作单元526被配置为压缩写到存储器的z或颜色数据,并将从存储器读取的z或颜色数据解压缩。[0152]机器学习概述[0153]机器学习算法是可基于一组数据来学习的算法。机器学习算法的实施例可设计成对在数据集内的高级抽象建模。例如,图像识别算法可用于确定给定输入属于几个类别中的哪个;给定输入,回归算法可输出数值;以及模式识别算法可用于生成转换的文本或执行文本到语音和或语音识别。[0154]示例性类型的机器学习算法是神经网络。存在很多类型的神经网络;简单类型的神经网络是前馈网络。前馈网络可被实现为非周期性曲线,其中节点布置在层中。一般,前馈网络拓扑包括由至少一个隐藏层分离的输入层和输出层。隐藏层将由输入层接收的输入变换成对生成输出层中的输出有用的表示。网络节点经由边完全连接到在相邻层中的节点,但在每个层内的节点之间没有边。在前馈网络的输入层的节点处接收的数据经由激活功能被传播即“正向馈送”)到输出层的节点,激活功能基于分别与连接所述层的每个边相关联的系数(“权重”)来计算在网络中的每个连续层的节点的状态。取决于由正执行的算法表示的特定模型,来自神经网络算法的输出可采用各种形式。[0155]在机器学习算法可用于对特定的问题建模之前,使用训练数据集来训练算法。训练神经网络涉及选择网络拓扑,使用表示由网络建模的问题的一组训练数据,以及调节权重直到网络模型以最少的错误针对训练数据集的所有实例执行为止。例如,在用于神经网络的被监督的学习训练过程期间,将响应于表示在训练数据集中的实例的输入而由网络产生的输出与那个实例的“正确”标记的输出比较,计算表示在输出和所标记的输出之间的差异的错误信号,以及当错误信号通过网络的层向后传播时调节与连接相关联的权重以最小化那个错误。当根据训练数据集的实例而生成的每个输出的错误被最小化时,网络被考虑为“经训练的”。[0156]机器学习算法的准确性可明显受到用于训练算法的数据集的质量影响。训练过程可以在计算上是密集的,并且可能在常规通用处理器上需要相当大数量的时间。因此,并行处理硬件用于训练很多类型的机器学习算法。这对优化神经网络的训练是特别有用的,因为在调节神经网络中的系数时执行的计算自然适用于并行实现。特别地,很多机器学习算法和软件应用适合于利用在通用图形处理设备内的并行处理硬件。[0157]图6是机器学习软件堆栈600的广义图。机器学习应用602可被配置为使用训练数据集来训练神经网络或使用经训练的深度神经网络来实现机器智能。机器学习应用602可包括用于神经网络和或可用于在部署之前训练神经网络的专用软件的训练和推理功能。机器学习应用602可实现任何类型的机器智能,包括但不限于图像识别、映射和局部化、自动导航、语音合成、医学成像或语言翻译。[0158]可经由机器学习框架604来实现机器学习应用602的硬件加速。机器学习框架604可提供机器学习原语的库。机器学习原语是通常由机器学习算法执行的基本操作。在没有机器学习框架604的情况下,机器学习算法的开发者将需要创建并优化与机器学习算法相关的主要计算逻辑,然后在新并行处理器被开发时重新优化计算逻辑。替代地,机器学习应用可被配置为使用由机器学习框架604提供的原语来执行必要的计算。示例性原语包括张量卷积、激活功能和池,其为当训练卷积神经网络CNN时执行的计算操作。机器学习框架604还可提供原语以实现由很多机器学习算法例如矩阵和矢量操作执行的基本线性代数子程序。[0159]机器学习框架604可处理从机器学习应用602接收的输入数据并生成对计算框架606的适当输入。计算框架606可对被提供到GPGPU驱动器608的基本指令进行抽象化以使机器学习框架604能够利用经由GPGHJ硬件610的硬件加速而不需要机器学习框架604具有GPGPU硬件610的架构的详细的知识。此外,计算框架606可实现针对机器学习框架604遍及各种类型和代的GPGPU硬件610的硬件加速。[0160]GPGPU机器学习加速[0161]图7示出了根据实施例的高度并行的通用图形处理单元700。在一个实施例中,通用处理单元GPGPU700可被配置为在处理与训练深度神经网络相关联的计算工作负载的类型时是特别有效的。此外,GPGPU700可直接链接到GPGPU的其它实例以创建多GPU集群来提高特别是深度神经网络的训练速度。[0162]GPGPU700包括主机接口702以实现与主机处理器的连接。在一个实施例中,主机接口702是快速PCI接口。然而,主机接口也可以是供应商特定通信接口或通信结构。GPGPU700从主机处理器接收命令并使用全局调度器704来将与那些命令相关联的执行线程分配到一组计算集群706A-706H。计算集群706A-706H共享高速缓存存储器708。高速缓存存储器708可用作在计算集群706A-706H内的高速缓存存储器的较高级高速缓存。[0163]GPGPU700包括经由一组存储器控制器712A-712B与计算集群706A-706H親合的存储器714A-714B。在各种实施例中,存储器714A-714B可包括各种类型的存储器设备,包括动态随机存取存储器DRAM或图形随机存取存储器,例如同步图形随机存取存储器SGRAM,包括图形双数据率GDDR存储器。在一个实施例中,存储器单元224A-224N还可包括3D堆叠式存储器,包括但不限于高带宽存储器HBM。[0164]在一个实施例中,每个计算集群706A-706H包括一组图形多处理器,例如图4A的图形多处理器。计算集群的图形多处理器可以以包括适合于机器学习计算的一定范围的精度来执行计算操作的多种类型的整数和浮点逻辑单元。例如,在一个实施例中,在计算集群706A-706H的每个中的浮点单元的至少子集可被配置为执行16位或32位浮点操作,虽然浮点单元的不同子集可被配置为执行64位浮点操作。[0165]GPGPU700的多个实例可被配置为作为计算集群来操作。由计算集群使用以用于同步和数据交换的通信机制在全部实施例中不同。在一个实施例中,GPGPU700的多个实例通过主机接口702进行通信。在一个实施例中,GPGPU700包括将GPGPU700与GPU链路710耦合的IO集线器709,GPU链路710实现与GPGPU的其它实例的直接连接。在一个实施例中,GPU链路710耦合到专用GPU到GPU桥,其实现在GPGPU700的多个实例之间的通信和同步。在一个实施例中,GPU链路710与高速互连耦合以将数据发送到其它GPGPU或并行处理器并接收数据。在一个实施例中,GPGPU700的多个实例位于单独的数据处理系统中,并经由通过主机接口702可访问的网络设备进行通信。在一个实施例中,除了主机接口702以外或作为对主机接口702的备选方案,GPU链路710可被配置为实现到主机处理器的连接。[0166]虽然GPGPU700的所示配置可被配置为训练神经网络,但是一个实施例提供GPGPU700的可选配置,其可被配置用于部署在高性能或低功率推理平台内。在推理配置中,GPGPU700相对于训练配置包括计算集群706A-706H中的较少计算集群。此外,与存储器714A-714B相关联的存储器技术可在推理和训练配置之间不同。在一个实施例中,GPGPU700的推理配置可支持推理特定指令。例如,推理配置可提供对一个或多个8位整数点积指令的支持,所述一个或多个8位整数点积指令通常在用于部署的神经网络的推理操作期间使用。[0167]图8示出了根据实施例的多GPU计算系统800。多GPU计算系统800可包括经由主机接口开关804耦合到多个GPGPU806A-D的处理器802。在一个实施例中,主机接口开关804是将处理器802耦合到快速PCI总线的快速PCI开关设备,处理器802可通过该快速PCI总线与这组GPGPU806A-806D通信。多个GPGPU806A-806D中的每个可以是图7的GPGPU700的实例。可经由一组高速点对点GPU到GPU链路816来互连GPGPU806A-D。高速GPU到GPU链路可经由专用GPU链路例如如图7中的GPU链路710连接到GPGPU806A-806D中的每个。P2PGPU链路816实现在GPGPU806A-D中的每个之间的直接通信而不需要通过处理器802连接到的主机接口总线进行通信。在GPU到GPU业务指向P2PGPU链路的情况下,主机接口总线保持对系统存储器存取是可用的或例如经由一个或多个网络设备与多GPU计算系统800的其它实例通信。虽然在所示实施例中,GPGPU806A-806D经由主机接口开关804连接到处理器802,但是在一个实施例中,处理器802包括对P2PGPU链路816的直接支持,并可直接连接到GPGPU806A-806D。[0168]机器学习神经网络实现[0169]由本文所述的实施例提供的计算架构可被配置为执行特别适合于训练和部署用于机器学习的神经网络的并行处理的类型。神经网络可被一般化为具有曲线关系的功能的网络。如在本领域中公知的,存在在机器学习中使用的各种类型的神经网络实现。神经网络的一个示例性类型是如前所述的前馈网络。[0170]神经网络的第二示例性类型是卷积神经网络CNNXNN是用于处理具有已知的栅格状拓扑的数据例如,图像数据)的专用前馈神经网络。因此,CNN通常用于计算视觉和图像识别应用,但它们也可用于其它类型的模式识别,例如语音和语言处理。在CNN输入层中的节点被组织到一组“滤波器”(由在视网膜中找到的感受域激发的特征检测器)内,并且每组滤波器的输出传播到在网络的连续层中的节点。针对CNN的计算包括将卷积数学操作应用于每个滤波器以产生那个滤波器的输出。卷积是由两个功能执行以产生第三功能的专业类型的数学操作,所述第三功能为这两个原始功能中的一个的修改版本。在卷积网络术语中,用于卷积的第一功能可被称为输入,而第二功能可被称为卷积内核。输出可被称为特征图。例如,用于卷积层的输入可以是定义输入图形的各种颜色分量的数据的多维阵列。卷积内核可以是参数的多维阵列,其中参数由用于神经网络的训练过程进行适配。[0171]递归神经网络RNN是包括在层之间的反馈连接的一系列前馈神经网络。RNN通过在神经网络的不同部分当中共享参考数据来实现序列数据的建模。RNN的架构包括循环。循环表示变量的当前值对在未来的时间它自己的值的影响,因为来自RNN的输出数据的至少一部分用作对处理在序列中的随后输入的反馈。这个特征由于语言数据可以具有的变量性质而使RNN对语言处理特别有用。[0172]下文所述的附图呈现示例性前馈、CNN和RNN网络以及描述用于分别训练和部署那些类型的网络中的每个的一般过程。将理解,这些描述是示例性的而非限制性为本文所述的任何特定实施例,并且总体而言,所示概念可通常应用于深度神经网络和机器学习技术。[0173]上文所述的示例性神经网络可用于执行深度学习。深度学习是使用深度神经网络的机器学习。在深度学习中使用的深度神经网络是由多个隐藏层组成的人工神经网络,与只包括单个隐藏层的浅层神经网络不同。较深度的神经网络通常对于训练是更计算密集的。然而,网络的额外隐藏层实现多步骤模式识别,多步骤模式识别导致相对于浅层机器学习技术减小输出错误。[0174]在深度学习中使用的深度神经网络一般包括前端网络以执行耦合到代表数学模型的后端网络的特征识别,该数学模型可基于被提供到该模型的特征表示来执行操作(例如对象分类、语音识别等)。深度学习使机器学习能够被执行而不需要针对模型执行的手工制作特征工程。替代地,深度神经网络可基于在输入数据内的统计结构或关联来学习特征。所学习的特征可被提供到可将检测到的特征映射到输出的数学模型。由网络使用的数学模型通常专用于待执行的特定任务,并且不同的模型将用于执行不同的任务。[0^5]—旦构造神经网络,则学习模型就可应用于网络以训练网络来执行特定的任务。学习模型描述如何调节在模型内的权重以减小网络的输出错误。错误的反向传播是用于训练神经网络的常见方法。输入矢量被呈现给网络以用于处理。使用损失函数来比较网络的输出与期望输出,并针对在输出层中的每个神经元计算错误值。错误值然后向后传播,直到每个神经元具有大致表示它对原始输出的贡献的相关联的错误值为止。接着网络可使用算法例如随机梯度下降算法从那些错误中学习,以更新神经网络的权重。[0176]图9A-图9B示出了示例性卷积神经网络。图9A示出了在CNN内的各种层。如图9所示,用于对图像处理建模的示例性CNN可接收描述输入图像的红色、绿色和蓝色RGB分量的输入902。输入902可由多个卷积层例如卷积层904、卷积层906处理。来自多个卷积层的输出可以可选地由一组完全连接的层908处理。在完全连接的层中的神经元具有与在先前层中的所有激活的完全连接,如前面对前馈网络描述的。来自完全连接的层908的输出可用于根据网络产生输出结果。可使用矩阵乘法而不是卷积来计算在完全连接的层908内的激活。不是所有CNN实现都利用完全连接的层908。例如在一些实现中,卷积层906可以针对CNN生成输出。[0177]卷积层被稀疏地连接,这不同于在完全连接的层908中找到的传统神经网络配置。传统神经网络层被完全连接,使得每个输出单元与每个输入单元交互作用。然而,卷积层被稀疏地连接,因为域的卷积的输出被输入而不是在域中的每个节点的相应状态值到随后层的节点,如所示。与卷积层相关联的内核执行卷积运算,其输出被发送到下一层。在卷积层内执行的维数约减是使CNN能够缩放以处理较大的图像的一个方面。[0178]图9B示出了在CNN的卷积层内的示例性计算级。可在卷积层914的三个级中处理CNN的卷积层912的输入。这三个级可包括卷积级916、检测器级918和池级920。卷积层914可接着将数据输出到后继的卷积层。网络的最后一个卷积层可生成输出特征图数据或将输入提供到完全连接的层,例如以生成用于CNN的输入的分类值。[0179]卷积级916并行地执行几个卷积以产生一组线性激活。卷积级916可包括仿射变换,其为可被规定为线性变换加平移的任何变换。仿射变换包括旋转、平移、缩放和这些变换的组合。卷积级计算连接到在输入中的特定区域的函数例如神经元)的输出,该特定区域可被确定为与神经元相关的局部区域。神经元计算在神经元的权重和神经元连接到的局部输入中的区域之间的点积。来自卷积级916的输出定义由卷积层914的后继级所处理的一组线性激活。[0180]线性激活可由检测器级918处理。在检测器级918中,每个线性激活由非线性激活函数处理。非线性激活函数增加总网络的非线性特性而不影响卷积层的感受域。可使用几种类型的非线性激活函数。一个特定的类型是修正线性单元ReLU,其使用被定义为fX=max0,x的激活函数,使得激活以零为阈值。[0181]池级920使用池函数,其用附近输出的概括统计量来代替卷积层906的输出。池函数可用于将平移不变性引入到神经网络内,使得对输入的小平移不改变池化的输出。对局部平移的不变性可能在输入数据中的特征的存在比特征的精确位置更重要的情形中是有用的。可在池级920期间使用各种类型的池函数,池级920包括最大池、平均池和12标准池。此外,一些CNN实现不包括池级。替代地,这样的实现代替相对于先前的卷积级具有增加的步幅的额外卷积级。[0182]来自卷积层914的输出可接着由下一层922处理。下一层922可以是额外的卷积层或完全连接的层908中的一个。例如,图9A的第一卷积层904可输出到第二卷积层906,而第二卷积层可输出到完全连接的层908的第一层。[0183]图10示出了示例性递归神经网络1000。在递归神经网络RNN中,网络的先前状态影响网络的当前状态的输出。可使用各种函数以各种方式构建RNNANN的使用通常以数学模型为主题以基于输入的先前序列来预测未来。例如,给定字的先前序列,RNN可用于执行统计语言建模以预测即将来临的字。所示RNN1000可被描述为具有接收输入矢量的输入层1002、用于实现递归函数的隐藏层1004、用于实现先前的状态的“记忆”成为可能的反馈机构1005和用于输出结果的输出层1006ANN1000基于时间步长来操作。RNN在给定时间步长处的状态基于先前时间步长经由反馈机构1005来影响。对于给定时间步长,隐藏层1004的状态由先前状态和在当前时间步长处的输入定义。在第一时间步长处的初始输入xl可由隐藏层1004处理。第二输入x2可由隐藏层1004使用在初始输入xl的处理期间确定的状态ί目息来处理。给定状态可被计算为st=fUxt+Wst-i,其中U和W是参数矩阵。函数f通常是非线性的,例如双曲线正切函数Tanh或修正器函数的变形fX=max0,x。然而,在隐藏层1004中使用的特定数学函数可取决于RNN1000的特定实现细节来改变。[0184]除了所描述的基本CNN和RNN网络以外,在那些网络上的变化也可成为可能。一个示例RNN变形是长短期记忆LSTMRNN13LSTMRNN能够学习可能对处理语言的较长序列必要的长期依赖性。在CNN上的变形是卷积深度信念网络,其具有与CNN类似的结构并以与深度信念网络类似的方式被训练。深度信念网络DBN是由随机random随机)变量的多个层组成的生成式神经网络。可使用贪婪的无监督学习来逐层训练DBNJBN的学习的权重可接着用于通过确定用于神经网络的权重的最佳初始集合来提供预训练神经网络。[0185]图11示出了深度神经网络的训练和部署。一旦给定网络被构造用于任务,则使用训练数据集1102来训练神经网络。开发了各种训练框架1104来实现训练过程的硬件加速。例如,图6的机器学习框架604可被配置为训练框架604。训练框架604可钩到未训练的神经网络1106内,并使用本文所述的并行处理资源使未训练的神经网络被训练以生成经训练的神经网络1108。[0186]为了开始训练过程,可随机地或通过使用深度信念网络来预训练而选择初始权重。然后以监督或无监督的方式来执行训练循环。[0187]监督学习是一种学习方法,其中训练作为中间操作被执行,例如当训练数据集1102包括与输入的期望输出配对的输入时,或其中训练数据集包括具有已知输出的输入并且神经网络的输出手动地被分级。网络处理输入并比较所得到的输出与一组预期或期望输出。然后通过系统回传错误。训练框架1104可调节以调节控制未训练的神经网络1106的权重。训练框架1104可提供工具以监控未训练的神经网络1106集中于如下模型的良好程度,所述模型适合基于已知的输入数据来生成正确的答案。当网络的权重被调节以改进由神经网络生成的输出时,训练过程重复地发生。训练过程可继续,直到神经网络达到与经训练的神经网络1108相关联的统计上期望的精度为止。经训练的神经网络1108可接着被部署来实现任何数量的机器学习算法。[0188]无监督学习是一种学习方法,其中网络试图使用无标签的数据来训练本身。因此,对于无监督学习,训练数据集1102将包括输入数据而没有任何相关联的输出数据。未训练的神经网络1106可学习在无标签的输入内的编组,并可确定单独的输入如何与总数据集有关。无监督训练可用于生成自组织图,其为能够执行在减小数据的维数时有用的操作的一种类型的经训练的神经网络1107。无监督训练也可用于执行异常检测,其允许识别输入数据集中的从数据的正常模式偏离的数据点。[0189]也可采用在监督和无监督训练上的变形。半监督学习是一种技术,其中训练数据集1102包括同一分布的带标签和无标签的数据的混合。递增学习是监督学习的变形,其中输入数据连续地用于进一步训练模型。递增训练使经训练的神经网络1108能够适合于新数据1112,而在初始训练期间不忘记在网络内灌输的指示。[0190]不管是监督的还是无监督的,用于特别的深度神经网络的训练过程对于单个计算节点可能是计算上太密集的。不是使用单个计算节点,计算节点的分布式网络可用于加速训练过程。[0191]图12是示出了分布式学习的方框图。分布式学习是使用多个分布式计算节点来执行神经网络的监督或无监督训练的训练模型。分布式计算节点中的每个可以包括一个或多个主机处理器和通用处理节点(例如,如在图700中的高度并行的通用图形处理单元700中的一个或多个。如所示,分布式学习可由模型并行1202、数据并行1204或模型和数据并行1204的组合来执行。[0192]在模型并行1202中,在分布式系统中的不同计算节点可针对单个网络的不同部分执行训练计算。例如,神经网络的每层可由分布式系统的不同处理节点训练。模型并行的益处包括用于缩放到特别大的模型的能力。对与神经网络的不同层相关联的计算进行划分能够实现非常大的神经网络的训练,其中所有层的权重将不适合于单个计算节点的记忆。在一些实例中,模型并行可能在执行大神经网络的无监督训练时是特别有用的。在模型并行的另一示例中,在神经网络模型的一层或多层中的计算可在跨越特征图维数的多个计算节点中进行划分以减小每节点模型参数的尺寸。[0193]在数据并行1204中,分布式网络的不同节点具有模型的完整实例,并且每个节点接收数据的不同部分。然后组合来自不同节点的结果。虽然用于数据并行的不同方法是可能的,但是数据并行训练方法都需要组合结果并使在每个节点之间的模型参数同步的技术。用于组合数据的示例性方法包括参数平均化和基于更新的数据并行。参数平均化在训练数据的子集上训练每个节点,并将全局参数例如权重、偏置设置为来自每个节点的参数的平均。参数平均化使用维持参数数据的中心参数服务器。基于更新的数据并行类似于参数平均化,除了不是将参数从节点传送到参数服务器而是对模型的更新被传送以外。此夕卜,可以用分散的方式来执行基于更新的数据并行,其中更新被压缩并在节点之间被传送。[0194]组合的模型和数据并行1206可例如在分布式系统中实现,在所述分布式系统中每个计算节点包括多个GPU。每个节点可具有模型的完整实例,在每个节点内的单独GPU用于训练模型的不同部分。[0195]分布式训练相对于在单个机器上的训练增加了开销。然而,本文所述的并行处理器和GPGPU中的每个可以实现各种技术以减小分布式训练的开销,所述各种技术包括实现高带宽GPU到GPU数据传送和加速的远程数据同步的技术。[0196]示例性机器学习应用[0197]机器学习可应用于解决各种技术问题,包括但不限于计算机视觉、自主驾驶和导航、语音识别和语言处理。计算机视觉传统上是机器学习应用的最活跃的研究领域中的一个。计算机视觉的应用范围从复制人类视觉能力(例如,面部识别)到创建视觉能力的新类另IJ。例如,计算机视觉应用可被配置为从来自在视频中可见的物体中引起的振动中识别声波。并行处理器加速的机器学习使用比先前可行的明显更大的训练数据集使计算机视觉应用能够被训练,并使用低功率并行处理器使推理系统能够被部署。[0198]并行处理器加速的机器学习具有自主驾驶应用,包括车道和道路标志识别、障碍物避免、导航和驾驶控制。加速的机器学习技术可用于基于定义对特定训练输入的适当响应的数据集来训练驾驶模型。本文所述的并行处理器可实现用于自主驾驶解决方案的日益复杂的神经网络的快速训练并实现在适合于集成到自主车辆内的移动平台中的低功率推理处理器的部署。[0199]并行处理器加速的深度神经网络使机器学习方法实现到自动语音识别ASR^SR包括创建给定输入随机序列而计算最可能的语言序列的函数。使用深度神经网络的加速的机器学习实现代替先前用于ASR的隐马尔科夫HMM和高斯混合模型GMM。[0200]并行处理器加速的机器学习也可用于加速自然语言处理。自动学习过程可利用统计推理算法来产生对错误或不熟悉的输入是鲁棒的模型。示例性自然语言处理器应用包括在人类语言之间的自动机器翻译。[0201]用于机器学习的并行处理平台可划分为训练平台和部署平台。训练平台通常是高度并行的,并包括优化以加速多GHJ单节点训练和多节点多GPU训练。适合于训练的示例性并行处理器包括图7的高度并行的通用图形处理单元700和图8的多GPU计算系统800。相反,所部署的机器学习平台通常包括适合于在产品(例如,摄像机、自主机器人和自主车辆)中使用的较低功率并行处理器。[0202]图13示出了适合于使用经训练的模型来执行推理的示例性推理片上系统(SOCISOOt3SOC1300可集成处理部件,包括媒体处理器1302、视觉处理器1304、GPGPU1306和多核处理器1308AOC1300可以此外包括片上存储器1305,其实现由每个处理部件可访问的共享片上数据池。处理部件可针对低功率操作进行优化以实现部署到包括自主车辆和自主机器人的各种机器学习平台。例如,SOC1300的一个实现可用作用于自主车辆的主控制系统的一部分。在SOC1300被配置为在自主车辆中使用的场合,SOC设计和被配置用于与部署管辖权的相关功能安全标准兼容。[0203]在操作期间,媒体处理器1302和视觉处理器1304可共同工作以加速计算机视觉操作。媒体处理器1302可实现多个高分辨率例如4K、8K视频流的低延迟解码。解码的视频流可被写到片上存储器1305中的缓冲器。视觉处理器1304可接着解析解码的视频并使用经训练的图像识别模型在处理帧的准备中对解码的视频的帧执行预备处理操作。例如,视觉处理器1304可加速用于对高分辨率视频数据执行图像识别的CNN的卷积运算,而后端模型计算由GPGPU1306执行。[0204]多核处理器1308可包括控制逻辑以有助于由媒体处理器1302和视觉处理器1304执行的数据传送和共享存储器操作的排序和同步。多核处理器1308也可以用作应用处理器以执行可利用GPGPU1306的推理计算能力的软件应用。例如,可在多核处理器1308上执行的软件中实现导航和驾驶逻辑的至少一部分。这样的软件可直接向GPGPU1306发出计算工作负载,或计算工作负载可以被发出到多核处理器1308,其可将那些操作的至少一部分卸载到GPGPU1306。[0205]GPGPU1306可包括计算集群,例如在高度并行的通用图形处理单元700内的计算集群706A-706H的低功率配置。在GPGPU1306内的计算集群可支持被特别优化以对经训练的神经网络执行推理计算的指令。例如,GPGPU1306可支持用于执行低精度计算例如,8位和4位整数矢量操作)的指令。[0206]用于深度学习应用的量化框架[0207]描述了在深度学习应用中执行低精度张量的量化和数据表示的方法和装置。每个低精度张量可包含数据缓冲器和被表示为数据结构的相关联的元数据。元数据可包含关于用于执行数据转换和算术运算所必需的数据类型整数、定点、浮点或任何其它定制数据类型)、精度和共享指数缩放因子的信息。数据缓冲器可被存储为一个连续的块或具有与每个块相对应的很多指数缩放因子的很多较小的块。具有细粒度缩放的较小块可用于捕获较宽的动态范围(一般是在训练期间梯度所需的),每个块独立地缩放以符合低精度数据类型的范围和精度。[0208]本文所述的实施例提供可用于存储量化浮点数据的动态定点表示。描述了用于执行动态定点量化DFPQ以在浮点数之间转换到具有共享指数的整数的方法和装置。还描述了动态定点数据表示连同用于执行基本算法操作的相关联的公式。在一个实施例中,使用16位动态定点表示,其具有1位符号、15位幅度,并使用单独存储的8位共享指数。然而,共享指数的尺寸可在不同的定点表示中改变。例如,可使用5位、8位、16位或32位共享指数。在一个实施例中,任何尺寸的带符号整数可用作共享指数,并且数据可由任何尺寸的带符号或无符号整数表示。为了从浮点转换成传统定点,我们可使浮点值乘以2fb,其中fb是目标定点表示的分数位的数量例如对于24.8定点是28,并将结果舍入到最接近的整数。可选地,一些实现使用查找表或散列表来执行这个转换。然而,这些技术可导致相当大的数据损失,取决于待转换的数据的动态范围。此外,传统系统通常使用数据集的单定点格式,而不是动态改变每数据块的表示例如张量、神经网络层等)。在一些实施例中,可在块中处理数据,每个块具有相关联的共享指数。虽然在本文描述了成块的动态定点表示,成块的数据表示也可用于任何其它标准或定制低精度固定或浮点数据。[0209]图14示出了根据实施例的在浮点和动态定点格式之间的比较。针对多个浮点格式到多个动态定点位宽支持量化。为了示例性目的示出了单精度例如32位浮点1410到16位动态定点1420。示出了IEEE-754单精度编码,其中浮点值包括符号位1411、8位指数1412和23位显式尾数。示出8x8张量1415,其中64个浮点值每条目存储在32位处。[0210]浮点表示1410可在最小数据损失的情况下被量化为16位动态定点表示1420。动态定点表示使32位浮点值1414的8x8张量1415能够存储在16位整数值的8x8张量1425中,每个与8位共享指数相关联。浮点符号位1411被预留为定点符号位1421。可使用15位幅度1422和共享指数1423来存储指数1414和尾数1413的32位包括显式前导位),共享指数1423用作整个8x8张量1425的缩放因子。[0211]图15A示出了根据实施例的动态定点量化。基于在待量化的张量内的绝对最大值来执行动态定点量化。所示的量化如由等式⑴所指示的被执行。[0213]量化值与充当张量的共享指数的共享标量因子SF相关联。如在等式2中所示的计算SF。[0214]SF={Eabs_max-127}2[0215]等式⑴和等式2可应用于量化在张量内的值,其中张量具有318.00的绝对最大值1502〇·^,χ=318.00。绝对最大值1502与绝对最大指数1504A和绝对最大尾数1504B相关联,示例性Eabs_max=135。为了量化具有指数1514ΑEx和尾数1514ΒMx的示例性浮点值1512〇·χ=3.4667968,尾数1514B向右移动了在指数1514A和绝对最大值指数之间的差以创建幅度整数1524Ix,显式前导位1513LB被存储为在幅度整数1524内的显式位1523。针对量化的定点值维持符号位1520Sx。如在上文的等式2中所示的来计算缩放的指数缩放因子1522SF。[0216]图15Β示出了根据实施例的解量化。在一个实施例中,解量化是量化的逆。公共缩放因子1522可用于在定点计算的舍入之后将每个幅度整数1425Ix转换成浮点值。通过将值传递到前导零检测器逻辑1530LZD内以生成指示在幅度整数1524中的前导零的数量的LZx值1532来转换幅度整数1524Ix。幅度整数1524Ix基于LZx值1532由移位逻辑向左移动,并且明确地存储的前导位恢复到隐式前导位1533。如同量化一样,符号位1520不变。如在等式⑶中所述的计算解量化的指数1534ΑEx。[0217]Ex={127+SF+LZx+l}3[0218]可接着基于解量化的符号、指数和尾数来构造浮点值。[0219]在接下来的等式中示出了一般动态定点公式。为了将32位浮点张量fte_r转换成dfptensor,其中ftensor={f〇,fl,f2,…;^,},经由等式⑷来计算共享块指数例如缩放因子[0221]此外,dfptensor={ltensor,SF},其中Itensor={I。,II,12,···In,}。在等式⑸中计算Itensor的元素。[0223]在等式⑸中,P是用于表示Ix的位的数量。例如,对于16位动态定点值dfp16,P=16。[0224]图16A示出了算术运算(加法、乘法和向下转换的等式以支持16位动态定点格式的输入和输出。定义等式,其中以及是来自两个不同的16位dfp张量的值,然后可如所示定义加法1610、乘法1620和向下转换1630。加法1610的算术运算被定义为:[0227]乘法1620的算术运算被定义为:[0228]:.,其中[0229]是32位整数。[0230]向下转换1630的算术运算dft32—dft16被定义为:[0231]其中[0232]5以及Rshift=16-LZCI32-1[0233]在上文的等式中,LZC指前导零计数等式。[0234]本文所述的实施例不限于使用16位动态定点数据类型的计算。一个实施例提供具有对硬件加速原语的支持的计算逻辑以执行在浮点和变化尺寸的动态定点数据之间的转换。这样的实施例也可提供对硬件加速原语的支持以对动态定点数据执行算术运算。[0235]当将浮点张量转换成动态定点时,从浮点张量的绝对最大值的指数得到共享指数。如果F是浮点张量,则指数是如由等式6表达的绝对最大值。[0236][0237]共享指数Es的值是Efmax和由输出整数张量I使用的位P的数量的函数,如在等式7中所示的。[0238][0239]所得到的DFP张量与输入浮点张量F的关系如在等式⑻中所示的。[0240]其中fneF⑻[0241]基于上文的基本公式,可如下所述和如在图16B中所示的定义用于在神经网络训练中使用的一组动态定点原语。[0242]图16B示出了根据实施例的硬件加速动态定点原语的等式。对加法1640的原语的操作可被定义为:[0244]乘法原语1650的操作可被定义为:[0245]和指数[0246]在一个实施例中,当融合的乘法和加法操作被执行时,所有乘积可具有相同的共享指数:因此这样的乘积的和具有相同的共享指数。[0247]可执行向下转换以将从神经网络的一层输出的较高精度动态浮点数据缩放为较低的精度以用于输入到后续层。N位I张量的数据可以向右移匕位以符合较低精度张量。用于向下转换原语1660的操作可被定义为:[0248][0249][0250]虽然在本文关于定点计算描述了动态精度,但是动态精度操作也可扩展到浮点、低精度浮点和定制定义的浮点数据类型。特别是,如在图21A-图21D中进一步描述的成块的动态精度操作可通常应用于低精度数据类型以实现在具有较大的动态范围的数据上的计算,该较大的动态范围否则可由低精度数据类型支持。[0251]用于训练低精度整数神经网络的有偏舍入[0252]—个实施例提供用于有偏舍入以使用低精度整数网络来提高训练精度的方法和装置。本文所述的有偏舍入在低精度训练的一些实现中的使用中实现与随机舍入技术相等或更好的性能。有偏舍入技术避免用于计算在随机舍入中使用的随机数的随机数发生器的要求,相对于随机舍入实现减小的延迟和功率消耗。[0253]在一个实施例中,当执行从32位浮点值到16位动态定点值的量化时或当将32位动态定点值向下转换到16位动态定点值时,执行有偏舍入技术。有偏舍入技术提高量化或向下转换的数据集具有与量化前或向下转换前的数据类似的数据分布的可能性。[0254]有偏舍入逻辑被配置为具有朝着向上舍入的偏置。在一个实施例中,用表示0.25ε的额外的位作为偏置位来实现这个偏置,其中ε是可在目标精度中表示的最小值。在表5中示出用于单个偏置位的舍入精度的真值表。[0255]表5-有偏舍入真值表[0257]在表5中示出向上舍入的偏置,其中向上舍入被执行,除非舍入位和偏置位都为零。表5的真值表是一个实施例的示例,其中单个舍入位和单个偏置位存在。在一个实施例中,两个偏置位存在。在其它实施例中,三个或更多个偏置位存在。在这样的实施例中,可基于输入数据分布来调节偏置。[0258]图17示出了根据实施例的浮点到动态定点有偏舍入。如图17所示的对有偏舍入的量化类似于如图15Α所示的量化。此外,舍入位1740和偏置位1742用于捕获否则将在右移位期间失去以生成整数幅度值的位。基于有值的舍入位1740和偏置位1742,基于舍入和偏置位来应用真值函数或真值表,例如,图5所示的真值表。可接着生成舍入幅度1744,其基于真值表来进行舍入或未舍入。[0259]用于整数深度学习原语的动态精度管理[0260]在整数算术运算期间的累加器的溢出和或饱和引入相当大的计算误差,同时执行较长的累加链例如GEMM或卷积)。一个实施例使技术能够使用动态定点表示来动态地调节输入的有效精度以在对精度的最小影响的情况下防止这样的误差。[0261]图18是根据实施例的多处理器单元1800的方框图。多处理器单元1800可以是图2D的图形多处理器234的变形。多处理器单元1800包括取出和解码单元1802、分支单元1804、寄存器文件1806、线程管理器1808、单指令多线程单元SIMT单元1809和动态精度管理器1819。取出和解码单元1802可取出指令以用于由多处理器单元1800执行。指令可使SMT单元1809的一个或多个计算单元例如计算单元1810执行与如本文所述的神经网络相关联的计算操作。在一个实施例中,指令使计算单元1810使用如本文所述的动态定点数据类型来执行动态精度计算。分支单元1804可基于所执行的跳转指令来计算指令指针调节。寄存器文件1806可存储由snrr单元1809使用的通用和架构寄存器。线程管理器1808可在snn'单元1809的计算单元当中分配和再分配线程。在一个实施例中,SIMT单元1809被配置为执行单个指令作为多个线程,指令的每个线程由单独的计算单元执行。在一个实施例中,计算单元1811到计算单元1818每个包括整数ALU例如ALU1811A-1818A和浮点单元(例如FPU1811B-1818B。在SIMT单元1809内的每个计算单元1811-1818的电压和频率可由电压和频率管理器动态地管理,当计算单元的部件被启用和禁用时,电压和频率管理器可增加或降低被供应到各种计算单元的电压和时钟频率。[0262]在一些先前启用的配置中,每个计算单元可执行整数指令或浮点指令的单个线程。如果ALU1811A-1818A中的任一个被分派执行整数指令的线程的任务,则相应的FPU1811B-FPU1418B对用于执行浮点指令的线程是不可用的,并且在相对应的ALU1811A-ALU1818A的操作期间可以是功率选通的。例如,虽然ALU181IA可执行整数指令的线程,而FPU1813B执行浮点指令的线程,FPU181IB是功率选通的,而ALU1813A是活动的。本文所述的实施例通过例如使ALU1811A能够执行指令的线程而FPU1811B执行不同指令的线程来克服这样的限制。此外,一个实施例提供对混合精度或混合数据类型操作数的支持,使得单个指令可针对具有浮点和整数操作数和或具有不同精度的操作数的指令同时执行操作。[0263]本文所述的实施例通过制造在执行计算可用的每个计算单元内的所有逻辑单元来实现计算单元的集群的增加的运算吞吐量。在这样的实施例中,被设计为在多个精度或多个数据类型中的一个处选择性地执行计算的计算单元内的逻辑单元可被配置为针对由计算单元支持的每个精度或数据类型执行多个同时操作。对于给定计算单元1811-1818,ALU1811A-1818A可执行整数操作,而FPU1811B-1818B执行浮点操作。可以针对单个指令或针对多个指令执行这些操作。[0264]在一个实施例中,动态精度管理器1819可被配置为动态地调节计算操作的精度,例如以防止在累加链期间发生溢出。较长的累加链一般需要较长的累加器。累加器所需的额外位的数量是〜Iog2n,其中在η是累加的数量。本文所述的一些实施例可被配置为动态地调节计算的“有效精度”。可在正在进行的累加链的输入数据和或中间输出上应用这样的计算。在将中间数据传递通过计算的下一迭代之前,中间数据“向右”移动了RshlftJshlft值基于启发法来计算,并可递增或递减以保持尽可能多的精度位,同时保持溢出在控制中。[0265]图19Α-图19Β示出了根据实施例的被配置有动态精度能力的逻辑单元1920、1940。在一个实施例中,逻辑单元1920、1940可存在于如在图18中的计算单元1810内。[0266]如图19Α所示,逻辑单元1920可由包括16bxl6b乘法器1924和32位加法器1926的16位乘法-加法逻辑来处理输入值1921。32位加法器1926可将乘法运算的乘积1925与从累加器1934读取的累加器值1923进行加和,在一个实施例中,累加器1934是32位整数寄存器。32位加法器1926可输出以动态定点表示的整数和1928。在逻辑内的各种点处,移位器例如移位逻辑1927、1933、1935可用于移动结果以动态地调节精度并防止溢出。共享指数或缩放因子SF可存储在SF寄存器1930中以使预留移位的精度的逆能够生成输出数据。可基于精度启发式单元1929来确定存储在SF寄存器1930中的缩放因子,精度启发式单元1929可调节缩放因子以保持尽可能多的精度位而没有溢出。在一个实施例中,精度启发式单元1929可至少部分地存在于图18的动态精度管理器1819中。[0267]在一个实施例中,也可维持元数据1932连同动态定点数据的块以跟踪数据的共享缩放因子。元数据1932可与动态定点数据一致地被存储,或可存储在跟踪动态定点数据的多个块的缩放因子的单独元数据结构中。在一个实施例中,元数据可以是或可被推导自存储在缩放因子寄存器1930中的缩放因子数据。在一个实施例中,用于动态定点数据的块的元数据可由移位逻辑1933使用来在将数据存储在累加器1934中之前对动态定点数据进行移位。在一个实施例中,前导位检测器1931可用于检测在整数和1928中的前导一或前导零。在这样的实施例中,前导零或前导一的数量可用作确定是否对中间输出进行移位的启发法。在一个实施例中,前导位检测器1931可被配置为当检验绝对值时只检测前导零。[0268]虽然在图19A-图19B中示出数据类型和逻辑单元的特定尺寸,但是实施例不限于任何特定尺寸,因为乘法器1924、加法器1926和本文所述的其它逻辑的尺寸可在实施例中改变。此外,本文所述的动态精度逻辑不限于动态精度定点例如整数逻辑和数据类型。[0269]图19B示出了使用组合的动态定点和浮点操作的动态精度计算。与逻辑单元1920类似的逻辑单元1940可以用能够以较大的动态范围进行计算的浮点逻辑元件代替移位逻辑1927、1933。逻辑单元1940可包括内部块1942,其包括N位XN位整数乘法器1944,其基于待执行的指令或原语、或被提供给待执行的指令或原语的参数来输出预定位长度的整数乘积1945A位加法器1946可将乘积1945与从累加器1950读取的累加器值1943进行加和,累加器1950可以是多个预定尺寸(例如8位、16位、32位、140位等)中的一个的整数寄存器。内部块1942可被配置为对输入数据执行多趟乘法和累加,其中趟数被确定为是不使被配置用于内部块1942的位长度溢出的数字。在一个实施例中,由内部块1942执行的趟数可由如在图18中的动态精度管理器1819预先确定为输入1921,并经由精度启发式模块1929来配置。[0270]—旦预定数量的迭代由内部块1942执行,则可经由动态定点到浮点转换器单元1954将数据从动态定点转换为浮点。可基于被存储为元数据1932的部分以用于输出张量的预缩放因子来执行转换。所转换的输出可接着被累加到浮点累加器寄存器1956,在一个实施例中,浮点累加器寄存器1956可以是32位FP32寄存器。在一个实施例中,可在浮点中执行针对张量数据的额外操作。逻辑1940可用于实现针对至少部分地在动态定点精度中被执行数据集的训练,实现在训练的较早部分期间使性能和效率增益,减小神经网络的总训练时间。[0271]图20是示出了根据实施例的用于实现针对整数深度学习原语的动态精度管理的逻辑200的流程图。逻辑2000可接收一组动态定点张量作为输入,如在块2002处所示的。逻辑2000可接着确定是否对输入移位,如在块2003处所示的。如果输入将被移位,则在块2012处逻辑2000可使用张量的绝对最大值和动态范围来计算“rshift”(向右移位)。逻辑2000可接着基于rshift值来对数据右移位并使共享指数递增,如在块2014处所示的。如果移位是不需要的或在移位被执行之后,在块2004处逻辑2000可接着执行必要的计算操作(例如MUL、ADD、MADD。[0272]在块2004处执行计算操作之后,在块2006处逻辑2000可接着检查输出张量的绝对最大值的前导零计数。在块2007处如果前导零计数高于溢出阈值,则逻辑2000可基于前导零计数来调节输出张量的精度。调节输出张量的精度包括调节针对输出的共享指数的rshift计数。例如,逻辑2000可增加针对输出的rshift计数,并且在块2016处如果前导计数零高于溢出阈值则使共享指数递增。否则,在块2008处逻辑2000可使针对输出的rshift计数递减并使共享指数递减。调节rshift计数可包括调节被配置为跟踪应用于输出张量的右移位的程度的rshift计数器。调节右移位计数可与将右移位应用于输出数据相对应。在使rshift计数器递增或递减以及使共享指数递增或递减之后,可通过返回到块2004来执行额外的计算操作。[0273]图21A-图21D示出可根据本文所述的实施例的成块的动态多精度数据操作。成块的动态多精度数据操作可被执行用于动态定点数据,并且也可被一般化以实现针对任何低精度数据类型的块级缩放。在训练情形中,一些张量可以是成块的,而其它张量可以是未成块的。例如,反向传播可能需要较大的动态范围,所以计算逻辑可被配置为使用较小的块尺寸来使张量数据成块。对于正向传播计算,成块可能不是需要的。[0274]在一个实施例中,可使用可变块尺寸,块尺寸和缩放因子在用于数据块的元数据中被维持。当处理成块的多精度张量数据时,计算逻辑可读取用于块的元数据并配置计算单元以对数据块执行逻辑操作。[0275]图21A示出了根据实施例的与成块的动态定点相关联的存储器图2100。图21B示出了根据实施例的成块的多维细粒度量化张量2110。图21C示出了可在成块的动态精度数据类型中表示的3x3滤波器的示例性组2120。图21D示出了根据实施例的执行成块的动态定点操作的过程2130。[0276]较高的功能范围需要较多的精度位来使用整数表示全范围。一个解决方案是将张量划分为具有独立共享指数的较小的块,同时在较低的精度下维持整数数据。这种技术对表示大矩阵乘法和卷积运算是有用的。在每个块内使用较小的块实现较高的有效精度,并帮助使用低精度计算来实现更好的总精度。[0277]如在图21A中所示的,64x64张量2100可划分为四个32x32块2102、2103、2106、2107J2X3块中的每个可在与每个块相关联的元数据2101、2104、2105、2108中具有单独的共享指数缩放因子。元数据2101、2104、2105、2108可与32义32块2102、2103、2106、2107中的每个连续地存储在一起,或可存储在存储器的单独区域中。除了共享指数或缩放因子数据以外,元数据还可包含用于数据转换例如浮点到定点转换或定点到浮点转换)的其它项。此外,可针对在低精度或定制浮点格式中存储的张量数据执行成块,数据被移位或浮点格式被调节以正确地捕获在每个块内的数据的动态范围。可经由元数据2101、2104、2105、2108来跟踪用于跟踪对数据和数据格式的调节的数据。[0278]虽然64x64张量2100被示为具有四个2x32块2102、2103、2106、2107,但是实施例不限于所示张量尺寸和块尺寸,并且在各种实施例中可使用任何张量和块尺寸。[0279]图21B示出了根据实施例的成块的多维细粒度量化张量2110。张量2110可划划分为沿着一个或多个维的块,每个块具有单独的共享指数例如EXPl2111、EXP2、2112等)。针对量化张量2110的共享指数数据可存储在用于张量的元数据中。元数据可维持针对每个块的指数缩放因子以及针对每个块的块尺寸。在一个实施例中,可沿着张量的所有维执行在可变块尺寸的情况下的划分。可生成在张量的所有维中具有可变尺寸块的数据表示。例如,用于在卷积运算中使用的张量数据可具有相对应的样本、颜色通道、宽度和高度尺寸的N、C、H和W维度。可沿着张量的所有维执行具有可变块尺寸的划分。此外,GEMM—般矩阵乘法)内核可具有沿着M、N和K维的划分,其规定待相乘的矩阵A和B的行和列的数量例如,M是在矩阵A中的行的数量,N是在矩阵B中的列的数量,以及K是在矩阵A中的列的数量和C是在矩阵B中的行的数量)。多种不同类型的成块的和聚类算法可用于确定张量的块尺寸。此外,可以使用可变或非一致块尺寸以连续或非连续方式来对张量数据进行成块。此外,虽然在本文描述了成块的动态定点表示,但是成块的数据表示也可用于低精度浮点数据。[0280]图2IC示出了可在成块的动态精度数据类型中表示的3x3滤波器的示例性组2140。滤波器的组2140包含来自沿着C维的连续滤波器的η个元件的RXS子组。示例性子组2140可由等式2142描述,等式2142规定,N个滤波器2144A-21444NWQ...職包含基于全精度权重而得到的三个一组的权重。对于3x3个滤波器的每组2140,针对在滤波器中的每个元件,存在包含缩放因子2146a的3x3滤波器。硬件逻辑可被配置为使用成块的动态精度数据来执行低精度计算。在一个实施例中,滤波器数据可被量化为需要减小的数量的位来存储数据的成块的动态精度格式,同时以细粒度方式对缩放因子移位以避免数据损失。在每层处的激活可被量化为低精度格式,例如动态定点或成块的低精度浮点格式。[0281]如在图21D中所示的,用于执行实现成块的动态定点的过程的计算逻辑2130可接收与在计算逻辑上执行的矩阵运算相关联的输入张量,如在块2132处所示的。计算逻辑可接着将输入张量划分为多个块,如在块2134处所示的。对于多个块中的每个,计算逻辑可确定针对多个块中的每个的共享指数例如缩放因子),并将每个块协调到动态定点,如在块2136处所示的。计算逻辑可接着存储用于多个块的元数据以指示用于多个块的共享指数的数据格式,如在块2138处所示的。在一个实施例中,用于多个块的元数据存储在存储器中的单独元数据段中。在一个实施例中,用于多个块中的每个的元数据附加到每个块或与每个块相邻。[0282]一旦针对元数据写入输入张量,则计算逻辑就可使用划分的动态定点输入张量来执行矩阵运算,如在块2139处所示的。在一些实施例中,计算逻辑包括对动态定点的硬件支持。在一个实施例中,描述输入张量的块的数据格式的元数据存储在相对于张量数据的预定存储器位置处。硬件可自动读取用于张量的块的元数据并配置硬件的逻辑单元以处理在规定的动态定点配置处的张量数据。例如,如在图19A中的逻辑单元1920、如在图19B中的逻辑单元1940或类似的逻辑单元可被配置为处理在动态定点格式中的张量数据。[0283]可使用低精度动态定点数据类型来执行混合精度训练从而以与32位浮点的精度类似的精度来训练神经网络。一个实施例提供16位动态定点实现,其在相对于使用FP32执行的训练的训练中测试。使用Berkeley视觉和学习中心BVLCCaffe框架的变形来针对几个最优良的ImageNet-类CNN执行训练,一个变形修改加法DFP16数据类型支持。使用DFP16计算原语的硬件加速,在训练吞吐量中的平均1.8X加速相对于基线FP32性能而实现,具有如在下文的表6中所示的精度结果。[0284]表6-训练配置和ImageNet-IK分类精度[0287]如上文的表6所示的,使用DFP16训练的ImageNet-IK网络实现最优良的精度,一些模型超过FP32基线的精度。针对DFP16训练的收敛紧密地跟踪FP32训练,同时实现与在计算、通信和存储中的2倍节省一样多的潜力。虽然示出CNN训练,但是本文所述的技术也可应用于其它类型的神经网络,例如RNN、LSTM和GAN生成式对抗网络)。[0288]额外的示例性图形处理系统[0289]上文所述的实施例的细节可合并在下文所述的图形处理系统和设备内。图22-图35的图形处理系统和设备示出了可实现上文所述的任何和所有技术的可选的系统和图形处理硬件。[0290]图22是根据实施例的处理系统2300的方框图。在各种实施例中,系统2200包括一个或多个处理器2202和一个或多个图形处理器2208,并且可以是单个处理器桌上型系统、多处理器工作站系统或具有大量处理器2202或处理器核心2207的服务器系统。在一个实施例中,系统2200是合并在片上系统(SoC集成电路内的处理平台,以用于在移动、手持式或嵌入式设备中使用。[0291]系统2200的实施例可包括下列项或合并在下列项内:基于服务器的游戏平台、游戏控制台,包括游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在一些实施例中,系统2200是移动电话、智能电话、平板计算设备或移动互联网设备。数据处理系统2200还可包括下列项、与下列项耦合或集成在下列项内:可穿戴式设备例如智能手表穿戴式设备、智能眼镜设备、增强现实设备或虚拟现实设备。在一些实施例中,数据处理系统2200是具有一个或多个处理器2202和由一个或多个图形处理器2208生成的图形接口的电视机或机顶盒设备。[0292]在一些实施例中,一个或多个处理器2202中的每个包括一个或多个处理器核心2207以处理指令,所述指令当被执行时执行用于系统和用户软件的操作。在一些实施例中,一个或多个处理器核心2207中的每个被配置为处理特定的指令集2209。在一些实施例中,指令集2209可便于复杂指令集计算CISC、精简指令集计算RISC或经由超长指令集字VLIW进行计算。多个处理器核心2207中的每个可以处理不同的指令集2209,其可包括便于其它指令集的仿真的指令。处理器核心2207还可包括其它处理设备,例如数字信号处理器DSP。[0293]在一些实施例中,处理器2202包括高速缓存存储器2204。取决于架构,处理器2202可具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中,高速缓存存储器在处理器2202的各种部件当中被共享。在一些实施例中,处理器2202还使用外部高速缓存例如3级L3高速缓存或最后一级高速缓存LLC未示出),其可使用已知的高速缓存一致性技术在处理器核心2207当中被共享。此外寄存器文件2206被包括在处理器2202中,处理器2202可包括用于存储不同类型的数据的不同类型的寄存器例如整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,而其它寄存器可以是处理器2202的设计所特有的。[0294]在一些实施例中,处理器2202与处理器总线2210耦合以在处理器2202和系统2200中的其它部件之间发送通信信号,例如地址、数据或控制信号。在一个实施例中,系统2200使用示例性“集线器”系统架构,包括存储器控制器集线器2216和输入输出(IO控制器集线器2230。存储器控制器集线器2216便于在存储器设备和系统2200的其它部件之间的通信,而IO控制器集线器(ICH2230经由本地IO总线来提供与IO设备的连接。在一个实施例中,存储器控制器集线器2216的逻辑集成在处理器内。[0295]存储器设备2220可以是动态随机存取存储器DRAM设备、静态随机存取存储器SRAM设备、闪存设备、相变存储器设备或具有适当的性能以用作过程存储器的某其它存储器设备。在一个实施例中,存储器设备2220可作为系统2200的系统存储器来操作,以存储数据2222和指令2221以用于在一个或多个处理器2202执行应用或过程时使用。存储器控制器集线器2216也与可选的外部图形处理器2212耦合,外部图形处理器2212可与处理器2202中的一个或多个图形处理器2208通信以执行图形和媒体操作。[0296]在一些实施例中,ICH2230使外围设备能够经由高速IO总线连接到存储器设备2220和处理器2202。IO外围设备包括但不限于音频控制器2246、固件接口2228、无线收发机2226例如Wi-Fi、蓝牙)、数据存储设备2224例如硬盘驱动器、闪存等和用于将传统例如个人系统2PS2设备耦合到系统的传统IO控制器2240。一个或多个通用串行总线USB控制器2242连接输入设备,例如键盘和鼠标2244的组合。网络控制器2234还可与ICH2230耦合。在一些实施例中,高性能网络控制器(未示出)与处理器总线2210耦合。将认识至IJ,所示的系统2200是示例性的而不是限制性的,因为也可使用不同地配置的其它类型的数据处理系统。例如,IO控制器集线器2230可集成在一个或多个处理器2202内,或存储器控制器集线器2216和IO控制器集线器2230可集成到分立的外部图形处理器例如外部图形处理器2212内。[0297]图23是具有一个或多个处理器核心2302A-2302N、集成存储器控制器2314和集成图形处理器2308的处理器2300的方框图。具有与本文的任何其它附图的元件相同的附图标记或名称)的图23的那些元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行,但不限于此。处理器2300可包括额外的核心,并包括由虚线框表示的额外核心2302N。处理器核心2302A-2302N中的每个包括一个或多个内部高速缓存单元2302A-2304N。在一些实施例中,每个处理器核心还存取一个或多个共享缓存单元2306。[0298]内部高速缓存单元2304A-2304N和共享高速缓存单元2306代表在处理器2300内的高速缓存存储器分级结构。高速缓存存储器分级结构可包括在每个处理器核心内的至少一个级别的指令和数据高速缓存以及一个或多个级别的共享中级高速缓存,例如2级L2、3级L3、4级L4或其它级别的高速缓存,其中在外部存储器之前的最高级别的高速缓存被分类为LLC。在一些实施例中,高速缓存一致性逻辑维持在各种高速缓存单元2306和2304A-2304N之间的一致性。[0299]在一些实施例中,处理器2300还可包括一组一个或多个总线控制器单元2316和系统代理核心2310。一个或多个总线控制器单元2316管理一组外围总线,例如一个或多个外围部件互联网总线例如PCI、快速PCI。系统代理核心2310针对各种处理器部件提供管理功能。在一些实施例中,系统代理核心2310包括一个或多个集成存储器控制器2314以管理对各种外部存储器设备未示出)的存取。[0300]在一些实施例中,处理器核心2302A-2302N中的一个或多个包括对同时多线程的支持。在这样的实施例中,系统代理核心2310包括用于在多线程处理期间协调和操作核心2302A-2302N的部件。系统代理核心2310可另外包括功率控制单元PCU,其包括逻辑和部件以调节处理器核心2302A-2302N和图像处理器2308的功率状态。[0301]在一些实施例中,处理器2300另外包括图形处理器2308以执行图形处理操作。在一些实施例中,图形处理器2308与这组共享高速缓存单元2306和包括一个或多个集成存储器控制器2314的系统代理核心2310耦合。在一些实施例中,显示器控制器2311与图形处理器2308耦合以将图形处理输出到一个或多个耦合的显示器。在一些实施例中,显示控制器2311可以是经由至少一个互连与图形处理器耦合的单独模块,或可集成在图形处理器2308或系统代理核心2310内。[0302]在一些实施例中,基于环的互连单元2312用于耦合处理器2300的内部部件。然而,可使用可选的互连单元,例如点对点互连、切换式互连或其它技术,包括在本领域中公知的技术。在一些实施例中,图形处理器2308经由IO链路2313与环形互连2312耦合。[0303]示例性IO链路2313代表多种IO互连中的至少一个,所述多种IO互连包括封装上IO互连,其便于实现在各种处理器部件和高性能嵌入式存储器模块2318例如eDRAM模±夬之间的通信。在一些实施例中,处理器核心2302A-2302N和图形处理器2308中的每个使用嵌入式存储器模块2318作为共享最后一级高速缓存。[0304]在一些实施例中,处理器核心2302A-2302N是执行同一指令集架构的同构核心。在另一实施例中,处理器核心2302A-2302N从指令集架构(ISA方面来说是异构的,其中处理器核心2302A-2302N中的一个或多个执行第一指令集,而其它核心中的至少一个执行第一指令集的子集或不同的指令集。在一个实施例中,处理器核心2302A-2302N从微架构方面来说是异构的,其中具有相对较高的功率消耗的一个或多个核心与具有相对较低的功率消耗的一个或多个功率核心耦合。此外,处理器2300可在一个或多个芯片上实现或作为还具有所述部件等的SoC集成电路来实现。[0305]图24是图形处理器2400的方框图,图形处理器2400可以是分立的图形处理单元或可以是与多个处理核心集成的图形处理器。在一些实施例中,图形处理器经由到图形处理器上的寄存器的存储器映射的IO接口并使用放置到处理器存储器内的命令来进行通信。在一些实施例中,图形处理器2400包括存储器接口2414以存取存储器。存储器接口2414可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和或到系统存储器的接口。[0306]在一些实施例中,图形处理器2400还包括显示控制器2402以将显示输出数据驱动到显示设备2420。显示控制器2402包括用于一个或多个叠加平面的硬件以用于视频或用户接口元件的多个层的显示和构成。在一些实施例中,图形处理器2400包括视频编码解码器引擎2406以将媒体编码、解码或转码成一种或多种媒体编码格式、从一种或多种媒体编码格式编码、解码或转码或在一种或多种媒体编码格式之间编码、解码或转码,媒体编码格式包括但不限于运动图片专家组MPEG格式例如MPEG-2、高级视频编码(AVC格式例如H.264MPEG-4AVC以及电影电视工程师协会SMPTE421MVC-1和联合图像专家组JPEG格式例如JPEG、以及运动JPEGMJPEG格式。[0307]在一些实施例中,图形处理器2400包括块图像传输BLIT引擎2404以执行二维2D光栅化程序操作,包括例如位边界块传输。然而,在一个实施例中,2D图形操作是使用图形处理引擎®PE2410的一个或多个部件来执行的。在一些实施例中,GPE2410是用于执行包括三维3D图形操作和媒体操作的图形操作的计算引擎。[0308]在一些实施例中,GPE310包括用于使用作用于3D原语形状例如矩形、三角形等)上的处理功能来执行3D操作例如渲染三维图像和场景)的3D流水线2412』D流水线2412包括执行在元件内的各种任务和或生成用于3D媒体子系统2415的执行线程的可编程和固定功能元件。虽然3D流水线2412可用于执行媒体操作,但是GPE2410的实施例还包括媒体流水线2416,其专门用于执行媒体操作,例如视频后处理和图像增强。[0309]在一些实施例中,媒体流水线2416包括固定功能或可编程逻辑单元以代替或代表视频编码解码器引擎2406执行一个或多个专用媒体操作,例如视频解码加速、视频解交织和视频编码加速。在一些实施例中,媒体流水线2416另外包括线程生成单元来生成线程以用于在3D媒体子系统1415上执行。生成的线程在被包括在3D媒体子系统2415中的一个或多个图形执行单元上执行针对媒体操作的计算。[0310]在一些实施例中,3D媒体子系统2415包括用于执行由3D流水线2412和媒体流水线2416生成的线程的逻辑。在一个实施例中,流水线将线程执行请求发送到3D媒体子系统2415,所述3D媒体子系统2415包括用于仲裁各种请求并将各种请求分派到可用线程执行资源的线程分派逻辑。执行资源包括图形执行单元的阵列以处理3D和媒体线程。在一些实施例中,3D媒体子系统2415包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,子系统还包括共享存储器,包括寄存器和可寻址存储器,以在线程之间共享数据并存储输出数据。[0311]示例性额外图形处理引擎[0312]图25是根据一些实施例的图形处理器的图形处理引擎2510的方框图。在一个实施例中,图形处理引擎GPE2510是图24所示的GPE2410的版本。具有与本文的任何其它附图的元件相同的附图标记或名称)的图25的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行,但不限于此。例如,示出图24的3D流水线2412和媒体流水线2416。媒体流水线2416在GPE2510的一些实施例中是可选的,并且可以不明确地被包括在GPE2510内。例如并且在至少一个实施例中,单独的媒体和或图像处理器耦合到GPE2510。[0313]在一些实施例中,GPE2510与命令流式发送器2503耦合或包括命令流式发送器2503,命令流式发送器2503向3D流水线2412和或媒体流水线2416提供命令流。在一些实施例中,命令流式发送器2503与存储器耦合,存储器可以是系统存储器、或内部高速缓存存储器和共享高速缓存存储器中的一个或多个。在一些实施例中,命令流式发送器2503从存储器接收命令并将命令发送到3D流水线2412和或媒体流水线2416。命令是直接从环形缓冲器取出的,环形缓冲器存储用于3D流水线2412和媒体流水线2416的命令。在一个实施例中,环形缓冲器可另外包括存储批量的多个命令的批量命令缓冲器。用于3D流水线2412的命令也可包括对存储在存储器中的数据的引用,例如但不限于用于3D流水线2412的顶点和几何数据和或用于媒体流水线2416的图像数据和存储器对象。3D流水线2412和媒体流水线2416通过经由在相应流水线内的逻辑执行操作或通过将一个或多个执行线程分派到图形核心阵列2514来处理命令和数据。[0314]在各种实施例中,3D流水线2412可通过处理指令并将执行线程分派到图形核心阵列2514来执行一个或多个着色器程序,例如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其它着色器程序。图形核心阵列2514提供执行资源的统一块。在图形核心阵列2514内的多用途执行逻辑例如执行单元包括对各种3DAPI着色器语言的支持,并可执行与多个着色器相关的多个同时执行线程。[0315]在一些实施例中,图形核心阵列2514还包括执行逻辑以执行媒体功能,例如视频和或图像处理。在一个实施例中,执行单元另外包括通用逻辑,其可编程来除了执行图形处理操作以外还执行并行通用计算操作。通用逻辑可并行地或结合在图22的处理器核心2207或如在图23中的核心2302A-2302N内的通用逻辑来执行处理操作。[0316]由在图形核心阵列2314上执行的线程生成的输出数据可将数据输出到在统一返回缓冲器URB2518中的存储器。URB2518可存储用于多个线程的数据。在一些实施例中,URB2518可用于在图形核心阵列2514上执行的不同线程之间发送数据。在一些实施例中,URB2518可另外用于在图形核心阵列上的线程和在共享功能逻辑2520内的固定功能逻辑之间的同步。[0317]在一些实施例中,图形核心阵列2514是可缩放的,使得阵列包括可变数量的图形核心,每个图形核心基于GPE2510的目标功率和性能水平具有可变数量的执行单元。在一个实施例中,执行资源是动态可缩放的,使得执行资源可按需要被启用或禁用。[0318]图形核心阵列2514与共享功能逻辑2520耦合,共享功能逻辑2520包括在图形核心阵列中的图形核心之间共享的多个资源。在共享功能逻辑2520内的共享功能是向图形核心阵列2514提供专用补充功能的硬件逻辑单元。在各种实施例中,共享功能逻辑2520包括但不限于采样器2521、数学2522和线程间通信(ITC2523逻辑。此外,一些实施例在共享功能逻辑2520内实现一个或多个高速缓存2525。实现共享功能,其中针对给定的专用功能的需求对于包括在图形核心阵列2514内是不足的。替代地,那个专用功能的单个例示被实现为在共享功能逻辑2520中的独立实体,并在图形核心阵列2514内的执行资源当中被共享。在图形核心阵列2514之间被共享并被包括在图形核心阵列2514内的功能的精确集合在实施例之间变化。[0319]图26是由额外的实施例提供的图形处理器2600的方框图。具有与本文的任何其它附图的元件相同的附图标记(或名称)的图26的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行,但不限于此。[0320]在一些实施例中,图形处理器2600包括环形互连2602、流水线前端2604、媒体引擎2637和图形核心2680A-2680N。在一些实施例中,环形互连2602将图形处理器耦合到其它处理单元,所述其它处理单元包括其它图形处理器或一个或多个通用处理器核心。在一些实施例中,图形处理器是集成在多核处理系统内的很多处理器中的一个。[0321]在一些实施例中,图形处理器2600经由环形互连2602接收批量命令。进入的命令由在流水线前端2604中的命令流式发送器2603解释。在一些实施例中,图形处理器2600包括可缩放的执行逻辑以经由图形核心2680A-2680N来执行3D几何处理和媒体处理。对于3D几何处理命令,命令流式发送器2603将命令供应到几何流水线2636。对于至少一些媒体处理命令,命令流式发送器2603将命令供应到视频前端2634,视频前端2634与媒体引擎2637耦合。在一些实施例中,媒体引擎2637包括用于视频和图形后处理的视频质量引擎VQE2630以及用于提供硬件加速的媒体数据编码和解码的多格式编码解码MFX2633。在一些实施例中,几何流水线2636和媒体引擎2637每个针对由至少一个图形核心2680A提供的线程执行资源生成执行线程。[0322]在一些实施例中,图形处理器2600包括以模块化核心2680A-2680N有时被称为核心片)为特征的可缩放的线程执行资源,每个模块化核心具有多个子核心2650A-550N、2660A-2660N有时被称为核心子片)。在一些实施例中,图形处理器2600可具有任何数量的图形核心2680A到2680N。在一些实施例中,图形处理器2600包括具有至少第一子核心2650和第二子核心2660A的图形核心2680A。在其它实施例中,图形处理器是具有单个子核心例如2650A的低功率处理器。在一些实施例中,图形处理器2600包括多个图形核心2680A-2680N,每个图形核心包括一组第一子核心2650A-2650N和一组第二子核心2660A-2660N。这组第一子核心2650A-2650N中的每个子核心包括至少第一组执行单元2652A-2652N和媒体纹理采样器2654A-2654N。这组第二子核心2660A-2660N中的每个子核心包括至少第二组执行单元2662A-2662N和采样器2664A-2664N。在一些实施例中,每个子核心2650A-2650N、2660A-2660N共享一组共享资源2670A-2670N。在一些实施例中,共享资源包括共享高速缓存存储器和像素操作逻辑。其它共享资源也可被包括在图形处理器的各种实施例中。[0323]额外的示例性执行单元[0324]图27示出了包括在一些实施例中采用的处理元件的阵列的线程执行逻辑2700。具有与本文的任何其它附图的元件相同的附图标记或名称)的图27的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行,但不限于此。[0325]在一些实施例中,线程执行逻辑2700包括着色器处理器2702、线程调度器2704、指令高速缓存2706、包括多个执行单元2708A-2708N的可缩放的执行单元阵列、采样器2710、数据高速缓存2712和数据端口2714。在一个实施例中,可缩放的执行单元阵列可基于工作负载的计算要求通过启用或禁用一个或多个执行单元(例如,执行单元2708A、2708B、2708C、2708D到2708N-1和2708N中的任一个来动态地缩放。在一个实施例中,经由链接到部件中的每个的互连结构来互连所包括的部件。在一些实施例中,线程执行逻辑2700包括通过指令高速缓存2706、数据端口2714、采样器2710和执行单元2708A-2708N中的一个或多个到存储器例如系统存储器或高速缓存存储器的一个或多个互连。在一些实施例中,每个执行单元例如2708A是独立可编程通用计算单元,其能够执行多个同时硬件线程,同时并行地针对每个线程处理多个数据元件。在各种实施例中,执行单元2708A-2708N的阵列是可缩放的以包括任何数量的单独执行单元。[0326]在一些实施例中,执行单元2708A-2708N主要用于执行着色器程序。着色器处理器2702可处理各种着色器程序并经由线程分派器2704来分派与着色器程序相关联的执行线程。在一个实施例中,线程分派器包括用于仲裁来自图形和媒体流水线的线程发起请求并对在执行单元2708A-2708N中的一个或多个执行单元上的所请求的线程进行实例化的逻辑。例如,几何流水线例如图26的2636可以将顶点、曲面细分或几何着色器分派到线程执行逻辑2700图27以用于处理。在一些实施例中,线程分派器2704也可处理来自执行的着色器程序的运行时线程生成请求。[0327]在一些实施例中,执行单元2708A-2708N支持如下指令集,所述指令集包括对很多标准3D图形着色器指令的固有支持,使得来自图形库(例如Direct3D和OpenGL的着色器程序在最小转换的情况被执行。执行单元支持顶点和几何处理例如顶点程序、几何程序、顶点着色器)、像素处理例如像素着色器、片段着色器和通用处理例如,计算和媒体着色器)。每个执行单元2708A-2708N能够进行多议题单指令多数据SMD执行,并且多线程操作面对较高延迟存储器存取实现有效执行环境。在每个执行单元内的每个硬件线程具有专用高带宽寄存器文件和相关联的独立线程状态。执行是对能够进行整数、单和双精度浮点操作、SIMD分支能力、逻辑操作、超越操作和其它曲面细分操作的流水线是每时钟多议题的。当等待来自存储器的数据或共享功能中的一个时,在执行单元2708A-2708N内的相关性逻辑使等待线程休眠,直到所请求的数据被返回为止。虽然等待线程正休眠,但是硬件资源可致力于处理其它线程。例如,在与顶点着色器操作相关联的延迟期间,执行单元可执行针对像素着色器、片段着色器或包括不同的顶点着色器的另一类型的着色器程序的操作。[0328]在执行单元2708A-2708N中的每个执行单元在数据元素的阵列上操作。数据元素的数量是“执行尺寸”或用于指令的通道的数量。执行通道是用于数据元素访问、掩蔽和在指令内的流控制的执行的逻辑单元。通道的数量可独立于特定的图形处理器的物理算术逻辑单元ALU或浮点单元FPU的数量。在一些实施例中,执行单元2708A-2708N支持整数和浮点数据类型。[0329]执行单元指令集包括SMD指令。各种数据元素可作为封装的数据类型被存储在寄存器中,并且执行单元将基于元素的数据尺寸来处理各种元素。例如,当在256位宽矢量上操作时,矢量的256位存储在寄存器中,并且执行单元在矢量上作为四个单独的64位封装的数据元素(四字QW尺寸数据元素)、八个单独的32位封装的数据元素双字DW尺寸数据元素)、十六个单独的16位封装的据元素字W尺寸数据元素或三十二个单独的8位封装的数据元素(字节B尺寸数据元素)来操作。然而,不同的矢量宽度和寄存器尺寸是可能的。[0330]—个或多个内部指令高速缓存例如2706被包括在线程执行逻辑2700中以对用于指令单元的线程指令进行高速缓存。在一些实施例中,一个或多个数据高速缓存(例如2712被包括以在线程执行期间对线程数据进行高速缓存。在一些实施例中,采样器2710被包括以提供针对3D操作的纹理采样和针对媒体操作的媒体采样。在一些实施例中,采样器2710包括专用纹理或媒体采样功能以在向执行单元提供所采样的数据之前在采样过程期间处理纹理或媒体数据。[0331]在执行期间,图形和媒体流水线经由线程生成和分派逻辑将线程发起请求发送到线程执行逻辑2700。一旦一组几何对象被处理并光栅化成像素数据,则在着色器处理器2702内的像素处理器逻辑例如像素着色器逻辑、片段着色器逻辑等就被调用以进一步计算输出信息并使结果被写到输出表面例如颜色缓冲器、深度缓冲器、模板缓冲器等)。在一些实施例中,像素着色器或片段着色器计算被内插在光栅化对象上的各种顶点属性的值。在一些实施例中,在着色器处理器2702内的像素处理器逻辑然后执行应用编程接口(API供应的像素或片段着色器程序。为了执行着色器程序,着色器处理器2702经由线程分派器2704来将线程分派到执行单元例如2708A。在一些实施例中,像素着色器2702使用在采样器2710中的纹理采样逻辑来存取存储在存储器中的纹理图中的纹理数据。对纹理数据和输入几何数据上的算术运算计算针对每个几何片段的像素颜色数据,或丢弃一个或多个像素用于进一步处理。[0332]在一些实施例中,数据端口2714针对线程执行逻辑2700提供存储器存取机制以将经处理的数据输出到存储器以用于在图形处理器输出流水线上执行。在一些实施例中,数据端口2714包括或耦合到一个或多个高速缓存存储器例如数据高速缓存2712以经由数据端口来对数据进行高速缓存以用于存储器存取。[0333]图28是示出了根据一些实施例的图形处理器指令格式2800的方框图。在一个或多个实施例中,图形处理器执行单元支持具有在多种格式中的指令的指令集。实线框示出通常被包括在执行单元指令中的组成部分,而虚线包括可选的或只被包括在指令的子集中的组成部分。在一些实施例中,所述和所示的指令格式2800是宏指令,因为它们是被供应到执行单元的指令,与一旦指令被处理就从指令解码中产生的微操作不同。[0334]在一些实施例中,图形处理器执行单元固有地支持在128位指令格式2810中的指令。基于选定指令、指令选项和操作数的数量,64位压缩指令格式2830对于一些指令是可用的。固有的128位指令格式710提供对所有指令选项的访问,而一些选项和操作被限制在64位格式2830中。在64位格式2830中可用的固有指令根据实施例而不同。在一些实施例中,指令使用在索引字段2813中的一组索引值被部分地压缩。执行单元硬件基于索引值来引用一组压缩表,并使用压缩表输出来重构在128位指令格式2810中的固有指令。[0335]对于每个格式,指令操作码2812定义执行单元将执行的操作。执行单元并行地在每个操作数的多个数据元素当中执行每个指令。例如,响应于加法指令,执行单元在代表纹理元素或图片元素的每个颜色通道上执行同时加法操作。默认地,执行单元在操作数的所有数据通道上执行每个指令。在一些实施例中,指令控制字段2814通过某些执行选项例如通道选择例如预测)和数据通道顺序例如swizzle来实现控制。对于在128位指令格式2810中的指令,exec尺寸字段2816限制将并行地被执行的数据通道的数量。在一些实施例中,exec尺寸字段2816不可用于在64位压缩指令格式2830中使用。[0336]一些执行单元指令具有多达三个操作数,包括两个源操作数srcO2820、srcl2822和一个目的地2818。在一些实施例中,执行单元支持双目的地指令,其中目的地中的一个被暗示。数据操纵指令可具有第三源操作数例如SRC22824,其中指令操作码2812确定源操作数的数量。指令的最后一个源操作数可以是与指令一起通过的立即(硬编码值。[0337]在一些实施例中,128位指令格式2810包括存取地址模式字段2816,其规定例如直接寄存器寻址模式还是间接寄存器寻址模式被使用。当直接寄存器寻址模式被使用时,一个或多个操作数的寄存器地址由在指令中的位直接提供。[0338]在一些实施例中,128位指令格式2810包括存取地址模式字段2826,其规定指令的地址模式和或存取模式。在一个实施例中,存取模式用于定义用于指令的数据存取对齐。一些实施例支持包括16字节对齐存取模式和1字节对齐存取模式的存取模式,其中存取模式的字节对齐确定指令操作数的存取对齐。例如,当在第一模式中时,指令可使用针对源和目的地操作数的字节对齐寻址,而当在第二模式中时,指令可使用针对所有源和目的地操作数的16字节对齐寻址。[0339]在一个实施例中,存取地址模式字段2826的地址模式部分确定指令是使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时,在指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时,可基于指令中的地址寄存器值和地址立即字段来计算一个或多个操作数的寄存器地址。[0340]在一些实施例中,基于操作码2812位字段来对指令分组以简化操作码解码2840。对于8位操作码,位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅仅是个示例。在一些实施例中,移动和逻辑操作码组2842包括数据移动和逻辑指令例如,移动mov、比较cmp。在一些实施例中,移动和逻辑组2842共享五个最高有效位MSB,其中移动mov指令在OOOOxxxxb的形式中,而逻辑指令在OOOlxxxxb的形式中。流控制指令组2944例如调用、跳转(jmp包括在OOlOxxxxb例如0x20的形式中的指令。曲面细分指令组2846包括指令的混合,包括在OOllxxxxb例如0x30的形式中的同步指令例如等待、发送)。并行数学指令组2848包括在OlOOxxxxb例如0x40的形式中的逐个分量算术指令例如加法、乘法mul。并行数学组2848在数据通道上并行地执行算术运算。矢量数学组2850包括在OlOlxxxxb例如0x50的形式中的算术指令例如dp4。矢量数学组对矢量操作数执行算术,例如点积计算。[0341]额外的示例性图形流水线[0342]图29是另一实施例的图形处理器2900的方框图。具有与本文的任何其它附图的元件相同的附图标记或名称)的图29的元件可以用与在本文其它地方描述的方式类似的任何方式操作或运行,但不限于此。[0343]在一些实施例中,图形处理器2900包括图形流水线2920、媒体流水线2930、显示引擎2940、线程执行逻辑2950和渲染输出流水线2970。在一些实施例中,图形处理器2900是在包括一个或多个通用处理核心的多核处理系统内的图形处理器。由到一个或多个控制寄存器未示出)的寄存器写入或经由通过环形互连2902发出到图形处理器2900的命令来控制图形处理器。在一些实施例中,环形互连2902将图形处理器2900耦合到其它处理部件,例如其它图形处理器或通用处理器。来自环形互连2902的命令由命令流式发送器2903解释,其中,命令流式发送器2903将指令供应到图形流水线2920或媒体流水线2930的单独部件。[0344]在一些实施例中,命令流式发送器2903指导顶点取出器2905的操作,顶点取出器2905从存储器读取顶点数据并执行由命令流式发送器2903提供的顶点处理命令。在一些实施例中,顶点取出器2905向顶点着色器2907提供顶点数据,其中,顶点着色器2907执行用于每个顶点的坐标空间变换和照明操作。在一些实施例中,顶点取出器2905和顶点着色器2907通过经由线程分派器2931将执行线程分派到执行单元2952A-2952B来执行顶点处理指令。[0345]在一些实施例中,执行单元2952A-2952B是具有用于执行图形和媒体操作的指令集的矢量处理器的阵列。在一些实施例中,执行单元2952A-2952B具有针对每个阵列特定的或在阵列之间共享的附接的Ll高速缓存2951。高速缓存可被配置为数据高速缓存、指令高速缓存或被划分以在不同的分区中包含数据和指令的单个高速缓存。[0346]在一些实施例中,图形流水线2920包括曲面细分部件以执行3D对象的硬件加速的曲面细分。在一些实施例中,可编程外壳hull着色器811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。细化器2913在外壳着色器2911的方向处操作,并包含专用逻辑以基于作为输入被提供到图形流水线2920的粗几何模型来生成一组详细的几何对象。在一些实施例中,如果不使用曲面细分,则可绕过曲面细分部件例如外壳着色器2911、细化器2913和域着色器2917。[0347]在一些实施例中,完整的几何对象可由几何着色器2919经由被分派到执行单元2952A-2952B的一个或多个线程来处理,或可直接继续进行到限幅器2929。在一些实施例中,几何着色器在全部几何对象而不是如在图形流水线的先前级中的在顶点或顶点的补片上操作。如果曲面细分被禁用,则几何着色器2919从顶点着色器2907接收输入。在一些实施例中,如果曲面细分单元被禁用,则几何着色器2919由几何着色器程序可编程以执行几何曲面细分。[0348]在光栅化之前,限幅器2929处理顶点数据。限幅器2929可以是固定功能限幅器或具有限幅和几何着色器功能的可编程限幅器。在一些实施例中,在渲染输出流水线2970中的光栅化器和深度测试部件2973分派像素着色器以将几何对象转换成它们的每像素表示。在一些实施例中,像素着色器逻辑被包括在线程执行逻辑2950中。在一些实施例中,应用可绕过光栅化器和深度测试部件2973并经由流输出单元2923来访问未光栅化的顶点数据。[0349]图形处理器2900具有互连总线、互连结构或允许数据和消息通过处理器的主要部件的某个其它互连机构。在一些实施例中,执行单元2952A-2952B和相关联的高速缓存2951、纹理和媒体采样器2954和纹理采样器高速缓存2958经由数据端口2956来互连以执行存储器存取并与处理器的渲染输出流水线部件通信。在一些实施例中,采样器2954、高速缓存2951、2958和执行单元2952纟-29528每个具有单独的存储器存取路径。[0350]在一些实施例中,渲染输出流水线2970包含将基于顶点的对象转换成相关联的基于像素的表示的光栅化器和深度测试部件2973。在一些实施例中,光栅化器逻辑包括窗口器掩蔽器单元以执行固定功能三角形和线光栅化。在一些实施例中,相关联的渲染高速缓存2978和深度高速缓存2979也是可用的。像素操作部件2977对数据执行基于像素的操作,虽然在一些实例中,与2D操作(例如,利用混合的位块图像传送相关联的像素操作由2D引擎2941执行,或在显示时间由显示控制器2943使用覆盖显示平面来代替。在一些实施例中,共享L3高速缓存2975可用于所有图形部件,允许数据的共享而不使用主系统存储器。[0351]在一些实施例中,图形处理器媒体流水线2930包括媒体引擎2937和视频前端2934。在一些实施例中,视频前端2934从命令流式发送器2903接收流水线命令。在一些实施例中,媒体流水线2930包括单独的命令流式发送器。在一些实施例中,视频前端2934在将命令发送到媒体引擎2937之前处理媒体命令。在一些实施例中,媒体引擎2937包括线程生成功能以生成用于经由线程分派器2931分派到线程执行逻辑2950的线程。[0352]在一些实施例中,图形处理器2900包括显示引擎2940。在一些实施例中,显示引擎2940在图形处理器2900外部并经由环形互连2902或某个其它互连总线或结构与图形处理器耦合。在一些实施例中,显示引擎2940包括2D引擎2941和显示控制器2943。在一些实施例中,显示引擎2940包含能够独立于3D流水线而操作的专用逻辑。在一些实施例中,显示控制器2943与显示设备(未示出)耦合,显示设备可以是系统集成的显示设备,如在膝上型计算机中的,或经由显示设备连接器而附接的外部显示设备。[0353]在一些实施例中,图形流水线2920和媒体流水线2930可被配置为基于多个图形和媒体编程接口来执行操作,并且不是任一个应用编程接口(API特定的。在一些实施例中,用于图形处理器的驱动器软件将特定图形或媒体库所特有的API调用转换成可由图形处理器处理的命令。在一些实施例中,提供对都来自Khronos集团的开放图形库OpenGL、开放计算语音OpenCL和或Vulkan图形和计算API的支持。在一些实施例中,也可提供对来自微软公司的Direct3D库的支持。在一些实施例中,可支持这些库的组合。也可提供对开放源计算视觉库OpenCV的支持。如果可做出从未来API的流水线到图形处理器的流水线的映射,则也将支持具有可兼容的3D流水线的未来API。[0354]额外的示例性图形流水线编程[0355]图30A是示出了根据一些实施例的图形处理器命令格式3000的方框图。图30B是示出了根据实施例的图形处理器命令序列3010的方框图。图30A中的实线框示出了通常被包括在图形命令中的组成部分,而虚线包括可选的或只被包括在图形命令的子集中的组成部分。图30A的示例性图形处理器命令格式3000包括数据字段以标识命令的目标客户端3002、命令操作代码操作码3004和针对命令的相关数据3006。子操作码3005和命令尺寸3008也被包括在一些命令中。[0356]在一些实施例中,客户端3002规定处理命令数据的图形设备的客户端单元。在一些实施例中,图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理并将命令数据路由到适当的客户端单元。在一些实施例中,图形处理器客户端单元包括存储器接口单元、植染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的相对应的处理流水线。一旦命令由客户端单元接收,则客户端单元读取操作码3004,并且如果存在,子操作码3005确定要执行的操作。客户端单元使用在数据字段3006中的信息来执行命令。对于一些命令,显式命令尺寸3008被预期为规定命令的尺寸。在一些实施例中,命令解析器基于操作码来自动确定命令中的至少一些的尺寸。在一些实施例中,命令经由多个双字来对齐。[0357]图30B中的流程图示出了示例性图形处理器命令序列3010。在一些实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用被示为建立、执行和终止一组图形操作的命令序列的版本。仅为了示例的目的,示出并描述了样本命令序列,因为实施例不限于这些特定的命令或这个命令序列。而且,命令可在命令序列中作为批量命令发出,使得图形处理器将处理至少部分地并发的命令的序列。[0358]在一些实施例中,图形处理器命令序列3010可以以流水线刷新命令3012开始以使任何活动的图形流水线完成针对流水线的当前未决的命令。在一些实施例中,3D流水线3022和媒体流水线3024不并发操作。执行流水线刷新以使活动的图形流水线完成任何未决的命令。响应于流水线刷新,用于图形处理器的命令解析器将暂停命令处理,直到活动的绘图引擎完成未决的操作并且相关读高速缓存被无效为止。可选地,渲染高速缓存中的被标记为“脏的”任何数据可被刷新到存储器。在一些实施例中,流水线刷新命令3012可用于流水线同步或在将图形处理器置于低功率状态内之前使用。[0359]在一些实施例中,当命令序列需要图形处理器明确地在流水线之间切换时,使用流水线选择命令3013。在一些实施例中,在发出流水线命令之前,在执行上下文内只需要流水线选择命令3013—次,除非上下文用于发出针对两个流水线的命令。在一些实施例中,在经由流水线选择命令3013进行流水线切换之前,立即需要流水线刷新命令3012。[0360]在一些实施例中,流水线控制命令3014配置图形流水线以用于操作,并用于对3D流水线3022和媒体流水线3024编程。在一些实施例中,流水线控制命令3014配置针对活动流水线的流水线状态。在一个实施例中,流水线控制命令3014用于流水线同步并在处理批量命令之前从活动流水线内的一个或多个高速缓存存储器清除数据。[0361]在一些实施例中,返回缓冲器状态命令3016用于配置用于相应的流水线的一组返回缓冲器以写入数据。一些流水线操作需要对一个或多个返回缓冲器的分配、选择或配置,其中,在处理器期间操作将中间数据写入所述返回缓冲器内。在一些实施例中,图形处理器还使用一个或多个返回缓冲器来存储输出数据并执行交叉线程通信。在一些实施例中,返回缓冲器状态3016包括选择返回缓冲器的尺寸和数量以用于一组流水线操作。[0362]在命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定3020,命令序列被裁剪为以3D流水线状态3030开始的3D流水线3022或以媒体流水线状态3040处开始的媒体流水线3024。[0363]用于配置3D流水线状态3030的命令包括针对顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态和在3D原语命令被处理之前配置的其它状态变量的3D状态设置命令。至少部分地基于在使用中的特定3DAPI来确定这些命令的值。在一些实施例中,如果那些元素将不被使用,则3D流水线状态3030命令也能够选择性地禁用或绕过某些流水线元素。[0364]在一些实施例中,3D原语3032命令用于提交将由3D流水线处理的3D原语。经由3D原语3032命令传递到图形处理器的命令和相关联的参数被转发到在图形流水线中的顶点取出功能。顶点取出功能使用3D原语3032命令数据来生成顶点数据结构。顶点数据结构存储在一个或多个返回缓冲器中。在一些实施例中,3D原语3032命令用于经由顶点着色器来对3D原语执行顶点操作。为了处理顶点着色器,3D流水线3022将着色器执行线程分派到图形处理器执行单元。[0365]在一些实施例中,经由执行3034命令或事件来触发3D流水线3022。在一些实施例中,寄存器写入触发命令执行。在一些实施例中,经由在命令序列中的“go”或“kick”命令来触发执行。在一个实施例中,使用流水线同步命令来触发命令执行以通过图形流水线来刷新命令序列。3D流水线将针对3D原语执行几何处理。一旦操作完成,所得到的几何对象就被光栅化并且像素引擎对所得到的像素上色。也可包括用于控制像素着色和像素后端操作的额外命令以用于那些操作。[0366]在一些实施例中,图形处理器命令序列3010在执行媒体操作时遵循媒体流水线3024路径。通常,针对媒体流水线3024的编程的特定使用和方式取决于待执行的媒体或计算操作。特定的媒体解码操作可在媒体解码期间被卸载到媒体流水线。在一些实施例中,也可绕过媒体流水线,并且可使用由一个或多个通用处理核心提供的资源来全部或部分地执行媒体解码。在一个实施例中,媒体流水线还包括用于通用图形处理器单元GPGPU操作的元素,其中图形处理器用于使用不明确地与图形原语的渲染有关的计算着色器程序来执行S頂D矢量操作。[0367]在一些实施例中,以与3D流水线3022类似的方式配置媒体流水线3024。用于配置媒体流水线状态3040的一组命令在媒体对象命令3024之前被分派或放置到命令队列内。在一些实施例中,媒体流水线状态命令3040包括用于配置将用于处理媒体对象的媒体流水线元素的数据。这包括用于配置在媒体流水线内的视频解码和视频编码逻辑例如编码或解码格式的数据。在一些实施例中,媒体流水线状态命令3040也支持使用指向“间接”状态元素的一个或多个指针,所述“间接”状态元素包含批量状态设置。[0368]在一些实施例中,媒体对象命令3042提供指向媒体对象的指针以用于由媒体流水线的处理。媒体对象包括存储器缓冲器,其包含待处理的视频数据。在一些实施例中,在发出媒体对象命令3042之前,所有媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令3042被入队,则媒体流水线3042经由执行命令3044或等效的执行事件(例如寄存器写入被触发。来自媒体流水线3042的输出可接着由3D流水线3022或媒体流水线3024所提供的操作来进行后处理。在一些实施例中,以与媒体操作类似的方式来配置并执行GPGPU操作。[0369]额外的示例性图形软件架构[0370]图31示出了根据一些实施例的用于数据处理系统3100的示例性图形软件架构。在一些实施例中,软件架构包括3D图形应用3110、操作系统3120和至少一个处理器3130。在一些实施例中,处理器3130包括图形处理器3132和一个或多个通用处理器核心3134。图形应用3110和操作系统3120每个在数据处理系统的系统存储器3150中执行。[0371]在一些实施例中,3D图形应用3110包含一个或多个着色器程序,其包括着色器指令3112。着色器语言指令可以用高级着色器语言,例如高级着色器语言HLSL或OpenGL着色器语言GLSL。应用还包括以适合于由通用处理器核心3134执行的机器语言的可执行指令3114。应用还包括由顶点数据定义的图形对象3116。[0372]在一些实施例中,操作系统3120是来自微软公司的Microsoft㊣Windows·®操作系统、专用类UNIX操作系统或使用Linux内核的变形的开放源类UNIX操作系统。操作系统3120可支持图形API3122,例如Direct3DAPI、0penGLAPI或VulkanAPI。当使用Direct3DAPI时,操作系统3120使用前端着色器编译器3224来将以HLSL的任何着色器指令3112编译成较低级着色器语言。编译可以是可执行着色器预编译的恰好及时JIT编译或应用。在一些实施例中,高级着色器在3D图形操作3110的编译期间被编译成低级着色器。在一些实施例中,以中间形式例如由VulkanAPI使用的标准便携式中间表示SPII?的版本提供着色器指令3112。[0373]在一些实施例中,用户模式图形驱动器3126包含后端着色器编译器3127以将着色器指令3112转换成硬件特定表示。当使用OpenGLAPI时,以GLSL高级语言的着色器指令3112被传递到用户模式图形驱动器3126以用于编译。在一些实施例中,用户模式图形驱动器3126使用操作系统内核模式功能3128来与内核模式图形驱动器3129通信。在一些实施例中,内核模式图形驱动器3129与图形处理器3132通信以调度命令和指令。[0374]额外的示例性IP核心实现[0375]至少一个实施例的一个或多个方面可由存储在机器可读介质上的表示和或定义在集成电路例如,处理器)内的逻辑的代表性代码实现。例如,机器可读介质可包括表示在处理器内的各种逻辑的指令。当由机器读取时,指令可使机器制造逻辑以执行本文所述的技术。被称为“IP核心”的这样的表示是用于集成电路的逻辑的可重用单元,其可存储在有形、机器可读介质上作为描述集成电路的结构的硬件模型。硬件模型可被供应到各种消费者或制造设施,其在制造集成电路的制造机器上加载硬件模型。可制造集成电路,使得电路执行与本文所述的任何实施例相关联的所述操作。[0376]图32是示出了根据实施例的可用于制造集成电路以执行操作的IP核心开发系统3200的方框图。IP核心开发系统3200可用于生成可合并到较大的设计内的模块化、可重用设计,或用于构造整个集成电路(例如SOC集成电路)。设计设施3230可以用高级编程语言例如C++生成IP核心设计的软件模拟3210。软件模拟3210可用于使用模拟模型3212来设计、测试和验证IP核心的行为。模拟模型3212可包括功能、行为和或定时模拟。寄存器传送级RTL设计3215可接着根据模拟模型3312被创建或合成。RTL设计3215是对在硬件寄存器之间的数字信号的流进行建模包括使用所建模的数字信号执行的相关逻辑)的集成电路的行为的抽象。除了RTL设计3215以外,也可创建、设计或合成在逻辑级或晶体管级处的较低级设计。因此,初始设计和模拟的特定细节可改变。[0377]RTL设计3215或等效形式可进一步由设计设施合成为硬件模型3220,其可以用硬件描述语言HDL或物理设计数据的某个其它表示。HDL可进一步被模拟或测试以验证IP核心设计。可使用非易失性存储器3240例如硬盘、闪存或任何非易失性存储介质)来存储IP核心设计用于输送到第三方制造设施3265。可选地,可通过有线连接3250或无线连接3260来发送例如经由互联网)IP核心设计。制造设施3265可接着制造至少部分地基于IP核心设计的集成电路。所制造的集成电路可被配置为根据本文所述的至少一个实施例来执行操作。[0378]额外的示例性片上系统集成电路[0379]图33-图35示出了根据本文所述的各种实施例的可使用一个或多个IP核心来制造的示例性集成电路和相关联的图形处理器。除了所示出的内容以外,还可包括其它逻辑和电路,包括额外的图形处理器核心、外围接口控制器户通用处理器核心。[0380]图33是示出了根据实施例的可使用一个或多个IP核心来制造的示例性片上系统集成电路3300。示例性集成电路3300包括一个或多个应用处理器3305例如CPU、至少一个图形处理器3310,并可另外包括图像处理器3315和或视频处理器3320,其中的任一项可以是来自相同或多个不同的设计设施的模块化IP核心。集成电路3300包括外围或总线逻辑,其包括USB控制器3325、UART控制器3330、SPISDI0控制器3335和I2SI2C控制器3340。此外,集成电路可包括耦合到高分辨率多媒体接口(HDMI控制器3350和移动工业处理器接口MIPI显示接口3355中的一个或多个的显示设备3345。存储装置可由包括闪存和闪存控制器的闪存子系统3360提供。可经由存储器控制器3365来提供存储器接口用于存取SDRAM或SRAM存储器设备。此外,一些集成电路包括嵌入式安全引擎3370。[0381]图34是示出了根据实施例的可使用一个或多个IP核心来制造的片上系统集成电路的示例性图形处理器3410。图形处理器3410可以是图33的图形处理器3310的变形。图形处理器3410包括顶点处理器3405和一个或多个片段处理器3415A-3415N例如3415A、3415B、3415C、3415D到3415N-1和3415N。图形处理器3410可经由单独的逻辑来执行不同的着色器程序,使得顶点处理器3405被优化以针对顶点着色器程序执行操作,同时一个或多个片段处理器3415A-3415N针对片段或像素着色器程序执行片段例如像素着色操作。顶点处理器3405执行3D图形流水线的顶点处理级,并生成原语和顶点数据。片段处理器3415A-3415N使用由顶点处理器3405生成的原语和顶点数据来产生显示在显示设备上的帧缓冲器。在一个实施例中,片段处理器3415A-3415N被优化以执行如在OpenGLAPI中提供的片段着色器程序,其可用于执行与如在Direct3DAPI中提供的像素着色器程序相似的操作。[0382]此外,图形处理器3410包括一个或多个存储器管理单元MMU3420A-3420B、高速缓存3425A-3425B和电路互连3430A-3430B。一个或多个MMU3420A-3420B提供用于图形处理器3410包括用于顶点处理器3405和或片段处理器3415A-3415N的)的物理地址映射的虚拟,除了存储在一个或多个高速缓存3425A-3425B中的顶点或图像纹理数据以外,其还可引用存储在存储器中的顶点或图像纹理数据。在一个实施例中,一个或多个MMU3420-3430B可与在系统内的其它MMU同步,所述其它MMU包括与图33的一个或多个应用处理器3305、图像处理器3315和或视频处理器3320相关联的一个或多个MMU,使得每个处理器3305-3320可参与共享或统一虚拟存储器系统。根据实施例,一个或多个电路互连3430A-3430B使图形处理器3410能够经由SoC的内部总线或经由直接连接来与在SoC内的其它IP核心通接合。[0383]图35是示出了根据实施例的可使用一个或多个IP核心来制造的片上系统集成电路的额外示例性图形处理器3510的方框图。图形处理器3510可以是图33的图形处理器3310的变形。图形处理器3510包括图34的集成电路3400的一个或多个MMU3420A-3420B、高速缓存3425A-3425B和电路互连3430A-3430B。[0384]图形处理器3510包括提供统一着色器核心架构的一个或多个着色器核心3515A-3515N例如3515A、3515B、3515C、3515D、3515E、3515F到3515N-1和3515N,其中单个核心或类型或核心可执行所有类型的可编程着色器代码,包括实现顶点着色器、片段着色器和或计算着色器的着色器程序代码。存在的着色器核心的确切数量可在实施例和实现当中改变。此外,图形处理器3510包括核心间任务管理器3505,其充当用于将执行线程分派到一个或多个着色器核心3515A-3515N的线程分派器和用于加速针对基于瓦片的渲染的瓦片化操作的瓦片化单元3518,其中针对场景的渲染操作在图像空间中被细分,例如以利用在场景内的本地空间一致性或优化内部高速缓存的使用。[0385]下文的语句和或示例属于特定的实施例或其示例。在一个或多个实施例中,可在任何地方使用在示例中的细节。不同实施例或示例的各种特征可与被包括的一些特征和被排除的其它特征组合以适合各种不同的应用。示例可包括根据本文所述的实施例和示例的主题,例如方法、用于执行方法的行动的模块、包括指令的至少一个机器可读介质,所述指令当由机器执行时使机器执行方法的行动、或装置或系统的行动。各种部件可以是用于执行所述操作或功能的单元。[0386]其它实施例提供图形处理单元以执行与神经网络相关联的计算,图形处理单元包括:计算单元,其包括具有动态精度定点逻辑的硬件逻辑单元;解码单元,其对指令解码以用于由计算单元执行,所述指令用于使计算单元对一组动态定点张量执行矩阵算术运算;以及动态精度管理器,其动态地调节在矩阵算术运算期间由计算单元执行的计算操作的精度,动态精度管理器,其调节计算操作的精度以防止算术溢出。[0387]在一个实施例中,计算单元的动态精度定点逻辑包括整数计算单元。整数计算单元可包括乘法器、加法器和累加器、移位器和寄存器。寄存器可被配置为存储动态定点缩放因子。在一个实施例中,用于由计算单元执行的指令使计算单元针对用于神经网络的输入数据的卷积运算执行矩阵运算。矩阵运算可包括加法或乘法运算。矩阵运算还可包括乘法和累加运算。在一个实施例中,动态精度管理器可被配置为动态地调节计算操作的精度以防止累加器的算术溢出。[0388]—个实施例提供一种方法,其包括:接收一组动态定点张量;使用在这组动态定点张量内的绝对最大值和这组动态定点张量的动态范围来计算右移位值;对这组动态定点张量内的数据值进行右移位以防止在计算期间的精度损失;使与这组动态定点张量相关联的共享指数递增;以及对这组动态定点张量执行计算操作。[0389]—个实施例提供一种数据处理系统,其包括存储指令的非暂时性机器可读介质;以及包括至少一个图形处理器的一个或多个处理器,所述至少一个图形处理器包括计算单元,其包括具有动态精度定点逻辑的硬件逻辑单元,计算单元用于对一组动态定点张量执行矩阵算术运算;以及动态精度管理器,其用于动态地调节在矩阵算术运算期间由计算单元对这组动态定点张量执行的计算操作的精度,动态精度管理器用于在计算操作期间防止算术溢出。[0390]本文所述的实施例指被配置为执行某些操作或具有预定功能的硬件例如,专用集成电路ASIC的特定配置。这样的电子设备一般包括耦合到一个或多个其它部件(例如,一个或多个存储设备非暂时性机器可读存储介质)、用户输入输出设备例如键盘、触摸屏和或显示器和网络连接)的一组一个或多个处理器。这组处理器和其它部件的耦合一般通过一个或多个总线和桥也被称为总线控制器)。存储设备和携带网络业务的信号分别代表一个或多个机器可读存储介质和机器可读通信介质。因此,给定电子设备的存储设备一般存储代码和或数据以用于在那个电子设备的这组一个或多个处理器上执行。[0391]当然,可使用软件、固件和或硬件的不同组合来实现实施例的一个或多个部分。在整个这个具体实施方式中,为了解释的目的,阐述了很多特定的细节,以便提供对本发明的彻底理解。然而对本领域中的技术人员而言显而易见的是,可在没有这些特定细节中的一些的情况下实践实施例。在某些实例中,没有详细地描述公知的结构和功能以避免使实施例的创造性主体模糊。因此,应按照接下来的权利要求来判断本发明的范围和精神。

权利要求:1.一种用于执行与神经网络相关联的计算的图形处理单元,所述图形处理单元包括:计算单元,其包括具有动态精度定点逻辑的硬件逻辑单元;解码单元,其用于对指令进行解码以用于由所述计算单元执行,所述指令使所述计算单元对一组动态定点张量执行矩阵算术运算;以及动态精度管理器,其用于动态地调节在所述矩阵算术运算期间由所述计算单元执行的计算操作的精度,所述动态精度管理器调节所述计算操作的精度以防止算术溢出。2.如权利要求1所述的图形处理单元,所述计算单元的所述动态精度定点逻辑包括整数计算单元。3.如权利要求2所述的图形处理单元,其中,所述整数计算单元包括乘法器、加法器和累加器、移位器、以及寄存器。4.如权利要求3所述的图形处理单元,其中,所述寄存器用于存储动态定点缩放因子。5.如权利要求4所述的图形处理单元,所述指令用于使所述计算单元执行针对对所述神经网络的输入数据的卷积运算的算术运算。6.如权利要求5所述的图形处理单元,其中,所述矩阵算术运算包括加法运算或乘法运算。7.如权利要求6所述的图形处理单元,其中,所述矩阵算术运算包括乘法运算和累加运算。8.如权利要求7所述的图形处理单元,其中,所述动态精度管理器用于动态地调节所述计算操作的精度以防止在所述累加器处的算术溢出。9.一种方法,包括:接收一组动态定点张量;使用在所述一组动态定点张量内的绝对最大值和所述一组动态定点张量的动态范围来计算右移位值;对在所述一组动态定点张量内的数据值进行右移位;基于应用于所述一组动态定点张量内的所述数据值的右移位的量来使与所述一组动态定点张量相关联的共享指数递增;以及对所述一组动态定点张量执行计算操作。10.如权利要求9所述的方法,其中,对所述一组动态定点张量执行所述计算操作包括:经由对所述一组动态定点张量的所述计算操作来生成输出张量;确定所述输出张量的所述绝对最大值的前导零计数是否高于阈值;以及响应于确定所述前导零计数是否高于所述阈值而调节与所述输出张量相关联的精度。11.如权利要求10所述的方法,其中,调节与所述输出张量相关联的精度包括调节针对所述输出张量的右移位计数器和共享指数。12.如权利要求10所述的方法,其中,调节与所述输出张量相关联的精度包括响应于确定所述前导零计数高于所述阈值而使右移位计数器增加并且使共享指数递增。13.如权利要求10所述的方法,其中,调节与所述输出张量相关联的精度包括响应于确定所述前导零计数低于所述阈值而使右移位计数器减少并且使共享指数递减。14.如权利要求10所述的方法,另外包括:使用所述输出张量来执行额外的计算操作;以及基于所述额外的计算操作来调节与所述输出张量相关联的精度。15.—种数据处理系统,包括:非暂时性机器可读介质,其存储指令;以及一个或多个处理器,其包括至少一个图形处理器,所述至少一个图形处理器包括:计算单元,其包括具有动态精度定点逻辑的硬件逻辑单元,所述计算单元对一组动态定点张量执行矩阵算术运算;以及动态精度管理器,其动态地调节在所述矩阵算术运算期间由所述计算单元对所述一组动态定点张量执行的计算操作的精度,所述动态精度管理器在所述计算操作期间防止算术溢出。16.如权利要求15所述的数据处理系统,所述计算单元的所述动态精度定点逻辑包括整数计算单元。17.如权利要求16所述的数据处理系统,所述整数计算单元包括乘法器、加法器和累加器、移位器、以及寄存器。18.如权利要求17所述的数据处理系统,其中,所述寄存器用于存储动态定点缩放因子。19.如权利要求18所述的数据处理系统,所述非暂时性机器可读介质的所述指令使所述计算单元执行与对用于神经网络的输入数据的卷积运算相关联的矩阵算术运算。20.如权利要求19所述的数据处理系统,其中,所述矩阵算术运算包括加法运算或乘法运算。21.如权利要求20所述的数据处理系统,其中,所述矩阵算术运算包括乘法运算和累加运算。22.如权利要求21所述的数据处理系统,其中,所述动态精度管理器用于动态地调节所述计算操作的精度以防止在所述累加器处的算术溢出。23.如权利要求22所述的数据处理系统,其中,对所述一组动态定点张量执行矩阵算术运算包括:接收与所述矩阵算术运算相关联的输入张量;以及将所述输入张量划分为多个块,所述多个块具有不同的定点精度。24.如权利要求23所述的数据处理系统,其中,将所述输入张量划分为多个块包括:确定针对所述多个块中的每个块的共享指数;使用针对每个块的所述共享指数来将所述多个块中的每个块转换成动态定点格式;以及存储用于所述多个块的元数据以指示针对所述多个块的数据格式和共享指数。25.如权利要求24所述的数据处理系统,所述一个或多个处理器用于对根据所述输入张量划分的所述动态定点张量执行所述矩阵算术运算。

百度查询: 英特尔公司 用于整数深度学习原语的动态精度管理

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。