首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

通用图形处理单元内的计算集群抢占 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:英特尔公司

摘要:一个实施例提供了一种通用图形处理单元,该通用图形处理单元包括:包括多个计算单元的计算集群;用于检测计算集群中的一个或多个计算单元停止并发送停止通知的停止通知模块;以及用于接收该停止通知的再平衡模块,该再平衡模块用于响应于该停止通知将第一工作负荷从一个或多个停止的计算单元迁移。

主权项:1.一种通用图形处理单元,包括:计算集群,所述计算集群包括多个计算单元,所述多个计算单元具有单指令多线程架构;停止通知模块,所述停止通知模块用于检测所述计算集群中的一个或多个计算单元停止并发送停止通知;以及再平衡模块,所述再平衡模块用于接收所述停止通知,所述再平衡模块用于响应于所述停止通知将第一工作负荷从一个或多个停止的计算单元迁移。

全文数据:通用图形处理单元内的计算集群抢占技术领域[0001]实施例总体涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。背景技术[0002]当前的并行图形数据处理包括开发用于对图形数据执行诸如线性插值、曲面细分、栅格化、纹理映射、深度测试等特定操作的系统和方法。传统上,图形处理器使用固定功能计算单元来处理图形数据。然而,最近,已使图形处理器的各部分变成可编程的,使得这些处理器能够支持更广泛的操作来处理顶点和片段数据。[0003]为了进一步提高性能,图形处理器通常实现诸如流水线操作的处理技术,这些处理技术尝试贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程S頂T架构的并行图形处理器被设计为使图形流水线中的并行处理量最大化。在S頂T架构中,并行线程组尝试尽可能经常地同步执行程序指令以提高处理效率。有关SMT架构的软件和硬件的一般概述可见于谢恩•库克的《CUDA编程》第3章第37-51页(2013年)(ShaneCook,CUDAProgramming,Chapter3,pages37-512013和或尼古拉斯.威尔特的01]0八手册《对GPU编程的全面指导》,章节2.6.2到3·1.22013年6月)(NicholasWilt,CUDAHandbook,AComprehensiveGuidetoGPUProgramming,Sections2.6.2to3.1.2June2013〇附图说明[0004]为了以能够详细理解本实施例的以上记载特征的方式,可以通过参考实施例来对以上简要概括的实施例进行更具体的描述,这些实施例中的一些在所附附图中被示出。然而,应当注意,所附附图仅示出典型实施例,并因此不应被认为是对其范围的限制。[0005]图1是示出了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图;[0006]图2A至图2D示出了根据实施例的并行处理器部件;[0007]图3A至图3B是根据实施例的图形多处理器的框图;[0008]图4A至图4F示出了其中多个GPU通信地耦合至多个多核处理器的示例性架构;[0009]图5是根据实施例的图形处理流水线的概念图;[00Ί0]图6示出了根据实施例的可抢占的preemptableGPGPU计算系统;[0011]图7A-7C是根据实施例的用于抢占计算集群的操作的流程图;[0012]图8示出了根据实施例的用于停止的计算集群的任务迀移;[0013]图9示出了根据实施例的被配置成将活动线程挂起到线程暂存(scratch空间的计算单元;[00M]图10示出了根据实施例的用于启用细粒度线程保存和切换的操作;[0015]图11示出了根据实施例的低延迟抢占系统;[0016]图12是根据实施例的低延迟抢占逻辑的流程图;[0017]图13是根据实施例的可配置用于细粒度重置的处理系统的框图;[0018]图14是根据实施例的细粒度重置逻辑的流程图;[0019]图15示出了根据实施例的数据处理系统;[0020]图16是根据实施例的处理系统的框图;[0021]图17是根据实施例的处理器的框图;[0022]图18是根据实施例的图形处理器的框图;[0023]图19是根据一些实施例的图形处理器的图形处理引擎的框图;[0024]图20是由附加实施例提供的图形处理器的框图;[0025]图21示出了线程执行逻辑,所述线程执行逻辑包括在一些实施例中采用的处理元件阵列;[0026]图22是示出了根据一些实施例的图形处理器指令格式的框图;[0027]图23是根据另一个实施例的图形处理器的框图;[0028]图24A至图24B示出了根据一些实施例的图形处理器命令格式和命令序列;[0029]图25示出了根据一些实施例的数据处理系统的示例性图形软件架构;[0030]图26是示出了根据实施例的IP核开发系统的框图;[0031]图27是示出了根据实施例的示例性芯片上系统集成电路的框图;[0032]图28是根据实施例的示出了附加图形处理器的框图;以及[0033]图29是示出了根据实施例的芯片上系统集成电路的附加示例性图形处理器的框图。具体实施方式[0034]在一些实施例中,图形处理单元GPU被可通信地耦合到主机处理器核以加速图形操作、机器学习操作、模式分析操作、以及各种通用GHJGPGPU功能。GPU可通过总线或另一互连例如,诸如PCIe或NVLink之类的高速互连被可通信地耦合到主机处理器核。在其他实施例中,GPU可被集成在与核相同的封装或芯片上,并通过内部处理器总线互连(即,在封装或芯片的内部被可通信地耦合到核。不管GPU被连接的方式,处理器核可以以工作描述符中所包含的命令指令的序列的形式将工作分配给GPUt3GPU随后使用专用电路逻辑以用于高效地处理这些命令指令。[0035]在以下描述中,阐述了很多特定细节来提供更全面的理解。然而,将对本领域技术人员显而易见的是,没有这些特定细节中的一个或多个,也可实践本文中所描述的实施例。在其他实例中,未描述公知的特征以避免使本实施例的细节变得模糊。系统概述[0036]图1是示出了被配置成实现本文所述的实施例的一个或多个方面的计算机系统100的框图。计算系统100包括处理子系统101,所述处理子系统具有一个或多个处理器102和系统存储器104,所述一个或多个处理器和所述系统存储器经由互连路径进行通信,所述互连路径可以包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独的部件,也可以集成在一个或多个处理器102内。存储器中枢105经由通信链路106与IO子系统111耦合。IO子系统111包括IO中枢107,所述IO中枢可以使得计算系统100能够从一个或多个输入设备108接收输入。另外,IO中枢107可以使得显示控制器所述显示控制器可以被包括在一个或多个处理器102中)能够向一个或多个显示设备IlOA提供输出。在一个实施例中,与IO中枢107親合的Iv或多个显不设备IIOA可以包括本地显不设备、内部显不设备或嵌入式显示设备。[0037]在一个实施例中,处理子系统101包括一个或多个并行处理器112,所述一个或多个并行处理器经由总线或其他通信链路113耦合至存储器中枢105。通信链路113可以是任意数量的基于标准的通信链路技术或协议诸如但不限于PCIExpress中的一个,也可以是供应方特定的通信接口或通信结构。在一个实施例中,一个或多个并行处理器112形成以计算为中心的并行或向量处理系统,所述系统包括大量处理核和或处理集群诸如集成众核MIC处理器。在一个实施例中,一个或多个并行处理器112形成图形处理子系统,所述图形处理子系统可以向经由IO中枢107耦合的一个或多个显示设备IlOA中的一个输出像素。一个或多个并行处理器112还可以包括显示控制器和显示接口(未示出)以实现到一个或多个显示设备IlOB的直接连接。[0038]在IO子系统111内,系统存储单元114可以连接至IO中枢107来为计算系统100提供存储机制。IO开关116可以用于提供接口机制以实现IO中枢107和可以集成到平台中的其他部件诸如网络适配器118和或无线网络适配器119以及可以经由一个或多个插入式设备120添加的各种其他设备之间的连接。网络适配器118可以是以太网适配器或另一种有线网络适配器。无线网络适配器119可以包括Wi-Fi、蓝牙、近场通信NFC或包括一个或多个无线电装置的其他网络设备中的一个或多个。[0039]计算系统100可以包括未明确示出的其他部件,这些部件包括USB或其他端口连接件、光存储驱动器、视频捕获设备等,也可以连接至IO中枢107。图1中将各种部件互连的通信路径可以使用任何合适的协议诸如基于PCI外围部件互连)的协议(例如,PCI-Express,或多个任何其他总线或点对点通信接口和或协议诸如NV-Link高速互连或本领域中已知的互连协议来实现。[0040]在一个实施例中,一个或多个并行处理器112并入有为进行图形和视频处理而优化的电路,包括例如视频输出电路,并且所述电路构成图形处理单元GPU。在另一个实施例中,一个或多个并行处理器112并入有为进行通用处理而优化的电路,同时保留了本文更详细描述的基础计算架构。在又一个实施例中,计算系统100的各部件可以与一个或多个其他系统元件集成在单个集成电路上。例如,一个或多个并行处理器112、存储器中枢105、(多个处理器102和IO中枢107可以集成到芯片上系统SoC集成电路中。可替代地,计算系统100的各部件可以集成到单个封装中以形成封装中系统(SIP配置。在其他实施例中,计算系统100的各部件的至少一部分可以集成到多芯片模块MCM中,所述多芯片模块可以与其他多芯片模块互连成模块化计算系统。[0041]应当理解,本文所示的计算系统100是例示性的并且变型和修改是可能的。连接拓扑可以根据需要进行修改,所述连接拓扑包括桥的数量和安排、(多个处理器102的数量和多个并行处理器112的数量。例如,在一些实施例中,系统存储器104直接而不是通过桥连接至(多个处理器102,而其他设备经由存储器中枢105和(多个处理器102与系统存储器104进行通信。在其他替代性拓扑中,(多个并行处理器112连接至IO中枢107或直接连接至一个或多个处理器102中的一个,而不是连接至存储器中枢105。在其他实施例中,IO中枢107和存储器中枢105可以集成到单个芯片中。多数实施例可以包括经由多个插座附接的多个处理器102的两个或更多个组,这两个或更多个组可以与(多个并行处理器112的两个或更多个实例耦合。本文示出的一些特定部件是可选的并且可能不被包括在计算系统100的所有实现中。例如,可以支持任意数量的插入式卡或外围装置,或者可以省去一些部件。[0042]图2A示出了根据实施例的并行处理器200。并行处理器200的各种部件可以使用诸如可编程处理器、专用集成电路ASIC或现场可编程门阵列FPGA的一个或多个集成电路设备来实现。根据实施例,所展示的并行处理器200是图1所示的一个或多个并行处理器112的变体。[0043]在一个实施例中,并行处理器200包括并行处理单元202。所述并行处理单元包括IO单元204,所述IO单元实现与其他设备包括并行处理单元202的其他实例的通信。IO单元204可以直接连接至其他设备。在一个实施例中,IO单元204经由诸如存储器中枢105的中枢或开关接口的使用来与其他设备连接。存储器中枢105与IO单元204之间的连接形成通信链路113。在并行处理单元202内,IO单元204与主机接口206和存储器交叉开关216连接,其中主机接口206接收涉及执行处理操作的命令,并且存储器交叉开关216接收涉及执行存储器操作的命令。[0044]当主机接口206经由IO单元204接收命令缓冲器时,主机接口206可以将用于执行这些命令的工作操作引导到前端208。在一个实施例中,前端208与调度器210耦合,所述调度器被配置成向处理集群阵列212分发命令或其他工作项目。在一个实施例中,调度器210确保在向处理集群阵列212的处理集群分发任务之前,处理集群阵列212被正确地配置并且处于有效状态。[0045]处理集群阵列212可以包括高达“N”个处理集群例如,集群214A、集群214B至集群214N。处理集群阵列212中的每个集群214A至214N能够执行大量例如,数千个并发线程,其中,每个线程是程序的实例。[0046]在一个实施例中,不同的集群214A至214N可以被分配用于处理不同类型的程序或用于执行不同类型的计算。调度器210可以使用各种调度和或工作分布算法将工作分配给处理器集群阵列212中的集群214A至214N,这些调度和或工作分布算法可取决于针对每种类型的程序或计算出现的工作负荷而变化。调度可以由调度器210动态地处置,或可以在对于被配置成供处理集群阵列212执行的程序逻辑的编译期间部分地由编译器逻辑协助。[0047]处理集群阵列212可以被配置成执行各种类型的并行处理操作。在一个实施例中,处理集群阵列212被配置成执行通用并行计算操作。例如,处理集群阵列212可以包括用于执行处理任务的逻辑,这些处理任务包括但不限于:线性和非线性数据变换、视频和或音频数据的滤波、和或建模操作例如,应用物理定律来确定对象的位置、速度和其他属性)。[0048]在一个实施例中,处理集群阵列212被配置成执行并行图形处理操作。在其中并行处理器200被配置成执行图形处理操作的实施例中,处理集群阵列212可以包括用于支持此类图形处理操作的执行的附加逻辑,包括但不限于用于执行纹理操作的纹理采样逻辑以及曲面细分逻辑和其他顶点处理逻辑。另外,处理集群阵列212可以被配置成执行与图形处理相关的着色器程序,诸如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。并行处理单元202可以经由IO单元204从系统存储器传递数据以进行处理。在处理期间,可以在处理期间将经传递的数据存储到片上存储器例如,并行处理器存储器222,然后写回到系统存储器。[0049]在一个实施例中,当并行处理单元202用于执行图形处理时,调度器210可以被配置成将处理工作负荷分成大致相等大小的任务,以更好地使得图形处理操作能够分发到处理集群阵列212的多个集群214A至214N。在一些实施例中,处理集群阵列212的各部分可以被配置成执行不同类型的处理。例如,第一部分可以被配置成执行顶点着色和拓扑生成,第二部分可以被配置成执行曲面细分和几何着色,第三部分可以被配置成执行像素着色或其他屏幕空间操作,以产生渲染的图像进行显示。由集群214A至214N中的一个或多个产生的中间数据可以存储在缓冲器中以允许中间数据在集群214A至214N之间传输以用于进一步处理。[0050]在操作期间,处理集群阵列212可以接收将经由调度器210执行的处理任务,所述调度器从前端208接收定义处理任务的命令。对于图形处理操作,处理任务可以包括要处理的数据例如表面补片patch数据、图元数据、顶点数据和或像素数据以及定义如何处理数据的状态参数和命令例如,要执行哪个程序的索引。调度器210可以被配置成获取对应于任务的索引或者可以从前端208接收索引。前端208可以被配置成确保处理集群阵列212在由传入命令缓冲器例如,批处理缓冲器、入栈缓冲器等指定的工作负荷被发起之前被配置成有效状态。[0051]并行处理单元202的一个或多个实例中的每一个均可与并行处理器存储器222耦合。并行处理器存储器222可以经由存储器交叉开关216来访问,所述存储器交叉开关可以从处理集群阵列212以及IO单元204接收存储器请求。存储器交叉开关216可以经由存储器接口218访问并行处理器存储器222。存储器接口218可以包括多个分区单元例如,分区单元220A,分区单元220B,一直到分区单元220N,这些分区单元各自直接耦合至并行处理器存储器222的一部分例如,存储器单元)。分区单元220A至220N的数量一般等于存储器单元的数量,使得第一分区单元220A具有对应的第一存储器单元224A,第二分区单元220B具有对应的存储器单元224B,以及第N分区单元220N具有对应的第N存储器单元224N。在其他实施例中,分区单元220A至220N的数量可能不等于存储器设备的数量。[0052]在各种实施例中,存储器单元224A至224N可以包括各种类型的存储器设备,包括动态随机存取存储器(DRAM或图形随机存取存储器,诸如同步图形随机存取存储器SGRAM,包括图形双倍数据速率GDDR存储器。在一个实施例中,存储器单元224A至224N还可以包括3D堆叠式存储器,包括但不限于高带宽存储器HBM。本领域技术人员将会理解,存储器单元224A至224N的具体实现可以变化,并且可以由各种常规设计之一进行选择。诸如帧缓冲器或纹理映射的渲染目标可存储在存储器单元224A至224N上,从而允许分区单元220A至220N并行地写入每个渲染目标的各部分,以高效地使用并行处理器存储器222的可用带宽。在一些实施例中,为了支持利用系统存储器连同本地高速缓存存储器的统一存储器设计,可以将并行处理器存储器222的本地实例排除在外。[0053]在一个实施例中,处理集群阵列212中的集群214A至214N中的任一者可以处理有待写入到并行处理器存储器222内的存储器单元224A至224N中的任一者的数据。存储器交叉开关216可以被配置成将每个集群(214A至214N的输出投送至任何分区单元(220A至220N的输入端或投送至另一个集群214A至214N以供进一步处理。每个集群214A至214N可以通过存储器交叉开关216与存储器接口218通信,以从各种外部存储器装置进行读取或写入到各种外部存储器装置。在一个实施例中,存储器交叉开关216具有至存储器接口218的连接以与IO单元204通信,以及具有至并行处理器存储器222的本地实例的连接,从而使得不同处理集群214A至214N内的处理单元能够与系统存储器或对于并行处理单元202而言不是本地的其他存储器通信。在一个实施例中,存储器交叉开关216可以使用虚拟通道来分离集群214A至214N与分区单元220A至220N之间的业务流trafficstream。[0054]虽然并行处理单元202的单个实例展示为在并行处理器200内,但并行处理单元202的任意数量的实例也可以被包括在内。例如,可以在单个插入式卡上提供并行处理单元202的多个实例,或者可以使多个插入式卡互连。即使不同实例具有不同的处理核数量、不同的本地并行处理器存储量和或其他配置差异,并行处理单元202的不同实例也可以被配置成交互操作。例如,以及在一个实施例中,并行处理单元202的一些实例可以包括相对于其他实例的较高精度的浮点单元。并入有并行处理单元202或并行处理器200的一个或多个实例的系统可以以各种配置和形状因数来实现,包括但不限于台式计算机、膝上型计算机或手持式个人计算机、服务器、工作站、游戏控制台和或嵌入式系统。[0055]图2B是根据实施例的分区系统220的框图。在一个实施例中,分区系统220是图2A的分区单元220A至220N中的一个的实例。如图所示,分区单元220包括L2高速缓存221、帧缓冲器接口225和ROP226栅格操作单元)丄2高速缓存221是被配置成执行从存储器交叉开关216和ROP226所接收的加载和存储操作的读取写入高速缓存。由L2高速缓存221向帧缓冲器接口225输出读未命中和紧急回写请求以进行处理。也可以经由帧缓冲器接口225向帧缓冲器发送脏更新以用于机会处理。在一个实施例中,帧缓冲器接口225与并行处理器存储器中的存储器单元中的一个诸如图2的存储器单元224A至224N例如,在并行处理器存储器222内)交互。[0056]在图形应用中,ROP226是处理单元,其执行栅格操作诸如,模板印刷stencil、z测试、混合等等并输出像素数据作为已处理的图形数据,以供存储在图形存储器中。在一些实施例中,ROP226可被配置成压缩被写入到存储器的z或颜色数据并解压缩从存储器读取的z或颜色数据。在一些实施例中,ROP226被包括在每个处理集群例如,图2的集群214A至214N内而非被包括在分区单元220内。在这样的实施例中,通过存储器交叉开关216而非像素片段数据来传输像素数据的读取和写入请求。[0057]经处理图形数据可以显示在显示设备诸如图1的一个或多个显示设备110中的一个上,由(多个处理器102路由以用于进一步处理,或者由图2A的并行处理器200内的处理实体中的一个路由以用于进一步处理。[0058]图2C是根据实施例的并行处理单元内的处理集群214的框图。在一个实施例中,处理集群是图2的处理集群214A至214N中的一个的实例。处理集群214可以被配置成并行地执行多个线程,其中术语“线程”是指在特定输入数据集上执行的特定程序的实例。在一些实施例中,使用单指令多数据SIMD指令发布技术来支持大量线程的并行执行,而无需提供多个独立的指令单元。在其他实施例中,使用单指令多线程SIMT技术来使用被配置成向处理集群的每一个内的一组处理引擎发出指令的公共指令单元来支持大量大致同步线程的并行执行。与所有处理引擎通常执行相同指令的SMD执行机制不同,SIMT执行允许不同线程更容易地遵循穿过给定线程程序的发散执行路径。本领域技术人员将会理解,SMD处理机制表示S頂T处理机制的功能子集。[0059]处理集群214的操作可以经由向SMT并行处理器分发处理任务的流水线管理器232来控制。流水线管理器232从图2的调度器210接收指令并且经由图形多处理器234和或纹理单元236来管理那些指令的执行。所展示的图形多处理器234是SMT并行处理器的示例性实例。然而,不同架构的各种类型的SMT并行处理器可以被包括在处理集群214内。图形多处理器234的一个或多个实例可以被包括在处理集群214内。图形多处理器234可以处理数据,并且数据交叉开关240可以用于将经处理数据分配到包括其他着色单元的多个可能目的地中的一个。流水线管理器232可以通过为将经由数据交叉开关240分发的数据指定目的地来促进经处理数据的分发。[0060]处理集群214内的每个图形多处理器234可以包括相同的一组功能执行逻辑(例如,算术逻辑单元、加载-存储单元等),所述一组功能执行逻辑可以被流水线化,从而允许在前一指令已完成之前发布新的指令。可提供功能执行逻辑的任何组合。在一个实施例中,功能逻辑支持多种运算,包括整数和浮点算术(例如,加法和乘法)、比较运算、布尔运算AND、OR、X0R、位移位bit-shifting和各种代数函数例如,平面插值函数、三角函数、指数函数和对数函数等的计算;并且可以利用相同的功能单元硬件以执行不同的操作。[0061]被传输到处理集群214的一系列指令构成了如本文中先前所定义的线程,并且遍及图形多处理器234内的并行处理引擎未示出)的一定数量的并发执行线程的集合在本文中被称为线程组。如本文中所使用,线程组是指在不同的输入数据上并发执行相同程序的一组线程,其中所述组中的一个线程被指派给图形多处理器234内的不同处理引擎。线程组可包括比图形多处理器234内的处理引擎的数量更少的线程,在这种情况下,一些处理引擎将在所述线程组正被处理时的周期期间为空闲的。线程组还可包括比图形多处理器234内的处理引擎的数量更多的线程,在这种情况下,处理将在连贯的时钟周期上发生。每个图形多处理器234可以并发地支持高达G个线程组。此外,多个有关的线程组可在图形多处理器234内同时有效在不同的执行阶段中)。[0062]在一个实施例中,图形多处理器234包括用于执行加载和存储操作的内部高速缓存存储器。在一个实施例中,图形多处理器234可以放弃内部高速缓存而是在处理集群214内使用高速缓存存储器例如,Ll高速缓存308。每个图形多处理器234还可以访问在所有处理集群214之间共享的分区单元例如,图2的分区单元220A至220N内的L2高速缓存,并且可以用于在线程之间传递数据。图形多处理器234还可以访问片外全局存储器,所述片外全局存储器可以包括本地并行处理器存储器和或系统存储器中的一个或多个。并行处理单元202外部的任何存储器可以用作全局存储器。其中处理集群214包括图形多处理器234的多个实例的实施例可以共享可以在Ll高速缓存308中存储的公共指令和数据。[0063]每个处理集群214均可包括被配置成将虚拟地址映射到物理地址的MMU245存储器管理单元)。在其他实施例中,MMU245中的一个或多个实例可以驻留在图2的存储器接口218内。MMU245包括用于将虚拟地址映射到图块tile的物理地址和可选地高速缓存行索引的一组页表条目(PTE13MMU245可以包括可以驻留在图形多处理器234或Ll高速缓存或处理集群214内的地址转换后备缓冲器TLB或高速缓存。对物理地址进行处理以分发表面数据访问局部性以实现分区单元之间的高效请求交错。可以使用高速缓存行索引来确定对尚速缓存行的请求是命中还是未命中。[0064]在图形和计算应用中,处理集群214可以被配置成使得每个图形多处理器234均耦合至纹理单元236以执行纹理映射操作,例如确定纹理样本位置、读取纹理数据和过滤纹理数据。纹理数据是从内部纹理Ll高速缓存(未示出)或者在一些实施例中从图形多处理器234内的Ll高速缓存读取,并且是根据需要从L2高速缓存、本地并行处理器存储器或系统存储器获取。每个图形多处理器234向数据交叉开关240输出经处理任务以向另一个处理集群214提供经处理任务以用于进一步处理或经由存储器交叉开关216在L2高速缓存、本地并行处理器存储器或系统存储器中存储经处理任务。PreROP242预先栅格操作单元被配置成从图形多处理器234接收数据,将数据引导到ROP单元,这些ROP单元可以如本文所述的那样用分区单元例如,图2的分区单元220A至220N定位。preROP242单元可以对颜色混合进行优化、组织像素颜色数据并执行地址转换。[0065]应当理解,本文所述的核架构是例示性的并且变型和修改是可能的。例如图形多处理器234、纹理单元236、preR0P242等任意数量的处理单元可以被包括在处理集群214内。此外,虽然仅示出一个处理集群214,但如本文所述的并行处理单元可以包括处理集群214的任意数量的实例。在一个实施例中,每个处理集群214均可被配置成使用单独的和不同的处理单元、Ll高速缓存等来独立于其他处理集群214而操作。[0066]图2D示出了根据一个实施例的图形多处理器234。在这样的实施例中,图形多处理器234与处理集群214的流水线管理器232耦合。图形多处理器234具有执行流水线,所述执行流水线包括但不限于指令高速缓存252、指令单元254、地址映射单元256、寄存器堆258、一个或多个通用图形处理单元GPGPU核262和一个或多个加载存储单元266APGPU核262和加载存储单元266经由存储器和高速缓存互连268与高速缓存存储器272和共享存储器270耦合。[0067]在一个实施例中,指令高速缓存252从流水线管理器232接收要执行的指令流。将这些指令高速缓存在指令高速缓存252中并分派用于由指令单元254执行。指令单元254可以将指令作为线程组例如,经线进行分派,线程组的每个线程均被分配到GPGPU核262内的不同执行单元。指令可以通过在统一地址空间内指定地址来访问本地、共享或全局地址空间中的任一个。地址映射单元256可以用于将统一地址空间中的地址转换成可由加载存储单元266访问的不同存储器地址。[0068]寄存器堆258为图形多处理器324的功能单元提供一组寄存器。寄存器堆258为连接至图形多处理器324的功能单元例如,GPGPU核262、加载存储单元266的数据路径的操作数提供临时存储。在一个实施例中,寄存器堆258在功能单元中的每一个之间进行划分,使得每个功能单元均被分配寄存器文件258的专用部分。在一个实施例中,寄存器堆258在正由图形多处理器324执行的不同经线之间进行划分。[0069]GPGPU核262可以各自包括用于执行图形多处理器324的指令的浮点单元FPU和或整数算数逻辑单元ALU。根据实施例,GPGPU核262的架构可以类似,也可以不同。例如,以及在一个实施例中,GPGPU核262的第一部分包括单精度FPU和整数ALU,而GPGPU核的第二部分包括双精度FPU。在一个实施例中,FPU可以实现IEEE754-2008浮点算数标准或启用可变精度浮点算数。另外,图形多处理器324还可以包括用于执行诸如复制矩形或像素混合操作的特定功能的一个或多个固定功能或特殊功能单元。在一个实施例中,GPGPU核中的一个或多个还可以包含固定或特殊功能逻辑。[0070]存储器和高速缓存互连268是互连网络,所述互连网络将图形多处理器324的功能单元中的每一个连接至寄存器堆258和共享存储器270。在一个实施例中,存储器和高速缓存互连268是允许加载存储单元266在共享存储器270与寄存器堆258之间实现加载和存储操作的交叉开关互连。在一个实施例中,共享存储器270可以用于实现在功能单元上执行的线程之间的通信。例如,高速缓存存储器272可以用作数据高速缓存,以高速缓存在功能单元与纹理单元236之间通信的纹理数据。[0071]图3A至图3B示出了根据实施例的附加图形多处理器。所展示的图形多处理器325、350是图2C的图形多处理器234的变体。所展示的图形多处理器325、350可以被配置成能够同时执行大量执行线程的流式多处理器SM。[0072]图3A展示了根据附加实施例的图形多处理器325。图形多处理器325包括相对于图2D的图形多处理器234的执行资源单元的多个附加实例。例如,图形多处理器325可以包括指令单元332A至332B、寄存器堆334A至334B和(多个纹理单元344A至344B的多个实例。图形多处理器325还包括多组图形或计算执行单元例如,GPGPU核336A至336B、GPGPU核337A至337B、GPGPU核338A至338B和多组加载存储单元340A至340B。在一个实施例中,执行资源单元具有公共指令高速缓存330、纹理和或数据高速缓存存储器342和共享存储器346。各种部件可以经由互连结构327进行通信。在一个实施例中,互连结构327包括一个或多个交叉开关,所述一个或多个交叉开关用于实现图形多处理器325的各种部件之间的通信。[0073]图3B展示了根据附加实施例的图形多处理器350。如图2D和图3A所示,图形处理器包括多组执行资源356A至356D,其中每组执行资源均包括多个指令单元、寄存器堆、GPGPU核和加载存储单元。执行资源356A至356D可以与(多个纹理单元360A至360D—起工作以进行纹理操作,同时共享指令高速缓存354和共享存储器362。在一个实施例中,执行资源356A至356D可以共享指令高速缓存354和共享存储器362以及纹理和或数据高速缓存存储器358A至358B的多个实例。各种部件可以经由与图3A的互连结构327类似的互连结构352进行通信。[0074]本领域的技术人员将理解,图1、图2A至图2D和图3A至图3B中所述的架构是描述性的,而不限制本发明的实施例的范围。因此,本文所述的技术可以在任何适当配置的处理单元上实现,包括但不限于:一个或多个移动应用处理器;一个或多个台式计算机或服务器中央处理单元CPU,包括多核CPU;—个或多个并行处理单元诸如图2的并行处理单元202;以及一个或多个图形处理器或专用处理单元,而不脱离本文所述的实施例的范围。[0075]在一些实施例中,如本文所述的并行处理器或GPGPU通信地耦合至主机处理器核以加快图形操作、机器学习操作、模式分析操作和各种通用GPUGPGPU功能。GPU可以通过总线或其他互连例如,诸如PCIe或NVLink的高速互连通信地耦合至主机处理器核。在其他实施例中,GPU可以与核一样集成在相同的封装或芯片上并且通过内部处理器总线互连即,在封装或芯片内部通信地耦合至所述核。不管GPU连接的方式如何,处理器核都可以以工作描述符中包含的命令指令序列的形式向GPU分配工作。然后,GPU使用专用电路逻辑来高效地处理这些命令指令。用于GPU到主机处理器互连的技术[0076]图4A展示了其中多个GPU410至413通过高速链路440至443例如,总线、点对点互连等)通信地耦合至多个多核处理器405至406的示例性架构。在一个实施例中,高速链路440至443支持4GBs、30GBs、80GBs或更高的通信吞吐量,这取决于实现。可以使用各种互连协议,包括但不限于PCIe4.0或5.0和NVLink2.0。然而,本发明的基本原理不限于任何特定的通信协议或吞吐量。[0077]此外,在一个实施例中,GPU410至413中的两个或更多个通过高速链路444至445互连,这可以使用与用于高速链路440至443的协议链路相同或不同的协议链路来实现。类似地,多核处理器405至406中的两个或更多个可以通过高速链路433连接,所述高速链路可以是以20GBS、30GBs、120GBs或更高的速度运行的对称多处理器(SMP总线。可替代地,图4A中所示的各种系统部件之间的所有通信均可使用相同的协议链路例如,通过公共互连结构来完成。然而,如所提及的,本发明的基本原理不限于任何特定类型的互连技术。[0078]在一个实施例中,每个多核处理器405至406分别经由存储器互连430至431通信地耦合至处理器存储器401至402,并且每个GPU410至413分别通过GPU存储器互连450至453通信地耦合至GPU存储器420至423。存储器互连430至431和450至453可以利用相同或不同的存储器访问技术。以示例而不是限制的方式,处理器存储器401至402和GPU存储器420至423可以是诸如动态随机存取存储器DRAM包括堆叠式DRAM、图形DDRSDRAMGDDR例如,GDDR5、GDDR6或高带宽存储器HBM的易失性存储器,和或可以是诸如3DXPoint或Nano-Ram的非易失性存储器。在一个实施例中,存储器的某个部分可以是易失性存储器,而另一个部分可以是非易失性存储器例如,使用两级存储器2LM层级结构)。[0079]如下所述,尽管各种处理器405至406和GPU410至413均可分别物理地耦合至特定存储器401至402、420至423,但可以实现统一存储器架构,其中相同的虚拟系统地址空间也称为“有效地址”空间)分发在所有各种物理存储器中。例如,处理器存储器401至402可以各自包括64GB的系统存储器地址空间,并且GPU存储器420至423可以各自包括32GB的系统存储器地址空间(导致在所述示例中产生总共256GB的可寻址存储空间)。[0080]图4B展示了根据一个实施例的多核处理器407与图形加速模块446之间的互连的附加细节。图形加速模块446可以包括集成在经由高速链路440耦合至处理器407的线卡上的一个或多个GPU芯片。可替代地,图形加速模块446可以与处理器407—样集成在相同的封装或芯片上。[0081]所展示的处理器407包括多个核460A至460D,这些核各自具有转换后备缓冲器461A至461D和一个或多个高速缓存462A至462D。这些核可以包括用于执行指令和处理未展示的数据以避免模糊本发明的基本原理的各种其他部件例如,指令获取单元、分支预测单元、解码器、执行单元、重排序缓冲器等)。高速缓存462A至462D可以包括1级LI和2级L2高速缓存。此外,一个或多个共享高速缓存426可以被包括在高速缓存层级结构中并由各组核460A至460D共享。例如,处理器407的一个实施例包括24个核,这些核各自具有它自己的Ll高速缓存、12个共享L2高速缓存和12个共享L3高速缓存。在这个实施例中,L2高速缓存和L3高速缓存中的一个由两个相邻核共享。处理器407和图形加速器集成模块446与系统存储器441连接,所述系统存储器可以包括处理器存储器401至402。[0082]通过一致性总线464经由核间通信来为各种高速缓存462A至462D、456和系统存储器441中存储的数据和指令保持一致性。例如,每个高速缓存均可具有与其关联的高速缓存一致性逻辑电路,以响应于所检测的对特定高速缓存行的读取或写入而通过一致性总线464进行通信。在一个实现中,通过一致性总线464实现高速缓存窥探协议以窥探高速缓存访问。本领域技术人员可以很好理解高速缓存窥探一致性技术,以避免模糊本发明的基本原理,这里不再详细描述。[0083]在一个实施例中,代理电路425将图形加速模块446通信地耦合至一致性总线464,从而允许图形加速模块446作为核的对等体参与缓存一致性协议。具体地讲,接口435通过高速链路440例如,PCIe总线、NVLink等)向代理电路425提供连接性,并且接口437将图形加速模块446连接至链路440。[0084]在一个实现中,加速器集成电路436代表图形加速模块446的多个图形处理引擎431、432、43N提供高速缓存管理、存储器访问、上下文管理和中断管理服务。图形处理引擎431、432、43N可以各自包括单独的图形处理单元GPU。可替代地,图形处理引擎431、432、43N可以在GPU内包括不同类型的图形处理引擎诸如图形执行单元、媒体处理引擎例如,视频编码器解码器)、采样器和块图像传输引擎。换句话讲,图形加速模块可以是具有多个图形处理引擎431、432、43N的GPU,或图形处理引擎431至432、43N可以是集成在公共包、线卡或芯片上的单独GPU。[0085]在一个实施例中,加速器集成电路436包括存储器管理单元MMU439,所述存储器管理单元用于执行诸如虚拟到物理存储器转换也称为有效到实际存储器转换)的各种存储器管理功能和用于访问系统存储器441的存储器访问协议。MMU439还可以包括用于高速缓存虚拟有效到物理实际地址转换的转换后备缓冲器TLB未示出)。在一个实现中,高速缓存438存储用于由图形处理引擎431至432、43N高效访问的命令和数据。在一个实施例中,使高速缓存438和图形存储器433至434、43N中存储的数据与核高速缓存462A至462D、456和系统存储器411保持一致。如所提及的,这可以经由代理电路425来完成,所述代理电路代表高速缓存438和存储器433至434、43N参与高速缓存一致性机制(例如,向高速缓存438发送与处理器高速缓存462A至462D、456上的高速缓存行的修改访问相关的更新并从高速缓存438接收更新)。[0086]一组寄存器445存储由图形处理引擎431至432、43N执行的线程的上下文数据,并且上下文管理电路448管理线程上下文。例如,上下文管理电路448可以执行保存和恢复操作以在上下文切换期间保存和恢复各种线程的上下文例如,其中第一线程被保存并且第二线程被存储,使得第二线程可以由图形处理引擎执行)。例如,在上下文切换时,上下文管理电路448可以将当前寄存器值存储到存储器中的指定区域例如,由上下文指针标识)。所述上下文管理电路可以在返回上下文时恢复寄存器值。在一个实施例中,中断管理电路447接收并处理从系统设备所接收的中断。[0087]在一个实现中,由MMU439将来自图形处理引擎431的虚拟有效地址转换为系统存储器411中的实际物理地址。加速器集成电路436的一个实施例支持多个例如,4个、8个、16个)图形加速器模块446和或其他加速器设备。图形加速器模块446可以专用于在处理器407上执行的单个应用,或者可以在多个应用之间共享。在一个实施例中,呈现虚拟图形执行环境,其中图形处理引擎431至432、43N的资源与多个应用或虚拟机VM共享。资源可以被细分为基于与VM和或应用相关联的处理要求和优先级而分配给不同的VM和或应用的“分片”。[0088]因此,加速器集成电路充当图形加速模块446的系统的桥,并提供地址转换和系统存储器高速缓存服务。此外,加速器集成电路436可以为主机处理器提供虚拟化设施以管理图形处理引擎、中断和存储器管理的虚拟化。[0089]由于图形处理引擎431至432、43N的硬件资源显式地地映射到由主机处理器407看到的实际地址空间,因此任何主处理器都可以使用有效地址值来为这些资源直接寻址。在一个实施例中,加速器集成电路436的一个功能是图形处理引擎431至432、43N的物理分离,使得它们作为独立单元出现在系统上。[0090]如所提及的,在所展示的实施例中,一个或多个图形存储器433至434、43M分别耦合至图形处理引擎431至432、43N中的每一个。图形存储器433至434、43M存储正由图形处理引擎431至432、43N中的每一个处理的指令和数据。图形存储器433至434,43M可以是诸如DRAM包括堆叠式DRAM、GDDR存储器例如,GDDR5、GDDR6或HBM的易失性存储器,和或可以是诸如3DXPoint或Nano-Ram的非易失性存储器。[0091]在一个实施例中,为了减少链路440上的数据流量,使用偏置技术来确保图形存储器433至434、43M中存储的数据是图形处理引擎431至432、43N最频繁使用,并且核460A至460D优选不使用至少不频繁使用)的数据。类似地,偏置机制试图使核并且优选地不是图形处理引擎431至432、43N所需的数据保持在核和系统存储器411的高速缓存462A至462D、456内。[0092]图4C展示了其中加速器集成电路436集成在处理器407内的另一个实施例。在这个实施例中,图形处理引擎431至432、43N经由接口437和接口435来直接通过高速链路440与加速器集成电路436进行通信这也可以利用任何形式的总线或接口协议)。加速器集成电路436可以执行与关于图4B所描述的操作相同的操作,但考虑到其与一致性总线462和高速缓存462A至462D、426紧密接近,可能以较高的吞吐量进行操作。[0093]—个实施例支持不同的编程模型,包括专用进程编程模型(不具有图形加速模块虚拟化和共享编程模型具有虚拟化)。共享编程模型可以包括由加速器集成电路436控制的编程模型和由图形加速模块446控制的编程模型。[0094]在专用进程模型的一个实施例中,图形处理引擎431至432、43N在单个操作系统下专用于单个应用或进程。单个应用可以将其他应用请求集中到图形引擎431至432、43N,从而在VM分区内提供虚拟化。[0095]在专用进程编程模型中,图形处理引擎431至432、43N可以由多个VM应用分区共享。共享模型需要系统管理程序,所述系统管理程序用于将图形处理引擎431至432、43N虚拟化,以允许由每个操作系统进行访问。对于没有管理程序的单分区系统,图形处理引擎431至432、43N由操作系统拥有。在这两种情况下,操作系统都可以将图形处理引擎431至432、43N虚拟化以提供对每个进程或应用的访问。[0096]对于共享编程模型,图形加速模块446或单独图形处理引擎431至432、43N使用进程句柄来选择进程要素。在一个实施例中,进程要素被存储在系统存储器411中并且可使用本文所述的有效地址到实际地址转换技术来寻址。所述进程句柄可以是在向图形处理引擎431至432、43N注册它的上下文(S卩,调用系统软件以向进程要素链表添加进程要素时向主机进程提供特定于实现的值。所述进程句柄的低16位可以是进程要素链表内的进程要素的偏移量。[0097]图4D展示了示例性加速器集成分片490。如本文所用,“分片”包括加速器集成电路436的处理资源的指定部分。系统存储器411内的应用有效地址空间482存储进程要素483。在一个实施例中,进程要素483响应于来自在处理器407上执行的应用480的GPU调用481而被存储。进程要素483包含相应应用480的处理状态。进程要素483中包含的工作描述符WD484可以是应用所请求的单个作业,或者可以包含指向作业队列的指针。在后一种情况下,WD484是指向应用地址空间482中的作业请求队列的指针。[0098]图形加速模块446和或单独图形处理引擎431至432、43N可以由系统中的全部或部分进程共享。本发明的实施例包括用于建立处理状态并向图形加速模块446发送WD484以在虚拟环境中开始作业的基础结构。[0099]在一个实现中,专用进程编程模型是特定于具体实施的。在这个模型中,单个进程拥有图形加速模块446或单独的图形处理引擎431。由于图形加速模块446由单个进程拥有,因此管理程序初始化加速器集成电路436以获得所属分区,并且操作系统在图形加速模块446被分配时初始化加速器集成电路436以获取所属进程。[0100]在操作中,加速器集成分片490中的WD获取单元491获取下一个WD484,所述WD包括将由图形加速模块446的图形处理引擎之一进行的工作的指示。如图所示,来自WD484的数据可以被存储在寄存器445中并由MMU439、中断管理电路447和或上下文管理电路446使用。例如,MMU439的一个实施例包括用于访问OS虚拟地址空间485内的段页表486的段页步行walk电路。中断管理电路447可以处理从图形加速模块446所接收的中断事件492。当执行图形操作时,由图形处理引擎431至432、43N生成的有效地址493由MMU439转换为实际地址。[0101]在一个实施例中,针对每个图形处理引擎431至432、43N和或图形加速模块446复制同一组寄存器445,并且可以由管理程序或操作系统初始化这一组寄存器。这些复制的寄存器中的每一个均可被包括在加速器集成分片490中。表1中示出了可以由管理程序初始化的不例性寄存器。表1-管理程序初始化寄存器[0102]^表2中示出了可以由操作系统初始化的示例性寄存器。表2-操作系统初始化寄存器[0103]在一个实施例中,每个WD484均特定于特定图形加速模块446和或图形处理引擎431至432、43N。所述WD包含图形处理引擎431至432、43N完成其工作所需的所有信息,或者所述WD可以是指向应用已经建立了要完成的工作命令队列的存储器位置的指针。[0104]图4E展示了共享模型的一个实施例的附加细节。所述实施例包括其中存储了进程要素列表499的管理程序实际地址空间498。管理程序实际地址空间498可经由管理程序496来访问,所述管理程序将操作系统495的图形加速模块引擎虚拟化。[0105]共享编程模型允许来自系统中的全部或部分分区的全部或部分进程使用图形加速模块446。有两种编程模型,其中图形加速模块446由多个进程和分区共享:时间分片共享和图形直接共享。[0106]在这个模型中,系统管理程序496拥有图形加速模块446并且使其功能对所有操作系统495可用。为使图形加速模块446支持系统管理程序496的虚拟化,图形加速模块446可遵守以下要求:1应用作业请求必须是自主的(即,不需要维持作业之间的状态),或者图形加速模块446必须提供上下文保存和恢复机制。2图形加速模块446保证在指定时间量内完成应用作业请求,包括任何转换错误,或者图形加速模块446提供抢占作业处理的能力。3当以直接共享编程模型操作时,必须保证进程中图形加速模块446的公平性。[0107]在一个实施例中,对于共享模型,需要应用480来利用图形加速模块446类型、工作描述符WD、授权掩码寄存器AMI?值以及上下文保存恢复区域指针CSRP来进行操作系统495系统调用。图形加速模块446类型描述了系统调用的目标加速功能。图形加速模块446类型可以是特定于系统的值。所述WD专门针对图形加速模块446来格式化,并且可以呈以下形式:图形加速模块446命令;指向用户定义结构的有效地址指针;指向命令队列的有效地址指针;或用于描述将由图形加速模块446进行的工作的任何其他数据结构。在一个实施例中,AMR值是用于当前进程的AMR状态。传递给操作系统的值与设置AMR的应用类似。如果加速器集成电路436和图形加速模块446的实现不支持用户授权掩码覆盖寄存器UAMOR,则操作系统可以在管理程序调用中传递AMR之前向AMR值应用当前UAMOR值。在将AMR置于进程要素483之前,管理程序496可以可选地应用当前授权掩码覆盖寄存器AMOR值。在一个实施例中,CSRP是包含应用地址空间482中供图形加速模块446保存和恢复上下文状态的区域的有效地址的寄存器445中的一个。如果不需要在作业之间保存状态或当作业被抢占时,这个指针是可选的。所述上下文保存恢复区域可以是插接的系统存储器。[0108]在接收到系统调用时,操作系统495可以验证应用480已注册并被授权使用图形加速模块446。操作系统495然后利用表3中所示的信息来调用管理程序496。表3-操作系统对管理程序的调用参数_Τ0Ϊ09Ϊ~在接收到管理程序调用时,管理程序496可以验证操作系统495已注册并被授权使用图形加速模块446。管理程序496然后将进程要素483针对对应图形加速模块446类型放入进程要素链表中。进程要素可以包含表4中所示的信息。表4-进程要素信息[0110]在一个实施例中,管理程序将寄存器445的多个加速器集成分片490初始化。[0111]如图4F所展示,本发明的一个实施例采用可经由用于访问物理处理器存储器401至402和GPU存储器420至423的公共虚拟存储器地址空间来寻址的统一存储器。在这个实现中,在GPU410至413上执行的操作利用相同的虚拟有效存储器地址空间来访问处理器存储器401至402,反之亦然,由此简化可编程性。在一个实施例中,将虚拟有效地址空间的第一部分分配给处理器存储器401,将第二部分分配给第二处理器存储器402,将第三部分分配给GHJ存储器420,以此类推。整个虚拟有效存储器空间有时称为有效地址空间)由此分布在处理器存储器401至402和GPU存储器420至423中的每一个上,从而允许任何处理器或GPU访问具有映射到所述存储器的虚拟地址的任何物理存储器。[0112]在一个实施例中,MMU439A至439E中的一个或多个内的偏置一致性管理电路494A至494E确保了主机处理器例如,405与GPU410至413的高速缓存之间的高速缓存一致性,并且还实现了指示其中应当存储某些类型的数据的物理存储器的偏置技术。尽管在图4F中展示了偏置一致性管理电路494A至494E的多个实例,但偏置一致性电路也可以在一个或多个主机处理器405的MMU内和或在加速器集成电路436内实现。[0113]—个实施例允许将GPU附接的存储器420至423映射为系统存储器的一部分,并使用共享虚拟存储器SVM技术进行访问,但不会遭受与全系统高速缓存一致性相关的典型性能缺陷。GPU附接的存储器420至423作为系统存储器来访问的能力不会造成繁重的高速缓存一致性开销,这为GPU卸载提供了有利的操作环境。这种安排允许主机处理器405软件设置操作数并访问计算结果,而不具有传统IODM数据拷贝的开销。这些传统拷贝涉及驱动器调用、中断和存储器映射VOMMIO访问,这些访问相对于简单内存访问来说都是低效的。同时,在不具有高速缓存一致性开销的情况下访问GPU附接存储器420至423的能力对于卸载计算的执彳丁时间可能是关键的。例如,在具有大量流式与入存储器业务的情况下,尚速缓存一致性开销可以显著降低由GPU410至413看到的有效写入带宽。操作数设置的效率、结果访问的效率以及GHJ计算的效率都在确定GPU卸载的有效性方面发挥着重要作用。[0114]在一个实现中,GPU偏置与主机处理器偏置之间的选择由偏置跟踪器数据结构驱动。例如,可以使用偏置表,所述偏置表可以是每个GHJ附接存储器页包括1或2个位的页粒度结构(即,以存储器页的粒度来控制)。偏置表可以在一个或多个GHJ附接存储器420至423的被盗存储器范围内实现,在GPU410至413中具有或不具有偏置高速缓存例如,以高速缓存频繁最近使用的偏置表的条目)。可替代地,整个偏置表均可保持在GHJ内。[0115]在一个实现中,在实际访问GPU存储器之前访问与对GPU附接存储器420至423的每次访问相关联的偏置表条目,从而使得以下操作。首先,将来自GPU410至413的在GPU偏置中发现其页的本地请求直接转发到对应的GHJ存储器420至423。将来自GPU的在主机偏置中发现其页的本地请求转发给处理器405例如,如上所述通过高速链路)。在一个实施例中,来自处理器405的在主机处理器偏置中发现所请求的页的请求完成了像正常存储器读取那样的请求。可替代地,可以将针对GPU偏置页的请求转发给GPU410至413。如果GPU当前未使用所述页,则GHJ可以将所述页转换为主机处理器偏置。[0116]页的偏置状态可以通过基于软件的机制、基于硬件辅助软件的机制,或者对于一组有限的情况,基于仅硬件的机制来改变。[0117]一种用于改变偏置状态的机制采用API调用(例如OpenCL,所述API调用继而调用GHJ设备驱动器,所述驱动器继而向GPU发送消息或将命令描述符入队),从而引导所述GPU改变偏置状态,并且对于某些转换,在主机中执行高速缓存转储清除操作。所述高速缓存转储清除操作是从主机处理器405偏置到GPU偏置的转换所必需的,而对于相反转换则不是必需的。[0118]在一个实施例中,通过暂时呈现主机处理器405不可高速缓存的GPU偏置页来保持缓存一致性。为了访问这些页,处理器405可以请求来自GPU410的访问,GPU可以依据实现立即授权访问也可以不授权访问。因此,为了减少处理器405与GPU410之间的通信,有利的是确保GPU偏置页是GPU所需但不是主机处理器405所需的页,反之亦然。图形处理流水线[0119]图5是根据实施例的图形处理流水线500的概念图。在一个实施例中,图形处理器可以实现所展示的图形处理流水线500。所述图形处理器可以被包括在如本文所述的并行处理子系统诸如图2的并行处理器200内,在一个实施例中,所述并行处理器是图1的(多个)并行处理器112的变体。如本文所述,各种并行处理系统可以经由并行处理单元例如,图2的并行处理单元202的一个或多个实例来实现图形处理流水线500。例如,着色器单元例如,图3的图形多处理器234可以被配置成执行顶点处理单元504、曲面细分控制处理单元508、曲面细分评估处理单元512、几何处理单元516和片段像素处理单元524中的一个或多个的功能。数据组装器502,图元组装器506、514、518,曲面细分单元510,栅格器522和栅格操作单元526的功能还可以由处理集群(例如,图3的处理集群214内的其他处理引擎和对应的分区单元例如,图2的分区单元220A至220N执行。替代地,图形处理流水线500可以使用一个或多个功能的专用处理单元来实现。在一个实施例中,图形处理流水线500的一个或多个部分可以由通用处理器例如,CPU内的并行处理逻辑执行。在一个实施例中,图形处理流水线500的一个或多个部分可经由存储器接口528访问片上存储器例如,如图2所示的并行处理器存储器222,所述存储器接口可以是图2的存储器接口218的实例。[0120]在一个实施例中,数据组装器assembler502是处理单元,其收集高阶表面的顶点数据、图元等,并且将包括顶点属性在内的顶点数据输出到顶点处理单元504。顶点处理单元504是可编程的执行单元,其被配置成执行顶点着色器程序、照明、和按照顶点着色器程序所指定地来变换顶点数据。例如,顶点处理单元504可被编程以将顶点数据从基于对象的坐标表示对象空间)变换为以其他方式为基准的坐标系统诸如,世界空间或规范化设备坐标NDC空间)。顶点处理单元504可读取存储在高速缓存、本地存储器或系统存储器中的用于处理顶点数据的数据。[0121]图元组装器506的第一实例从顶点处理单元504接收顶点属性,根据需要读取所存储的顶点属性,并且建构图形图元以供由曲面细分tessellation控制处理单元508处理,其中,这些图形图元包括如由各种图形处理应用编程接口(API所支持的三角形、线段、点、补片等等。[0122]曲面细分控制处理单元508将输入顶点视作几何补片的控制点,并且将这些控制点从补片的输入表示常常称为补片的基础变换为一种适合于由曲面细分评估处理单元512进行高效的表面评估的表示。曲面细分控制处理单元508还计算几何补片的边缘的曲面细分因子。曲面细分因子应用于单个边缘,并量化与所述边缘相关联的依赖于视图的细节等级。曲面细分单元510被配置成:接收补片的边缘的曲面细分因子;以及将补片曲面细分成多个几何图元诸如,线、三角形或四边形图元),这些几何图元被传输到曲面细分评估处理单元512。曲面细分评估处理单元512对细分的补片的参数化坐标进行操作,以生成与这些几何图元相关联的每个顶点的表面表示和顶点属性。[0123]图元组装器514的第二实例从曲面细分评估处理单元512接收顶点属性,根据需要读取所存储的顶点属性,并且建构图形图元以供由几何处理单元516处理。几何处理单元516是可编程的执行单元,其被配置成执行几何着色器程序,按照几何着色器程序所指定地变换从图元组装器514接收到的图形图元。例如,几何处理单元516可被编程以:将图形图元细分成一个或多个新图形图元;以及计算参数(比如,平面方程系数),这些参数用于将这些新图形图元栅格化。[0124]在一些实施例中,几何处理单元516也可在几何流中添加或删除元素。几何处理单元516将指定新图形图元的参数和顶点输出到图元组装器518,所述图元组装器从几何处理单元516接收这些参数和顶点,根据需要读取所存储的顶点属性,并且建构图形图元以供由视口缩放、拣选和剪辑单元520进行处理。几何处理单元516可读取存储在并行处理器存储器或系统存储器中的用于处理几何数据的数据。视口缩放、拣选和剪辑单元520执行剪辑、拣选和视口缩放,并且将已处理的图形图元输出到栅格器522。[0125]栅格器522扫描转换新图形图元,并且将片段和覆盖数据输出到片段像素处理单元524。此外,栅格器522可被配置成执行z拣选和其他基于z的优化。[0126]片段像素处理单元524是可编程的执行单元,其被配置成执行片段着色器程序或像素着色器程序。片段像素处理单元524按照片段或像素着色器程序所指定地变换从栅格器522接收的片段或像素。例如,片段像素处理单元524可被编程以执行诸如透视校正、纹理映射、着色、混合等等之类的操作,以产生被输出到栅格操作单元526的已着色的片段或像素。片段像素处理单元524可读取存储在并行处理器存储器或系统存储器中的数据以用于处理片段数据。片段或像素着色器程序可被配置成取决于所编程的采样率而以样本、像素、图块或其他粒度来着色。[0127]栅格操作单元526是处理单元,其执行栅格操作(诸如,模板印刷、z测试、混合等等并输出像素数据作为已处理的图形数据,以供存储在图形存储器中。已处理的图形数据可存储在图形存储器例如,如图2中所示的并行处理器存储器222,和或如图1中所示的系统存储器104中,以供显示在一个或多个显示装置110中的一者上或以供由一个或多个处理器102或并行处理器112中的一者进一步处理。在一些实施例中,栅格操作单元526被配置成压缩被写入到存储器的z或颜色数据并解压缩从存储器读取的z或颜色数据。计算集群的抢占[0128]GPGPU内的计算单元是GPGPU的核心处理元件。计算单元是GPGPU内的硬件资产中的多数,并且可由3D工作负荷、通用计算工作负荷以及媒体工作负荷使用。在先前实现中,当工作负荷被分派到计算单元以进行执行时,要么该工作负荷运行直到完成,或者整个工作负荷被抢占以给新的工作负荷让路。本文中所描述的实施例在计算集群内的计算单元的子集上使用抢占机制来实现计算资产的再平衡。再平衡可能是基于停止事件像页错误或障碍和同步信号量。这些事件通常使计算单元停止直到该事件被解决,这降低了计算资产利用。[0129]本文中所描述的实施例提供了用于GPGPU的计算集群的增强抢占的技术。一个实施例提供了用于在阻塞blocking事件发生时跟踪阻塞事件的硬件机制。该硬件随后生成通知给再平衡模块。再平衡模块可随后切换出停止的工作负荷并将任何待处理的计算任务重新调度到先前停止的计算资产上。一个实施例实现硬件机制以迀移或恢复针对停止的任务的状态信息(例如,通用寄存器、指令指针等)。当工作负荷从计算单元被迀移时,状态信息可被存储在暂时的存储中(例如,暂存存储器)。当工作负荷准备被恢复时,可从暂时的存储器中快速恢复该状态。[0130]图6示出了根据实施例的可抢占(preemptable的GPGPU计算系统600APGPU计算系统600包括计算集群614,该计算集群614具有一组计算单元604。计算单元604可处理被分派给计算单元的工作负荷。在操作期间,指令和数据可从高速缓存存储器诸如,Ll高速缓存608被获取并被加载。在一个实施例中,以与图4的图形多处理器400类似的方式构建计算单元604中的每一个。然而,计算单元604可以是本文中所描述的指令级执行单元中的任一者。计算单元604可包括用于获取用于执行的指令的获取单元以及用于解码所获取的指令的解码单元。在一个实施例中,计算单元604包括执行资源,该执行资源具有一个或多个单精度浮点单元、双精度浮点单元、整数算术逻辑单元、加载存储单元、和或专用功能单JL〇[0131]在一个实施例中,计算集群614包括停止通知模块606,该停止通知模块606维持与计算集群614内的计算单元604相关联的活动计分板。该活动计分板维持计算单元604中的每一个的活动状态或阻塞状态。当在计算单元上的执行由于阻塞事件而变成被阻塞时,停止通知模块606更新计算单元604的活动计分板。在一个实施例中,一旦计算集群614内所有的计算单元604变成被阻塞,停止通知模块606就可信号通知signal再平衡模块可在计算单元604上执行工作负荷再平衡。在一个实施例中,当一个或多个计算单元被停止时或者当被停止的计算单元的数量超过临界时,停止通知模块606可信号通知再平衡模块可在计算单元604上执行工作负荷再平衡。[0132]在一个实施例中,当从停止通知模块606接收到通知时,再平衡模块602可询问调度逻辑以确定是否有任何工作负荷是待处理的执行。如果有任何新的或现有任务或工作负荷可以被调度到计算单元604,则再平衡模块可信号通知计算单元604执行对被阻塞的工作负荷的迀移。为准备迀移被阻塞的工作负荷,计算单元604可评估与该工作负荷相关联的待处理流水线活动中的每一个。现有的流水线活动可被允许经流水线而被排出,或者活动可被丢弃并被标记以用于一旦在计算单元604上恢复工作负荷就予以重放。一旦流水线已经排尽,与工作负荷相关联的流水线状态就可被保存到暂时的存储器。在一个实施例中,计算集群614包括暂存存储器612,该暂存存储器612可被用作计算集群的暂时存储器。计算集群614可存储流水线状态以及与暂存存储器612内的工作负荷相关联的其他上下文信息。替代地,计算集群614可将流水线状态存储在高速缓存存储器中,高速缓存存储器诸如由多个计算集群共享的三级L3高速缓存。[0133]在一个实施例中,计算集群614附加地包括功率模块605。功率模块605可用于对空闲的计算单元604进行功率门控。一旦计算单元604上的被停止的工作负荷被迀移出计算单元,并且与该工作负荷相关联的流水线状态被保存,功率模块605就可对计算单元604进行功率门控,倘若没有附加的工作负荷是待处理的话。,一旦被停止的工作负荷被解除阻塞或者新的工作负荷能够被调度,功率模块605就可随后重新启用计算单元604。[0134]图7A-7C是根据实施例的用于抢占计算集群的操作的流程图。在一个实施例中,可至少部分地使用图6的停止通知模块606以及再平衡模块602来执行所示的操作。在一个实施例中,可由微控制器内的固件来执行所示操作的至少一部分。例如,并且在一个实施例中,经由调度器微控制器的微控制器固件来实现所示的操作。在一个实施例中,可由在主处理器上执行的驱动器逻辑来执行再平衡。例如,与如本文中所描述的GPGHJ设备相关联的GPGPU驱动器可在停止的计算集群被检测到时再平衡工作负荷。[0135]如图7A中所示,在一个实施例中,所述的操作包括经由计算单元计分板监视计算集群的执行,如在框702处所示的。计算单元计分板可被维持在停止通知模块诸如,如图6中的停止通知模块606内。停止通知模块或计算集群内的其他硬件逻辑可在框704处检测计算集群中的计算单元被停止。在一个实施例中,停止通知模块被配置成检测全体集群停止,其中由于停止事件因而计算单元中没有一个能够在它们的工作负荷上作出向前进展。响应于这样的检测,停止通知模块可通知再平衡模块计算集群已经停止,如在框706处所示的。[0136]如在图7B中所示,再平衡模块内的逻辑或等效的再平衡逻辑可接收计算集群已经停止的通知,如在708处所示的。再平衡逻辑可信号通知计算集群迀移停止的工作负荷,如在框710处所示出的。计算集群硬件可以被停顿quiesced,其中待处理流水线活动被排出或被丢弃。被丢弃的流水线事件被登记以便一旦工作负荷被恢复就予以重放。在框711处,再平衡逻辑可随后确定是否有任何工作负荷是待处理的执行。在一个实施例中,再平衡逻辑询问调度器逻辑以确定是否有任何工作负荷是待处理的。在一个实施例中,再平衡逻辑能够访问由调度逻辑使用的调度序列,并且可直接确定是否有任何工作负荷是待处理的。如果有任何工作负荷是待处理的,则再平衡逻辑可将待处理工作负荷迀移到计算集群上,如在框712处所示。如果没有工作负荷是待处理的,则再平衡逻辑可请求计算集群内的功率模块对计算集群进行功率门控,如在714处所示的。[0137]当计算集群变成停止时,计算集群的未完成事件可被排出或丢弃。可基于与流水线内的事件相关联的流水线跟踪信息来执行排出或丢弃决定。例如,如果存储器访问已经越过了地址转换级的话,该存储器访问可被允许排出。在进行虚拟到物理存储器地址转换之前,存储器访问可被丢弃并标记以用于予以重放。流水线事件被允许排出或者被丢弃的点可被称为该事件的临界。[0138]图7C示出了用于确定是否排出或丢弃事件的操作。在一个实施例中,计算单元可接收迀移停止的工作负荷的通知,如在框716处所示。计算单元可随后确定是否排出或丢弃工作负荷的每个待处理流水线事件,如在框718处所示。在一个实施例中,基于确定该流水线事件是否已经越过了(hascleared事件的临界来执行该确定,如在719处所示的。如果事件已经越过了临界,则事件被允许完成,如在720处所示的。如果事件尚未越过临界(例如,存储器操作的地址转换),则计算单元可丢弃该事件并标记该事件以用于一旦解决了停止例如,页错误、障碍等之后工作负荷被恢复就用于重试。[0139]图8示出了根据实施例的停止的计算集群的任务迀移。在一个实施例中,多上下文GPGPU806A可执行来自第一应用802和第二应用804的工作负荷。例如,在第二应用804的工作负荷由于页错误、障碍或其他同步事件而遭遇停止的事件中,第二应用804的工作负荷可从停止的集群中被移除。一旦停止的工作负荷被移除,多上下文GPGPU806B就可执行第一应用802的工作负荷。这种机制将增加计算集群内的计算单元利用,改善GPGPU的效率与性能。细粒度线程保存和切换[0140]在一个实施例中,在细粒度水平上支持迀移,从而单个计算单元上的停止的工作项目可被迀移。单个计算单元可被配置成并发地执行多个线程。当多个并发线程中的一个由于长延迟停止而变成被阻塞时,计算单元可切换到已经被分派给计算单元另一可用线程,直到被阻塞的线程被解除阻塞。计算单元可随后在线程变成被阻塞时在线程之间切换,从而使得否则将会空闲下来的周期被用于执行遍及于一组被分派的线程上的工作。[0141]然而,可出现被分派给计算单元的所有线程都变成被阻塞的场景。当所有被分派给计算单元的线程都被阻塞时,计算单元将变成被阻塞的,直到阻塞线程的诸多停止中的一个被解决。为了在所有被分派的线程都被阻塞时使得计算单元能够继续处理操作,本文中所描述的实施例使得计算单元能够挂起已经被阻塞的被分派线程,从而释放线程资源以接收新线程的分派以进行处理。一旦新线程完成,则被挂起的线程可被重新加载。[0142]图9示出了根据实施例的被配置成将活动线程挂起到线程暂存scratch空间912的计算单元904。在一个实施例中,片上线程暂存空间912用于保存被挂起的线程的线程信息。线程暂存空间912可以被分配在片上存储器的专用区域中、分配在暂存存储器内,或分配在诸如L3高速缓存存储器之类的共享高速缓冲存储器内。在操作期间,计算单元904上运行的线程可能由于任何数量的原因被阻塞,该原因包括但不限于等待障碍完成、等待来自存储器的数据、等待页错误被解决或由于软件同步操作。每当计算单元904中的所有线程都被阻塞时,计算单元可以选择牺牲victim线程,以从先前已被分派给计算单元的活动线程905进行转变。在一个实施例中,牺牲线程是随机选择的。在一个实施例中,牺牲线程是最后一个被阻塞的线程。[0143]计算单元904可以将牺牲线程的线程状态信息保存到线程暂存空间内的挂起线程的集合914。在一个实施例中,计算单元904可以将多个线程存储到该组挂起的线程中,因此选择线程状态保存偏移来索引被挂起的线程状态将被保存的位置。计算单元904还可以存储线程被阻塞的原因(例如,障碍、存储器返回、页错误等)。线程被阻塞的原因可以用于从该组挂起的线程中进行选择,以在活动线程905中的一个完成时恢复到计算单元904。[0144]一旦被阻塞的线程被挂起并被保存,计算单元904可以向线程分派器902指示可以将附加线程分派给计算单元904。附加的线程被添加到活动线程905并且计算单元904上的执行可以继续。如果新线程在计算单元904上的其他被阻塞线程变成被解除阻塞之前停止,则可以挂起附加的牺牲线程,并且可以将新线程分派给计算单元904,直到达到最大数量的挂起线程。[0145]当正在执行的线程完成时,计算单元904可以确定是否有任何挂起的线程被存储在挂起线程的集合914中。在一个实施例中,恢复先前挂起的线程比接收新线程的分派具有更高的优先级。因此,如果计算单元变得被阻塞并且在挂起线程的集合914中有挂起的线程可用,则该挂起的线程可以被恢复到计算单元904上的该组活动线程905,而不是由计算单元信号通知线程分派器902分派新的线程。如果存在可被恢复的多个线程,则恢复的优先级可以基于导致线程被阻塞的事件的预期完成。例如,在存储器返回时被阻塞的线程将会比等待障碍时被阻塞的线程先得到恢复。在等待障碍时被阻塞的线程将会比在等待页错误时被阻塞的线程后得到恢复。[0M6]图10示出了根据实施例的用于启用细粒度线程保存和切换的操作。在一个实施例中,为了执行细粒度线程保存和切换,如在本文中描述的计算单元可以检测计算单元上的所有线程都被阻塞,如框1002处所示。响应于检测到所有线程都被阻塞,计算单元可以选择牺牲线程以将其挂起到线程暂存空间,如在框1004处所示。可以随机选择牺牲线程,或者可以选择最近被阻塞的线程。[0M7]计算单元可随后确定在线程暂存空间中存储的挂起线程的集合中是否有挂起线程可用,如在框1005处所示。如果有挂起的线程可用,则计算单元可恢复该挂起的线程,如在框1006处所示。如果多个挂起的线程可用于被恢复,则在一个实施例中,基于导致线程被阻塞的事件的预期完成来恢复线程。例如,等待存储器访问的被阻塞线程将比等待页错误的被阻塞的线程先得到恢复。如果没有挂起的线程可用于被恢复,则计算单元可以请求从线程分派器分派新的线程,如在框1008处所示。低延迟抢占[0148]抢占GPGPU是高延迟过程,因为GPGPU具有深度流水线级和大量的流水线状态。3D工作负荷的典型抢占边界包括绘制命令级、图元级和像素级。较细粒度抢占需要保存较大数量的流水线状态。像素级抢占需要保存非常大量的瞬态流水线状态数据、寄存器数据和共享本地存储器数据。类似的过程也用于抢占计算工作负荷。[0149]在GPGPU上执行抢占所需的时间量与需要被保存的数据量有关。因此,减少需要被保存的数据量可以减少执行抢占所需的时间。本文中所描述的实施例通过减少需要被保存的流水线状态量来实现计算集群的较低延迟抢占。一个实施例能够通过使用各种度量来收集计算单元寄存器堆registerfile大小来实现抢占延迟的减少。度量收集是用于跟踪和监视寄存器堆使用的硬件的帮助下完成的。寄存器堆使用被用于确定抢占计算单元的适当点,以便在抢占请求期间需要保存最少量的数据。寄存器堆使用可以被报告给存储器,或经由存储器映射的IO寄存器来报告。一个实施例附加地包括硬件比较器逻辑,硬件比较器逻辑可以接受由抢占逻辑提供的阈值作为输入。一个实施例附加地包括硬件通知单元,该硬件通知单元用于生成中断事件给抢占逻辑。[0150]在对GPGPU设备的初始化时,抢占逻辑可以对阈值进行编程,并且比较器逻辑将开始监视被传输以用于寄存器堆的使用值。由于寄存器堆大小不同,当寄存器堆大小低于编程的阈值时,比较器逻辑可以生成中断给抢占逻辑。当抢占逻辑接收到该中断时,抢占逻辑可以发起抢占序列来迀移或移除当前正在运行的任务。[0151]在一个实施例中,当由着色器编译器代码来编译着色器程序时,由抢占逻辑使用的阈值被生成。着色器编译器可以生成指示由经编译的着色器代码使用的最小和平均寄存器堆大小的元数据。在一个实施例中,(寄存器堆大小跟踪单元被优化以在新工作被提交给计算单元并且旧工作从计算单元引退时更新阈值大小值。也可以在大小被更新后触发比较器逻辑,从而最小化开销。[0152]图11示出了根据实施例的低延迟抢占系统1100。在一个实施例中,当计算单元的寄存器堆使用低于预定阈值时,通过尝试在计算单元上执行抢占操作来启用低延迟抢占。在一个实施例中,寄存器堆大小收集硬件1102监视与由计算单元904使用的寄存器堆1104相关联的大小。寄存器堆大小收集硬件1102将大小数据1114提供给比较器单元1110。比较器单元1110从在低延迟抢占系统1100的主处理器上执行的编译器软件1106接收阈值。编译器软件生成用于确定阈值1112的元数据。[0153]在一个实施例中,当对大小数据1114或阈值1112做出改变时,触发比较器单元1110。对大小数据1114的更新速率取决于寄存器堆大小收集硬件1102提供大小数据1114的速率。在一个实施例中,寄存器堆大小收集硬件1102在周期性的基础上连续地更新大小数据1114。在一个实施例中,寄存器堆大小收集硬件1102响应于超过更新阈值的大小数据的变化来更新大小数据1114。[0154]比较器单元1110被配置成将大小数据1114与阈值1112进行比较。当大小数据1114小于阈值1112时,比较器单元1110触发对抢占逻辑1120的更新。抢占逻辑1120包括控制模块1124。在一个实施例中,由在诸如调度器微控制器之类的微控制器模块上执行的固件提供控制模块。在一个实施例中,控制模块1124是由在主处理器上执行的GPGPU驱动器提供的软件逻辑。控制模块1124确定对于计算单元904而言待处理的抢占请求1122是否未完成。在抢占请求1122处于待处理的情况下,控制模块1124可以触发抢占逻辑1120以将抢占事件1116发送到计算单元904。[0155]图12是根据实施例的低延迟抢占逻辑的流程图1200。在一个实施例中,低延迟抢占逻辑1200通过如图11中所示的寄存器堆大小收集硬件、比较器单元和抢占逻辑来实现。低延迟抢占逻辑1200可以门控抢占请求,使得抢占请求不被服务,直到可以以最小延迟这是由于相对小的寄存器堆大小来执行抢占。[0156]在一个实施例中,低延迟抢占逻辑1200经由比较器逻辑可以将计算单元的寄存器堆大小与寄存器堆大小阈值进行比较,如框1202处所示。计算单元的寄存器堆大小可以从寄存器堆大小收集硬件被提供给比较器逻辑。可以基于由着色器编译器提供的元数据来确定寄存器堆大小阈值。在一个实施例中,可以基于对寄存器堆大小或寄存器堆大小阈值的更新来触发比较。如果寄存器堆大小不小于例如,大于堆大小阈值,如在框1203处所确定的,则比较器逻辑不执行动作。如果寄存器堆大小小于阈值,则低延迟抢占逻辑1200经由比较器逻辑可以生成中断给抢占逻辑,如框1206处所示。[0157]在一个实施例中,低延迟抢占逻辑1200经由抢占逻辑可以确定在抢占逻辑处抢占请求是否处于待处理,如框1207处所示。如果在框1207处没有抢占请求处于待处理,则抢占逻辑可以不执行操作。低延迟抢占逻辑1200随后可以返回至比较器并等待寄存器堆大小或寄存器堆大小阈值的更新。然而,如果在框1207处,在抢占逻辑中抢占请求处于待处理,则抢占逻辑可以抢占计算单元,如1208处所示。[0158]所示出的提供低延迟抢占的实施例可以与本文中所描述的实施例中的任一个进行组合。基于硬件的细粒度重置[0159]本文中所描述的低延迟和细粒度抢占和上下文切换技术也可以用来实现GPGPU中的部分的基于硬件的细粒度重置。当例如由于着色器执行流水线中不可恢复的故障因而需要重置事件时,替代重置整个GPGPU处理流水线,可以仅是发生故障的计算单元被重置,而不受故障影响的计算单元可以继续执行工作负载。基于硬件的细粒度重置特别适用于在嵌入式系统中使用的GPGPU,所述嵌入式系统使用GPGPU作为用于导航和或控制的并行处理器,所述嵌入式系统诸如,自动车辆或自主机器人,或稳健的硬件和容错硬件在其中有重要作用的任何系统。[0160]在一个实施例中,基于硬件的细粒度重置被优化为针对本质上是硬件而非软件性质的软错误和单粒子翻转singleeventupset进行了强化。嵌入式系统中使用的软件通常是高度安全并且经大量验证的。然而,由于软错误或硬件中由错误信号或数据错误引起的其他单粒子翻转,错误仍可能发生,所述错误信号或数据错误通常由引入到系统中的宇宙射线或电噪声所触发否则该系统应是功能完备的)。由本文中所描述的实施例提供的基于硬件的细粒度重置使得系统能够从这样的事件中自动地恢复而不需要软件干预。[0161]图13是根据实施例的可配置用于细粒度重置的处理系统1300的框图。处理系统1300包括一组计算单元1304A-1304N,其可以是图6的计算单元604的实例。计算单元1304A-1304N执行由调度器微控制器1310分派的线程。调度器微控制器是执行软件可更新固件的的微控制器,所述软件可更新固件实现系统1300的复杂调度、抢占和工作分配任务包括用于实现基于硬件的细粒度重置的细粒度计算抢占和重新分配)。计算单元1304A-1304N使用一组共享资源1318执行由调度器微控制器1310调度的线程。共享资源1318包括诸如纹理单元、共享高速缓存和固定功能逻辑之类的资源。处理系统1300附加地包括维持计算单元1304A-1304B的一组上下文数据1322A-1322N的上下文存储。上下文数据1322A-1322N可以被存储在处理系统1300中的片上存储器的专用部分中。[0162]在一个实施例中,处理系统1300经由重置块1320A-1320N的使用来支持可变粒度细粒度重置。每个重置块1320A-1320N定义一个或多个计算单元1304A-1304N的重置边界。重置块内的计算单元可以与其他重置块中的其他计算单元相独立地进行重置,从而允许系统1300内的基于硬件的容错和计算资源的子集的恢复,与此同时线程继续在其他计算资源上执行。对于各个实施例,重置块的粒度是不同的。在一个实施例中,每个单独的计算单元表示单独的重置块,使得例如计算单元1302A包括具有由重置块1320A定义的重置边界的单个计算单元。在一个实施例中,在每个重置块中包括多个计算单元。例如,每个重置块1320A-1320N可定义计算单元的处理集群(例如图2的处理集群214的重置边界,所述处理集群诸如为图2A和图2C的处理集群。[0163]在一个实施例中,当重置块内的计算单元遇到不可恢复的硬件故障时,不是去重置整个渲染或计算流水线以及相关联的计算单元1304A-1304N,而是可仅在故障计算单元的重置块内停止执行。然后可以将在重置块内的计算单元上待处理的一组未完成的线程重新分配给其他重置块内的其他计算单元。线程的重新分配可以与抢占事件类似地运作。一个或多个故障计算单元上的上下文状态可以被保存到上下文数据1322A-1322N的适当的块。一个或多个故障计算单元上的待处理线程可以被迀移到其他计算单元,并且当这些线程在新计算单元上变为活动时,可以从上下文数据1322A-1322N中恢复线程的经保存状态。[0164]导致故障计算单元内的故障的事件也可能导致数据损坏,该数据损坏可破坏线程的状态信息。例如,如果计算单元由于存储器内的位翻转而遇到硬件故障,则故障计算单元的一个或多个线程的寄存器状态可能包含不正确的数据。在一个实施例中,每个重置块1320A-1320N的检查点上下文状态被维持在上下文数据1322A-1322N内。例如,当将一组线程分派到重置块内的计算单元或者当发生重置块范围的抢占事件时,可以存储检查点上下文状态。被加载到重置块的计算单元上的上下文可以被暂时地维持,直到正在执行的线程完成。如果计算单元出现硬件故障,则可以丢弃故障计算单元的上下文状态,并可以将待处理线程重新分配以供在其他计算单元上执行。[0165]在一个实施例中,在调度器微控制器1310内实现用于实现细粒度重置的逻辑,该调度器微控制器1310包括固件逻辑以持续监视每个重置块1320A-1320B内的计算单元的执行状态。在一个实施例中,每个重置块1320A-1320N包括用于支持调度器微控制器1310的逻辑。例如,并且在一个实施例中,每个重置块1320A-1320N包括中断模块1325A-1325N,以在重置块检测到计算单元内的故障的情况下触发对调度器微控制器1310的中断。重置块1320A-1320N可以包括确定重置块内的计算单元是否遇到故障的故障检测逻辑。重置块1320A-1320N的中断模块1325A-1325N可随后中断调度器微控制器1310。调度器微控制器可以通过重新分配故障重置块内的线程并重置故障计算单元来处置中断。一旦计算单元1304A-1304N被重置,计算单元就可以开始接受新线程的分派。[0166]图14是根据实施例的细粒度重置逻辑的流程图1400。细粒度重置逻辑1400可驻留在调度器微控制器内,调度器微控制器诸如图13的调度器微控制器1310。细粒度重置逻辑1400响应于诸如软错误或另一形式的单粒子翻转之类的硬件故障而启用对重置块内的一个或多个计算单元的硬件重置。一旦故障检测逻辑注意到故障计算单元,重置逻辑1400就可以接收计算单元需要重置的通知,如框1402处所示。在一个实施例中,通知被接收作为来自定义计算单元的重置边界的重置块的中断。[0167]一旦重置逻辑1400已经接收到计算单元需要重置的通知,该逻辑就可以确定计算单元的当前上下文状态是否可恢复,如框1403处所示。如果由计算单元遇到的硬件故障不会导致对正在执行的线程的上下文状态的损坏,则当前上下文状态是可恢复的。如果在框1403处当前上下文状态可恢复,则重置逻辑1400可以保存计算单元上的线程的当前上下文状态,如1406处所示。当前上下文状态可被保存到管芯上上下文保存存储器。重置逻辑1400可随后将线程迀移到不同的计算单元,如1408处所示,并且在框1410处恢复被迀移的线程所保存的上下文。[0168]如果在框1403处重置逻辑1400确定当前上下文状态不可恢复,则在框1405处,该逻辑可以将计算单元上的线程重新分配给不同的计算单元。通过跟踪已分派给任何特定计算单元的线程来启用线程的重新分派。在一个实施例中,逻辑将把线程重新分派给不同重置块中的计算单元。在框1407处,重置逻辑1400可以被配置成恢复被重新分派的线程的检查点上下文。检查点上下文可以是在线程的检查点处例如,在从抢占中恢复线程时)先前被保存到上下文保存存储器的线程的上下文。恢复检查点上下文可以允许线程从检查点开始执行,而不是从原始初始化状态处开始。[0169]一旦计算块上的线程已经被迀移或重新分派,细粒度重置逻辑1400就可以发起对计算单元的重置,而其他计算单元继续线程执行。在一个实施例中,可以在个体的基础上重置计算单元。在一个实施例中,成组地重置计算单元,其中,重置块内的所有计算单元被重置,如图14中所示的。当多个计算单元响应于块内计算单元处的硬件故障而被重置为块时,该重置块内的所有计算单元的线程状态被保存。在这样的实施例中,每个重置块可以在片上上下文保存存储器中具有专用空间,并且重置块内的该组计算单元的上下文状态的快照有时被保存到重置块的专用片上上下文保存存储器。快照状态可被用作检查点上下文,例如,如在框1407处所示的。[0170]图15是根据实施例的数据处理系统1500的框图。数据处理系统1500是具有处理器1502、统一存储器1510和GPGPU1520的异构处理系统。处理器1502和GPGPU1520可以是如本文中所描述的处理器和GPGPU并行处理器中的任一者。处理器1502可以执行存储在系统存储器1512中的用于编译器1515的指令。编译器1515在处理器1502上执行以将源代码1514A编译成经编译的代码1514B。经编译的代码1514B可以包括可以由处理器1502执行的代码和或可以由GPGPU1520执行的代码。在编译期间,编译器1515可以执行操作来插入元数据,包括关于存在于经编译的代码1514B中的数据并行性的水平的提示和或关于与基于经编译的代码1514B要被分派的线程相关联的数据局部性的提示。编译器1515可以包括执行这样的操作所需的信息,或者可以在运行时库runtimelibrary1516的帮助下执行操作。运行时库1516还可以促进编译器1515对源代码1514的编译,并且还可以包括在运行时间时与经编译的代码1514B链接的指令,以促进在GPGPU1520上的执行。[0171]统一存储器1510表示可由处理器1502和GPGPU1520访问的统一地址空间。统一存储器包括系统存储器1512以及GPGPU存储器1518APGPU存储器1518包括GPGPU1520内的GPGPU本地存储器1528,并且还可以包括系统存储器1512中的一些或全部。例如,存储在系统存储器1512中的经编译的代码1514B也可以被映射到GPGI3U存储器1518中以供GPGPU1520访问。[0172]GPGPU1520包括多个计算块1522A-1522N,这些计算块可以是图6的计算单元604的实例。GPGPU1520还包括可在计算模块1522A-1522N之间共享的一组寄存器1524、高速缓存存储器1526和抢占模块1525。抢占模块1525可以被配置成管理本文中所描述的线程组和子组的计算块抢占和上下文切换。GPGPU还包括重置模块1527,重置模块1527被配置成执行重置块的重置操作,重置块诸如,图13的重置块1320A-13201GPGPU1520可以附加地包括GPGPU本地存储器1528,本地存储器1528是与GPGPU1520共享图形卡或多芯片模块的物理存储器。[0173]在一个实施例中,计算块1522A-1522N各自包括在计算块1522A-1522N内的计算集群之间共享的一个或多个TLB和高速缓存存储器。通过尝试将将要访问公共数据的线程调度到相同的计算块,可以高效地利用在计算块的计算元素之间所共享的公共资源。附加的示例图形处理系统[0174]以上所描述的实施例的细节可以被合并到下面描述的图形处理系统和设备内。图16到图29的图形处理系统和设备示出了可以实现以上所描述的技术的其中任一种和其所有的替代系统和图形处理硬件。附加的示例图形处理系统概述[0175]图16是根据实施例的处理系统1600的框图。在各实施例中,系统1600包括一个或多个处理器1602以及一个或多个图形处理器1608,并且可以是单处理器台式机系统、多处理器工作站系统或具有大量处理器1602或处理器核1607的服务器系统。在一个实施例中,系统1600是被纳入到用于在移动设备、手持式设备或嵌入式设备中使用的芯片上系统SoC集成电路内的处理平台。[0176]系统1600的实施例可以包括或并入基于服务器的游戏平台、游戏控制台,包括游戏与媒体控制台、移动游戏控制台、手持式游戏控制台、或在线游戏控制台。在一些实施例中,系统1600是移动电话、智能电话、平板计算设备或移动互联网设备。数据处理系统1600还可包括可穿戴设备诸如智能手表可穿戴设备、智能眼镜设备、增强现实设备、或虚拟现实设备)、与所述可穿戴设备耦合、或者集成在所述可穿戴设备中。在一些实施例中,数据处理系统1600是电视或机顶盒设备,所述电视或机顶盒设备具有一个或多个处理器1602以及由一个或多个图形处理器1608生成的图形界面。[0177]在一些实施例中,一个或多个处理器1602每个包括用于处理指令的一个或多个处理器核1607,所述指令在被执行时执行系统和用户软件的操作。在一些实施例中,一个或多个处理器核1607中的每个处理器核被配置成用于处理特定的指令集1609。在一些实施例中,指令集1609可以促进复杂指令集计算CISC、精简指令集计算;RISC、或经由超长指令字VLIW的计算。多个处理器核1607可以各自处理不同的指令集1609,所述指令集可以包括用于促进对其他指令集进行仿真的指令。处理器核1607还可以包括其他处理设备,如数字信号处理器DSP。[0178]在一些实施例中,处理器1602包括高速缓存存储器1604。取决于架构,处理器1602可以具有单个内部高速缓存或内部高速缓存的多个级。在一些实施例中,在处理器1602的各部件当中共享高速缓存存储器。在一些实施例中,处理器1602还使用外部高速缓存(例如,3级L3高速缓存或末级高速缓存LLC未示出),可以使用已知的高速缓存一致性技术来在处理器核1607当中共享外部高速缓存。另外地,寄存器堆1606包括在处理器1602中,所述处理器可以包括用于存储不同类型的数据的不同类型的寄存器例如,整数寄存器、浮点寄存器、状态寄存器、和指令指针寄存器)。一些寄存器可以是通用寄存器,而其他寄存器可以特定于处理器1602的设计。[0179]在一些实施例中,处理器1602耦合至处理器总线1610,所述处理器总线用于在处理器1602与系统1600内的其他部件之间传输通信信号,例如地址、数据、或控制信号。在一个实施例中,系统1600使用示例性‘中枢’系统架构,包括存储器控制器中枢1616和输入输出(IO控制器中枢1630。存储器控制器中枢1616促进存储器设备与系统1600的其他部件之间的通信,而IO控制器中枢ICH1630经由本地IO总线提供与IO设备的连接。在一个实施例中,存储器控制器中枢1616的逻辑集成在处理器内。[0180]存储器设备1620可以是动态随机存取存储器DRAM设备、静态随机存取存储器SRAM设备、闪存设备、相变存储器设备、或具有合适的性能用作处理存储器的某个其他存储器设备。在一个实施例中,存储器设备1620可作为系统1600的系统存储器进行操作,以存储数据1622和指令1621,以供在一个或多个处理器1602执行应用或进程时使用。存储器控制器中枢1616还与可选的外部图形处理器1612耦合,所述可选的外部图形处理器可以与处理器1602中的一个或多个图形处理器1608通信,从而执行图形和媒体操作。[0181]在一些实施例中,ICH1630使得外围部件经由高速IO总线连接至存储器设备1620和处理器1602。10外围装置包括但不限于:音频控制器1646、固件接口1628、无线收发机1626例如,Wi-Fi、蓝牙)、数据存储设备1624例如,硬盘驱动器、闪存等)、以及用于将传统例如,个人系统2PS2设备耦合至所述系统的传统IO控制器1640。一个或多个通用串行总线USB控制器1642连接多个输入设备,例如键盘和鼠标1644组合。网络控制器1634还可以耦合至ICH1630。在一些实施例中,高性能网络控制器未示出)耦合至处理器总线1610。应当理解,所示出的系统1600是示例性的而非限制性的,因为还可以使用以不同方式配置的其他类型的数据处理系统。例如,IO控制器中枢1630可以集成在一个或多个处理器1602内,或者存储器控制器中枢1616和IO控制器中枢1630可以集成在分立式外部图形处理器诸如外部图形处理器1612内。[0182]图17是处理器1700的实施例的框图,所述处理器具有一个或多个处理器核1702A至1702N、集成存储器控制器1714、以及集成图形处理器1708。图17的具有与此处任何其他附图中的元件相同的参考号(或名称)的那些元件可采用与在本文中其他地方描述的方式相类似的任何方式进行操作或起作用,但不限于这些。处理器1700可包括多达且包括由虚线框表示的附加核1702N的附加核。处理器核1702A至1702N各自包括一个或多个内部高速缓存单元1704A至1704N。在一些实施例中,每个处理器核还可以访问一个或多个共享的高速缓存单元1706。[0183]内部高速缓存单元1704A至1704N和共享高速缓存单元1706表示处理器1700内部的高速缓存存储器层级结构。高速缓存存储器层级结构可以包括每个处理器核内的至少一级指令和数据高速缓存以及一级或多级共享中级高速缓存,诸如2级(L2、3级(L3、4级L4、或其他级的高速缓存,其中,最高级的高速缓存在外部存储器之前被分类为LLC。在一些实施例中,高速缓存一致性逻辑维持各高速缓存单元1706与1704A至1704N之间的一致性。[0184]在一些实施例中,处理器1700还可以包括一组一个或多个总线控制器单元1716和系统代理核1710。一个或多个总线控制器单元1716管理一组外围总线,诸如一个或多个外围部件互连总线(例如,PCI、PCIExpress。系统代理核1710提供对各处理器部件的管理功能。在一些实施例中,系统代理核1710包括一个或多个集成存储器控制器1714用于管理对各外部存储器设备未示出)的访问。[0185]在一些实施例中,处理器核1702A至1702N中的一个或多个包括对同步多线程的支持。在这种实施例中,系统代理核1710包括用于在多线程处理过程中协调和操作核1702A至1702N的部件。另外,系统代理核1710还可以包括功率控制单元PCU,所述功率控制单元包括用于调节处理器核1702A至1702N的功率状态的逻辑和部件以及图形处理器1708。[0186]在一些实施例中,另外,处理器1700还包括用于执行图形处理操作的图形处理器1708。在一些实施例中,图形处理器1708耦合至共享高速缓存单元1706集以及系统代理核1710,所述系统代理核包括一个或多个集成存储器控制器1714。在一些实施例中,显示控制器1711与图形处理器1708耦合以便将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中,显示控制器1711可以是经由至少一个互连与图形处理器耦合的单独模块,或者可以集成在图形处理器1708或系统代理核1710内。[0187]在一些实施例中,基于环的互连单元1712用于耦合处理器1700的内部部件。然而,可以使用替代性互连单元,比如点到点互连、切换式互连、或其他技术,包括本领域众所周知的技术。在一些实施例中,图形处理器1708经由IO链路1713与环形互连1712耦合。[0188]示例性IO链路1713表示多个IO互连中的多个品种中的至少一种,包括促进各处理器部件与高性能嵌入式存储器模块1718比如eDRAM模块之间的通信的封装体I0互连。在一些实施例中,处理器核1702A至1702N中的每个处理器核以及图形处理器1708将嵌入式存储器模块1718用作共享末级高速缓存。[0189]在一些实施例中,处理器核1702A至1702N是执行相同指令集架构的均质核。在另一实施例中,处理器核1702A至1702N在指令集架构(ISA方面是异构的,其中,处理器核1702A至1702N中的一者或多者执行第一指令集,而其他核中的至少一者执行所述第一指令集的子集或不同的指令集。在一个实施例中,处理器核1702A至1702N就微架构而言是同质的,其中,具有相对较高功耗的一个或多个核与具有较低功耗的一个或多个功率核耦合。另夕卜,处理器1700可以实现在一个或多个芯片上或者被实现为具有除其他部件之外的所展示的部件的SoC集成电路。[0190]图18是图形处理器1800的框图,所述图形处理器可以是分立式图形处理单元、或者可以是与多个处理核集成的图形处理器。在一些实施例中,图形处理器经由到图形处理器上的寄存器的映射IO接口并且利用被放置在处理器存储器中的命令与存储器进行通信。在一些实施例中,图形处理器1800包括用于访问存储器的存储器接口1814。存储器接口1814可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存、和或到系统存储器的接口。[0191]在一些实施例中,图形处理器1800还包括显示控制器1802,所述显示控制器用于将显示输出数据驱动到显示设备1820。显示控制器1802包括用于显示器的一个或多个重叠平面的硬件以及多层视频或用户接口元件的组成。在一些实施例中,图形处理器1800包括用于编码、解码、或者向、从或在一个或多个媒体编码格式之间进行媒体代码转换的视频编解码器引擎1806,包括但不限于:运动图像专家组(MPEG诸如MPEG-2、高级视频编码AVC格式诸如H.264MPEG-4AVC、以及电影电视工程师协会SMPTE421MVC-1、和联合图像专家组JPEG格式诸如JPEG、以及运动JPEGMJPEG格式)。[0192]在一些实施例中,图形处理器1800包括用于执行二维2D栅格器操作包括例如位边界块传递的块图像传递(BLIT引擎1804。然而,在一个实施例中,使用图形处理引擎GPE1810的一个或多个部件执行2D图形操作。在一些实施例中,GPE1810是用于执行图形操作的计算引擎,所述图形操作包括三维3D图形操作和媒体操作。[0193]在一些实施例中,GPE1810包括用于执行3D操作的3D流水线1812,比如使用作用于3D图元形状例如,矩形、三角形等)的处理功能来渲染三维图像和场景。3D流水线1812包括可编程且固定的功能元件,所述可编程且固定的功能元件在到3D媒体子系统1815的元件和或生成的执行线程内执行各种任务。虽然3D流水线1812可以用于执行媒体操作,但是GPE1810的实施例还包括媒体流水线1816,所述媒体流水线具体地用于执行媒体操作,诸如视频后处理和图像增强。[0194]在一些实施例中,媒体流水线1816包括固定功能或可编程逻辑单元以便代替、或代表视频编解码器引擎1806来执行一种或多种专门的媒体操作,比如视频解码加速、视频解交织、以及视频编码加速。在一些实施例中,另外,媒体流水线1816还包括线程生成单元以便生成用于在3D媒体子系统1815上执行的线程。所生成的线程对3D媒体子系统1815中所包括的一个或多个图形执行单元执行对媒体操作的计算。[0195]在一些实施例中,3D媒体子系统1815包括用于执行3D流水线1812和媒体流水线1816生成的线程的逻辑。在一个实施例中,流水线向3D媒体子系统1815发送线程执行请求,所述3D媒体子系统包括用于仲裁并将各请求分派到可用的线程执行资源的线程分派逻辑。执行资源包括用于处理3D和媒体线程的图形执行单元阵列。在一些实施例中,3D媒体子系统1815包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,所述子系统还包括共享存储器包括寄存器和可寻址存储器)以便在线程之间共享数据并用于存储输出数据。附加的示例性图形处理引擎[0196]图19是根据一些实施例的图形处理器的图形处理引擎1910的框图。在一个实施例中,图形处理引擎GPE1910是图18所示的GPE1810的一个版本。图19的具有与此处任何其他附图中的元件相同的参考号(或名称)的那些元件可采用与在本文中其他地方描述的方式相类似的任何方式进行操作或起作用,但不限于这些。例如,展示了图18的3D流水线1812和媒体流水线1816。媒体流水线1816在GPE1910的一些实施例中是可选的,并且可以不显式地地包括在GPE1910内。例如以及在至少一个实施例中,单独的媒体和或图像处理器被耦合至GPE1910。[0197]在一些实施例中,GPE1910与命令流转化器1903耦合或包括所述命令流转化器,所述命令流转化器向3D流水线1812和或媒体流水线1816提供命令流。在一些实施例中,命令流转化器1903与存储器耦合,所述存储器可以是系统存储器、或内部高速缓存存储器和共享高速缓存存储器中的一个或多个高速缓存存储器。在一些实施例中,命令流转化器1903从存储器接收命令并将这些命令发送至3D流水线1812和或媒体流水线1816。所述命令是从存储用于3D流水线1812和媒体流水线1816的环形缓冲器获取的指示。在一个实施例中,另外,环形缓冲器还可以包括存储多批多命令的批命令缓冲器。用于3D流水线1812的命令还可以包括对在存储器中存储的数据的引用,诸如但不限于用于3D流水线1812的顶点和几何数据和或用于媒体流水线1816的图像数据和存储器对象。3D流水线1812和媒体流水线1816通过经由各自流水线内的逻辑执行操作或者通过将一个或多个执行线程分派至执行单元阵列1914来处理所述命令。[0198]在各种实施例中,3D流水线1812可以通过处理指令并将执行线程分派给图形核阵列1914来执行一个或多个着色器程序,诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序。图形核阵列1914提供统一的执行资源块。图形核阵列1914内的多用途执行逻辑例如,执行单元包括对各种3DAPI着色器语言的支持,并且可以执行与多个着色器相关联的多个同时执行线程。[0199]在一些实施例中,图形核阵列1914还包括用于执行诸如视频和或图像处理的媒体功能的执行逻辑。在一个实施例中,除了图形处理操作之外,执行单元还包括可编程以执行并行通用计算操作的通用逻辑。通用逻辑可以与图16的(多个处理器核1607或图17中的核1702A至1702N内的通用逻辑并行地或结合地执行处理操作。[0200]由在图形核阵列1914上执行的线程生成的输出数据可以将数据输出到统一返回缓冲器URB1918中的存储器。URB1918可以存储多个线程的数据。在一些实施例中,URB1918可以用于在图形核阵列1914上执行的不同线程之间发送数据。在一些实施例中,URB1918可以另外用于图形核阵列上的线程与共享功能逻辑1920内的固定功能逻辑之间的同步。[0201]在一些实施例中,图形核阵列1914是可缩放的,使得所述阵列包括可变数量的图形核,这些图形核各自具有基于GPE1910的目标功率和性能等级的可变数量的执行单元。在一个实施例中,执行资源是动态可缩放的,从而可以根据需要启用或禁用执行资源。[0202]图形核阵列1914与共享功能逻辑1920耦合,所述共享功能逻辑包括在图形核阵列中的图形核之间共享的多个资源。共享功能逻辑1920内的共享功能是向图形核阵列1914提供专用补充功能的硬件逻辑单元。在各种实施例中,共享功能逻辑1920包括但不限于采样器1921、数学1922和线程间通信(ITC1923逻辑。另外,一些实施例实现共享功能逻辑1920内的一个或多个高速缓存1925。在给定的专用功能的需求不足以包含在图形核阵列1914中的情况下实现共享功能。相反,所述专用功能的单个实例被实现为共享功能逻辑1920中的独立实体并且在图形核阵列1914内的执行资源之间共享。在图形核阵列1914之间共享并包括在图形核阵列1914内的精确的一组功能在各实施例之间变化。[0203]图20是图形处理器2000的另一个实施例的框图。图20的具有与此处任何其他附图中的元件相同的参考号(或名称)的那些元件可采用与在本文中其他地方描述的方式相类似的任何方式进行操作或起作用,但不限于这些。[0204]在一些实施例中,图形处理器2000包括环形互连2002、流水线前端2004、媒体引擎2037、以及图形核2080A至2080N。在一些实施例中,环形互连2002将图形处理器耦合至其他处理单元,包括其他图形处理器或者一个或多个通用处理器核。在一些实施例中,图形处理器是集成在多核处理系统内的多个处理器之一。[0205]在一些实施例中,图形处理器2000经由环形互连2002接收多批命令。传入命令由流水线前端2004中的命令流转化器2003来解译。在一些实施例中,图形处理器2000包括用于经由(多个)图形核2080A至2080N执行3D几何处理和媒体处理的可缩放执行逻辑。对于3D几何处理命令,命令流转化器2003将命令供应至几何流水线2036。针对至少一些媒体处理命令,命令流转化器2003将命令供应至视频前端2034,所述视频前端与媒体引擎2037耦合。在一些实施例中,媒体引擎2037包括用于视频和图像后处理的视频质量引擎VQE2030以及用于提供硬件加速的媒体数据编码和解码的多格式编码解码MFX2033引擎。在一些实施例中,几何流水线2036和媒体引擎2037各自生成执行线程,所述执行线程用于由至少一个图形核2080A提供的线程执行资源。[0206]在一些实施例中,图形处理器2000包括可扩展线程执行资源表征模块核2080A至2080N有时被称为核分片),各个可扩展线程执行资源表征模块核具有多个子核2050A至550N、2060A至2060N有时被称为核子分片)。在一些实施例中,图形处理器2000可以具有任意数量的图形核2080A至2080N。在一些实施例中,图形处理器2000包括图形核2080A,所述图形核至少具有第一子核2050A和第二子核2060A。在其他实施例中,图形处理器是具有单个子核例如,2050A的低功率处理器。在一些实施例中,图形处理器2000包括多个图形核2080A至2080N,所述图形核各自包括一组第一子核2050A至2050N和一组第二子核2060A至2060N。所述一组第一子核2050A至2050N中的每个子核至少包括第一组执行单元2052A至2052N和媒体纹理采样器2054A至2054N。所述一组第二子核2060A至2060N中的每个子核至少包括第二组执行单元2062A至2062N和采样器2064A至2064N。在一些实施例中,每个子核2050A至2050N、2060A至2060N共享一组共享资源2070A至2070N。在一些实施例中,所述共享资源包括共享高速缓存存储器和像素操作逻辑。其他共享资源也可以包括在图形处理器的各实施例中。附加的示例性执行单元[0207]图21展示了线程执行逻辑2100,所述线程执行逻辑包括在GPE的一些实施例中采用的处理元件阵列。图21的具有与此处任何其他附图中的元件相同的参考号或名称的那些元件可采用与在本文中其他地方描述的方式相类似的任何方式进行操作或起作用,但不限于这些。[0208]在一些实施例中,线程执行逻辑2100包括着色器处理器2102、线程分派器2104、指令高速缓存2106、包括多个执行单元2108A至2108N的可扩展执行单元阵列、采样器2110、数据高速缓存2112、以及数据端口2114。在一个实施例中,可缩放执行单元阵列可以通过基于工作负荷的计算需求来启用或禁用一个或多个执行单元(例如,执行单元2108A,2108B,2108C,2108D,一直到2108N-1和2108N中的任一个来动态地缩放。在一个实施例中,所包括的部件经由互连结构而互连,所述互连结构链接到部件中的每个部件。在一些实施例中,线程执行逻辑2100包括通过指令高速缓存2106、数据端口2114、采样器2110、以及执行单元阵列2108A至2108N中的一者或多者到存储器如系统存储器或高速缓存存储器的一个或多个连接件。在一些实施例中,每个执行单元例如,2108A是能够执行多个同步硬件线程同时针对每个线程并行地处理多个数据元素的独立可编程通用计算单元。在各种实施例中,执行单元2108A至2108N的阵列是可缩放的以包括任意数量的单独执行单元。[0209]在一些实施例中,执行单元2108A至2108N主要用于执行着色器程序。着色器处理器2102可以处理各种着色器程序并且经由线程分派器2104分派与着色器程序相关联的执行线程。在一个实施例中,线程分派器包括用于对来自图形和媒体流水线的线程发起请求进行仲裁并且在一个或多个执行单元2108A至2108N上实例化所请求的线程的逻辑。例如,几何流水线(例如,图20的2036可以将顶点处理、曲面细分或几何处理线程分派至线程执行逻辑2100图21进行处理。在一些实施例中,线程分派器2104还可处理来自执行着色器程序的运行时间线程生成请求。[0210]在一些实施例中,执行单元2108A至2108N支持指令集所述指令集包括对许多标准3D图形着色器指令的原生支持),从而使得以最小的转换执行来自图形库例如,Direct3D和OpenGL的着色器程序。这些执行单元支持顶点和几何处理(例如,顶点程序、几何程序、顶点着色器)、像素处理例如,像素着色器、片段着色器)以及通用处理例如,计算和媒体着色器)。执行单元2108A至2108N中的每一个都能够执行多发布单指令多数据SMD,并且多线程操作能够在面对较高等待时间的存储器访问时实现高效的执行环境。每个执行单元内的每个硬件线程都具有专用的高带宽寄存器堆和相关的独立线程状态。对于具有整数、单精度浮点运算和双精度浮点运算、SIMD分支功能、逻辑运算、超越运算和其他混杂运算的流水线,执行是每个时钟的多发布。在等待来自存储器或共享功能之一的数据时,执行单元2108A至2108N内的依赖性逻辑使等待线程休眠,直到所请求的数据已返回。当等待线程正在休眠时,硬件资源可能会专门用于处理其他线程。例如,在与顶点着色器操作相关联的延迟期间,执行单元可以执行像素着色器、片段着色器或包括不同顶点着色器的另一种类型的着色器程序的操作。[0211]执行单元2108A至2108N中的每个执行单元在数据元素阵列上进行操作。数据元素的数量是“执行大小”、或指令的信道数。执行通道是执行数据元素访问、掩蔽、和指令内的流控制的逻辑单元。通道的数量可以与针对特定图形处理器的物理算术逻辑单元ALU或浮点单元FPU的数量无关。在一些实施例中,执行单元2108A至2108N支持整数和浮点数据类型。[0212]执行单元指令集包括SMD指令。各种数据元素可作为压缩数据类型存储在寄存器中,并且执行单元将基于元素的数据大小来处理各种元素。例如,当在256位宽的向量上进行操作时,所述256位的向量存储在寄存器中,并且所述执行单元作为四个单独64位压缩数据元素(四倍字长QW大小的数据元素)、八个单独32位压缩数据元素双倍字长DW大小的数据元素)、十六个单独16位压缩数据元素字长⑼大小的数据元素)、或三十二个单独8位数据元素字节⑻大小的数据元素在所述向量上进行操作。然而,不同的向量宽度和寄存器大小是可能的。[0213]—个或多个内部指令高速缓存例如,2106包括在所述线程执行逻辑2100中以便高速缓存所述执行单元的线程指令。在一些实施例中,一个或多个数据高速缓存(例如,2112被包括用于高速缓存在线程执行过程中的线程数据。在一些实施例中,采样器2110被包括用于为3D操作提供纹理采样并且为媒体操作提供媒体采样。在一些实施例中,采样器2110包括专门的纹理或媒体采样功能,以便在向执行单元提供采样数据之前在采样过程中处理纹理或媒体数据。[0214]在执行过程中,图形和媒体流水线经由线程生成和分派逻辑向线程执行逻辑2100发送线程发起请求。一旦一组几何对象已经被处理并被栅格化成像素数据,则着色器处理器2102内的像素处理器逻辑例如,像素着色器逻辑、片段着色器逻辑等被调用以便进一步计算输出信息并且使得结果被写入到输出表面例如,色彩缓冲器、深度缓冲器、模板印刷缓冲器等)。在一些实施例中,像素着色器或片段着色器计算各顶点属性的值,所述各顶点属性跨栅格化对象被内插。在一些实施例中,着色器处理器2102内的像素处理器逻辑然后执行应用编程接口(API供应的像素或片段着色器程序。为了执行着色器程序,着色器处理器2102经由线程分派器2104将线程分派至执行单元例如,2108A。在一些实施例中,像素着色器2102使用采样器2110中的纹理采样逻辑来访问存储器中所存储的纹理图中的纹理数据。对纹理数据和输入几何数据的算术运算计算每个几何片段的像素颜色数据,或丢弃一个或多个像素而不进行进一步处理。[0215]在一些实施例中,数据端口2114提供存储器访问机制,供线程执行逻辑2100将经处理的数据输出至存储器以便在图形处理器输出流水线上进行处理。在一些实施例中,数据端口2114包括或耦合至一个或多个高速缓存存储器例如,数据高速缓存2112从而经由数据端口高速缓存数据以供存储器访问。[0216]图22是展示了根据一些实施例的图形处理器指令格式2200的框图。在一个或多个实施例中,图形处理器执行单元支持具有多种格式的指令的指令集。实线框展示了通常包括在执行单元指令中的部件,而虚线包括可选的部件或仅包括在指令子集中的部件。在一些实施例中,所描述和展示的指令格式2200是宏指令,因为它们是供应至执行单元的指令,这与从指令解码产生的微操作相反一旦所述指令被处理)。[0217]在一些实施例中,图形处理器执行单元原生地支持采用128位指令格式2210的指令。64位紧凑指令格式2230可用于基于所选指令、多个指令选项和操作数数量的一些指令。原生128位指令格式2210提供对所有指令选项的访问,而一些选项和操作限制在64位格式2230中。64位格式2230中可用的原生指令根据实施例而不同。在一些实施例中,使用索引字段2213中的一组索引值将指令部分地压缩。执行单元硬件基于索引值来参考一组压缩表,并使用压缩表输出来重构采用128位指令格式2210的原生指令。[0218]针对每种格式,指令操作码2212限定执行单元要执行的操作。执行单元跨每个操作数的多个数据元素来并行地执行每条指令。例如,响应于添加指令,执行单元跨每个颜色通道执行同步添加操作,所述颜色通道表示纹理元素或图片元素。默认地,执行单元跨操作数的所有数据通道执行每条指令。在一些实施例中,指令控制字段2214使能控制某些执行选项,诸如通道选择例如,预测)以及数据通道排序例如,混合)。针对采用128位指令格式2210的指令,执行大小字段2216限制了将并行执行的数据通道的数量。在一些实施例中,执行大小字段2216不可用于64位紧凑指令格式2230。[0219]—些执行单元指令具有多达三个操作数,包括两个源操作数(srcO2220、srcl2222和一个目的地2218。在一些实施例中,执行单元支持双目的地指令,其中这些目的地之一是隐式的。数据操作指令可以具有第三源操作数例如,SRC22224,其中,指令操作码2212确定源操作数的数量。指令的最后的源操作数可以是利用所述指令传递的即时例如,硬编码值。[0220]在一些实施例中,128位指令格式2210包括访问地址模式字段2226,所述访问地址模式信息例如限定了是使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时,直接由指令中的位来提供一个或多个操作数的寄存器地址。[0221]在一些实施例中,128位指令格式2210包括访问地址模式字段2226,所述访问地址模式字段指定指令的地址模式和或访问模式。在一个实施例中,访问模式用于限定针对指令的数据访问对齐。一些实施例支持访问模式,包括16字节对齐访问模式和1字节对齐访问模式,其中,访问模式的字节对齐确定了指令操作数的访问对齐。例如,当在第一模式中时,指令可以使用字节对齐寻址以用于源操作数和目的地操作数,并且当在第二模式中时,指令可以使用16字节对齐寻址以用于所有的源操作数和目的地操作数。[0222]在一个实施例中,访问地址模式字段2226的地址模式部分确定指令是使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时,指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时,可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作数的寄存器地址。[0223]在一些实施例中,基于操作码2212位字段对指令进行分组从而简化操作码解码2240。针对8位的操作码,第4、5、和6位允许执行单元确定操作码的类型。所示出的精确操作码分组仅是示例性的。在一些实施例中,移动和逻辑操作码组2242包括数据移动和逻辑指令例如,移动moV、比较cmp。在一些实施例中,移动和逻辑组2242共享五个最高有效位MSB,其中移动mov指令采用OOOOxxxxb的形式,而逻辑指令采用OOOlxxxxb的形式。流控制指令组2244例如,调用(call、跳(jmp包括采用OOlOxxxxb形式(例如,0x20的指令。混杂指令组2246包括指令的混合,包括采用OOllxxxxb形式例如,0x30的同步指令例如,等待wait、发送send。并行数学指令组2248包括采用OlOOxxxxb形式例如,0x40的按分量的算术指令例如,加add、乘mul。并行数学组2248跨数据通道并行地执行算术运算。向量数学组2250包括采用OlOlxxxxb形式例如,0x50的算术指令例如,dp4。向量数学组对向量操作数执行算术运算,诸如点积运算。示例性附加图形流水线[0224]图23是图形处理器2300的另一个实施例的框图。图23的具有与此处任何其他附图中的元件相同的参考号(或名称)的那些元件可采用与在本文中其他地方描述的方式相类似的任何方式进行操作或起作用,但不限于这些。[0225]在一些实施例中,图形处理器2300包括图形流水线2320、媒体流水线2330、显示引擎2340、线程执行逻辑2350、以及渲染输出流水线2370。在一些实施例中,图形处理器2300是包括一个或多个通用处理核的多核处理系统内的图形处理器。图形处理器受到至一个或多个控制寄存器未示出)的寄存器写入的控制或者经由环形互连2302经由发布至图形处理器2300的命令被控制。在一些实施例中,环形互连2302将图形处理器2300耦合至其他处理部件,比如其他图形处理器或通用处理器。来自环形互连2302的命令通过命令流转化器2303被解译,所述命令流转化器将指令供应至图形流水线2320或媒体流水线2330的单独部件。[0226]在一些实施例中,命令流转化器2303引导顶点获取器2305的操作,所述顶点获取器从存储器读取顶点数据并执行由命令流转化器2303所提供的顶点处理命令。在一些实施例中,顶点获取器2305将顶点数据提供给顶点着色器2307,所述顶点着色器对每个顶点执行坐标空间变换和照明操作。在一些实施例中,顶点获取器2305和顶点着色器2307通过经由线程分派器2331向执行单元2352A至2352B分派执行线程来执行顶点处理指令。[0227]在一些实施例中,执行单元2352A至2352B是具有用于执行图形和媒体操作的指令集的向量处理器阵列。在一些实施例中,执行单元2352A至2352B具有附接的Ll高速缓存2351,所述高速缓存专用于每个阵列或在阵列之间共享。高速缓存可以被配置为数据高速缓存、指令高速缓存、或单个高速缓存,所述单个高速缓存被分区为包含不同分区中的数据和指令。[0228]在一些实施例中,图形流水线2320包括用于执行3D对象的硬件加速曲面细分的曲面细分部件。在一些实施例中,可编程的外壳着色器811配置曲面细分操作。可编程域着色器817提供对曲面细分输出的后端评估。曲面细分器2313在外壳着色器2311的方向上进行操作并且包含专用逻辑,所述专用逻辑用于基于粗糙几何模型来生成详细的几何对象集合,所述粗糙几何模型作为输入被提供至图形流水线2320。在一些实施例中,如果未使用曲面细分,则可以对曲面细分部件(例如,外壳着色器2311、曲面细分器2313、域着色器2317进行旁路。[0229]在一些实施例中,完整的几何对象可以由几何着色器2319经由被分派至所述执行单元2352A至2352B的一个或多个线程来处理、或者可以直接行进至剪辑器2329。在一些实施例中,几何着色器在整个几何对象而非顶点或者如图形流水线的先前级中的顶点补片)上进行操作。如果禁用曲面细分,则几何着色器2319从顶点着色器2307接收输入。在一些实施例中,几何着色器2319可由几何着色器程序编程以便在曲面细分单元被禁用时执行几何曲面细分。在栅格化之前,剪辑器2329处理顶点数据。剪辑器2329可以是固定功能的剪辑器或者具有剪辑和几何着色器功能的可编程剪辑器。在一些实施例中,渲染输出流水线2370中的栅格器和深度测试部件2373分派像素着色器以将几何对象转换成其每像素表示。在一些实施例中,像素着色器逻辑包括在线程执行逻辑2350中。在一些实施例中,应用可对栅格器和深度测试部件2373进行旁路并且经由流出单元2323访问未栅格化的顶点数据。[0230]图形处理器2300具有互连总线、互连结构、或某个其他的互连机制,所述互连机制允许数据和消息在所述图形处理器的主要部件之中传递。在一些实施例中,执行单元2352A至2352B和(多个相关联的高速缓存2351、纹理和媒体采样器2354、以及纹理采样器高速缓存2358经由数据端口2356进行互连,以便执行存储器访问并且与处理器的渲染输出流水线部件进行通信。在一些实施例中,采样器2354、高速缓存2351、2358以及执行单元2352A至2352B各自具有单独的存储器访问路径。[0231]在一些实施例中,渲染输出流水线2370包含栅格器和深度测试部件2373,所述栅格器和深度测试部件将基于顶点的对象转换为相关联的基于像素的表示。在一些实施例中,栅格器逻辑包括用于执行固定功能三角形和线栅格化的窗口器掩蔽器单元。相关联的渲染高速缓存2378和深度高速缓存2379在一些实施例中也是可用的。像素操作部件2377对数据进行基于像素的操作,然而在一些实例中,与2D操作例如,利用混合的位块图像传递)相关联的像素操作由2D引擎2341执行、或者在显示时间由显示控制器2343使用重叠显示平面来代替。在一些实施例中,共享的L3高速缓存2375可用于所有的图形部件,从而允许在无需使用主系统存储器的情况下共享数据。[0232]在一些实施例中,图形处理器媒体流水线2330包括媒体引擎2337和视频前端2334。在一些实施例中,视频前端2334从命令流转化器2303接收流水线命令。在一些实施例中,媒体流水线2330包括单独的命令流转化器。在一些实施例中,视频前端2334在将所述命令发送至媒体引擎2337之前处理媒体命令。在一些实施例中,媒体引擎2337包括用于生成线程以用于经由线程分派器2331分派至线程执行逻辑2350的线程生成功能。[0233]在一些实施例中,图形处理器2300包括显示引擎2340。在一些实施例中,显示引擎2340在处理器2300外部并且经由环形互连2302、或某个其他互连总线或机构与图形处理器耦合。在一些实施例中,显示引擎2340包括2D引擎2341和显示控制器2343。在一些实施例中,显示引擎2340包含能够独立于3D流水线而操作的专用逻辑。在一些实施例中,显示控制器2343与显示设备(未示出)耦合,所述显示设备可以是系统集成显示设备(如在膝上型计算机中)、或者经由显示设备连接器附接的外部显示设备。[0234]在一些实施例中,图形流水线2320和媒体流水线2330可被配置成用于基于多个图形和媒体编程接口执行操作并且并非专用于任何一种应用编程接口(API。在一些实施例中,图形处理器的驱动器软件将专用于特定图形或媒体库的API调度转换成可由图形处理器处理的命令。在一些实施例中,为全部来自KhronosGroup的开放图形库OpenGL、开放计算语言OpenCL和或Vulkan图形和计算API提供了支持。在一些实施例中,也可以为微软公司的Direct3D库提供支持。在一些实施例中,可以支持这些库的组合。还可以为开源计算机视觉库OpenCV提供支持。如果可做出从未来API的流水线到图形处理器的流水线的映射,则具有兼容3D流水线的未来API也将受到支持。示例性图形流水线编程[0235]图24A是展示了根据一些实施例的图形处理器命令格式2400的框图。图24B是展示了根据实施例的图形处理器命令序列2410的框图。图24A中的实线框展示了通常包括在图形命令中的部件,而虚线包括是可选的或者仅包括在所述图形命令的子集中的部件。图24A的示例性图形处理器命令格式2400包括用于标识命令的目标客户端2402、命令操作代码操作码)2404、以及用于命令的相关数据2406的数据字段。一些命令中还包括子操作码2405和命令大小2408。[0236]在一些实施例中,客户端2402限定了处理命令数据的图形设备的客户端单元。在一些实施例中,图形处理器命令解析器检查每个命令的客户端字段以便调整对命令的进一步处理并将命令数据路由至合适的客户端单元。在一些实施例中,图形处理器客户端单元包括存储器接口单元、植染单元、2D单元、3D单元、和媒体单元。每个客户端单元具有对命令进行处理的相应处理流水线。一旦命令被客户端单元接收到,客户端单元就读取操作码2404以及子操作码2405如果存在的话从而确定要执行的操作。客户端单元使用数据字段2406内的信息来执行命令。针对一些命令,期望显式地的命令大小2408来限定命令的大小。在一些实施例中,命令解析器基于命令操作码自动地确定命令中的至少一些命令的大小。在一些实施例中,经由双倍字长的倍数对命令进行对齐。[0237]图24B中的流程图示出了示例性图形处理器命令序列2410。在一些实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本来启动、执行并终止图形操作集合。仅出于示例性目的示出并描述了样本命令序列,如实施例并不限于这些特定命令或者此命令序列。而且,所述命令可以作为一批命令以命令序列被发布,从而使得图形处理器将以至少部分同时的方式处理命令序列。[0238]在一些实施例中,图形处理器命令序列2410可以以流水线转储清除命令2412开始以便使得任一活跃图形流水线完成针对所述流水线的当前未决命令。在一些实施例中,3D流水线2422和媒体流水线2424不同时进行操作。执行流水线转储清除以使得活动图形流水线完成任何未决命令。响应于流水线转储清除,用于图形处理器的命令解析器将停止命令处理直到活跃绘画引擎完成未决操作并且使得相关的读高速缓存失效。可选地,渲染高速缓存中被标记为‘脏’的任何数据可以被转储清除到存储器中。在一些实施例中,流水线转储清除命令2412可以用于流水线同步或者用在将图形处理器置于低功率状态之前。[0239]在一些实施例中,当命令序列需要图形处理器在流水线之间显式地地切换时,使用流水线选择命令2413。在一些实施例中,在发布流水线命令之前在执行情境中仅需要一次流水线选择命令2413,除非所述情境要发布针对两条流水线的命令。在一些实施例中,在经由流水线选择命令2413的流水线切换之前正好需要流水线转储清除命令2412。[0240]在一些实施例中,流水线控制命令2414配置用于操作的图形流水线并且用于对3D流水线2422和媒体流水线2424进行编程。在一些实施例中,流水线控制命令2414配置活跃流水线的流水线状态。在一个实施例中,流水线控制命令2414用于流水线同步并且用于在处理一批命令之前清除来自活跃流水线内的一个或多个高速缓存存储器中的数据。[0241]在一些实施例中,返回缓冲器状态命令2416用于配置返回缓冲器的集合以供相应的流水线写入数据。一些流水线操作需要分配、选择、或配置一个或多个返回缓冲器,在处理过程中所述操作将中间数据写入所述一个或多个返回缓冲器中。在一些实施例中,图形处理器还使用一个或多个返回缓冲器以便存储输出数据并且执行跨线程通信。在一些实施例中,返回缓冲器状态2416包括选择返回缓冲器的大小和数量以用于流水线操作集合。[0242]命令序列中的剩余命令基于用于操作的活跃流水线而不同。基于流水线判定2420,所述命令序列被定制用于以3D流水线状态2430开始的3D流水线2422、或者在媒体流水线状态2440处开始的媒体流水线2424。[0243]用于3D流水线状态2430的命令包括用于顶点缓冲器状态、顶点元素状态、常量颜色状态、深度缓冲器状态、以及有待在处理3D图元命令之前配置的其他状态变量的3D状态设置命令。这些命令的值至少部分地基于使用中的特定3DAPI来确定。在一些实施例中,3D流水线状态2430命令还能够选择性地禁用或旁路掉特定流水线元件如果将不使用那些元件的话。[0244]在一些实施例中,3D图元2432命令用于提交待由3D流水线处理的3D图元。经由3D图元2432命令传递给图形处理器的命令和相关联参数将被转发到所述图形流水线中的顶点获取功能。顶点获取功能使用3D图元2432命令数据来生成多个顶点数据结构。所述顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中,3D图元2432命令用于经由顶点着色器对3D图元执行顶点操作。为了处理顶点着色器,3D流水线2422将着色器执行线程分派至图形处理器执行单元。[0245]在一些实施例中,经由执行2434命令或事件触发3D流水线2422。在一些实施例中,寄存器写入触发命令执行。在一些实施例中,经由命令序列中的‘前进’(V或‘拣选’‘kick’)命令来触发执行。在一个实施例中,使用流水线同步命令来触发命令执行以便通过图形流水线转储清除命令序列。3D流水线将针对3D图元来执行几何处理。一旦完成操作,则对所产生的几何对象进行栅格化,并且像素引擎对所产生的像素进行着色。对于这些操作,还可以包括用于控制像素着色和像素后端操作的附加命令。[0246]在一些实施例中,当执行媒体操作时,图形处理器命令序列2410跟随在媒体流水线2424路径之后。一般地,针对媒体流水线2424进行编程的具体用途和方式取决于待执行的媒体或计算操作。在媒体解码过程中,特定的媒体解码操作可以被卸载到所述媒体流水线。在一些实施例中,还可对媒体流水线进行旁路,并且可使用由一个或多个通用处理核提供的资源来整体地或部分地执行媒体解码。在一个实施例中,媒体流水线还包括用于通用图形处理器单元GPGPU操作的元件,其中,所述图形处理器用于使用计算着色器程序来执行sn®向量运算,所述计算着色器程序与渲染图形图元不是显式地相关的。[0247]在一些实施例中,以与3D流水线2422相似的方式对媒体流水线2424进行配置。将用于配置媒体流水线状态2440的一组命令分派或放置到命令队列中,在媒体对象命令2442之前。在一些实施例中,媒体流水线状态2440的命令包括用于配置媒体流水线元件的数据,所述媒体流水线元件将用于处理媒体对象。这包括用于在媒体流水线内配置视频解码和视频编码逻辑的数据,诸如编码或解码格式。在一些实施例中,媒体流水线状态2440的命令还支持将一个或多个指针用于包含一批状态设置的“间接”状态元件。[0248]在一些实施例中,媒体对象命令2442将指针供应至媒体对象以用于由媒体流水线进行处理。媒体对象包括存储器缓冲器,所述存储器缓冲器包含待处理的视频数据。在一些实施例中,在发布媒体对象命令2442之前,所有的媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令2442被排队,则经由执行2444命令或等效的执行事件(例如,寄存器写入来触发媒体流水线2424。然后可以通过由3D流水线2422或媒体流水线2424提供的操作对来自媒体流水线2424的输出进行后处理。在一些实施例中,以与媒体操作类似的方式来配置和执行GPGPU操作。附加的示例性图形软件架构[0249]图25展示了根据一些实施例的数据处理系统2500的示例性图形软件架构。在一些实施例中,软件架构包括3D图形应用2510、操作系统2520、以及至少一个处理器2530。在一些实施例中,处理器2530包括图形处理器2532以及一个或多个通用处理器核2534。图形应用2510和操作系统2520各自在数据处理系统的系统存储器2550中执行。[0250]在一些实施例中,3D图形应用2510包含一个或多个着色器程序,所述一个或多个着色器程序包括着色器指令2512。着色器语言指令可以采用高级着色器语言,诸如高级着色器语言HLSL或OpenGL着色器语言GLSL。所述应用还包括可执行指令2514,所述可执行指令采用适合用于由通用处理器核2534执行的机器语言。所述应用还包括由顶点数据限定的图形对象2516。[0251]在一些实施例中,操作系统2520是来自微软公司的Microsoft®Windows®操作系统、专用UNIX式操作系统、或使用Linux内核变体的开源UNIX式操作系统。操作系统2520可以支持图形API2522,诸如Direct3DAPI、0penGLAPI或VulkanAPI。当Direct3DAPI正在使用时,操作系统2520使用前端着色器编译器2524以将HLSL中的任何着色器指令2512编译成较低级的着色器语言。所述编译可以是即时JIT编译,或者所述应用可执行着色器预编译。在一些实施例中,在对3D图形应用2510进行编译的过程中,将高级着色器编译成低级着色器。在一些实施例中,着色器指令2512以中间形式提供,诸如由VulkanAPI使用的标准便携式中间表示SPIR的版本。[0252]在一些实施例中,用户模式图形驱动器2526包含后端着色器编译器2527,所述后端着色器编译器用于将着色器指令2512转换成硬件专用的表示。当在使用OpenGLAPI时,将采用GLSL高级语言的着色器指令2512传递至用户模式图形驱动器2526以用于编译。在一些实施例中,用户模式图形驱动器2526使用操作系统内核模式功能2528来与内核模式图形驱动器2529进行通信。在一些实施例中,内核模式图形驱动器2529与图形处理器2532进行通信以便分派命令和指令。示例性IP核实现[0253]至少一个实施例的一个或多个方面可以由存储在机器可读介质上的代表性代码实现,所述机器可读介质表示和或限定集成电路诸如处理器内的逻辑。例如,机器可读介质可以包括表示处理器内的各个逻辑的指令。当由机器读取时,所述指令可以使机器制造用于执行本文所述的技术的逻辑。这类表示称为“IP核”)是集成电路的逻辑的可重复使用单元,所述可重复使用单元可以作为对集成电路的结构进行描述的硬件模型而存储在有形、机器可读介质上。可以将硬件模型供应至在制造集成电路的制造机器上加载硬件模型的各消费者或制造设施。可以制造集成电路,从而使得电路执行与本文所述的实施例中的任一实施例相关联地描述的操作。[0254]图26是展示了根据实施例的可以用于制造集成电路以执行操作的IP核开发系统2600的框图。IP核开发系统2600可以用于生成可并入到更大的设计中或用于构建整个集成电路例如,SOC集成电路)的模块化、可重复使用设计。设计设施2630可采用高级编程语言例如,CC++生成对IP核设计的软件仿真2610。软件仿真2610可用于使用仿真模型2612来设计、测试并验证IP核的行为。仿真模型2612可以包括功能、行为和或时序仿真。然后可由仿真模型2612来创建或合成寄存器传输级RTL设计2615ATL设计2615是对硬件寄存器之间的数字信号的流动进行建模的集成电路包括使用建模的数字信号执行的相关联逻辑)的行为的抽象。除了RTL设计2615之外,还可以创建、设计或合成逻辑电平或晶体管电平处的较低层次设计。由此,初始设计和仿真的具体细节可以发生变化。[0255]可以由设计设施将RTL设计2615或等效方案进一步合成为硬件模型2620,所述硬件模型可以采用硬件描述语言HDL或物理设计数据的某种其他表示。可以进一步仿真或测试HDL以验证IP核设计。可使用非易失性存储器2640例如,硬盘、闪存、或任何非易失性存储介质)来存储IP核设计以用于递送至第3方制造设施2665。可替代地,可以通过有线连接2650或无线连接2660来传输例如,经由互联网)IP核设计。制造设施2665然后可以制造至少部分地基于IP核设计的集成电路。所制造的集成电路可被配置用于执行根据本文所述的至少一个实施例的操作。示例性芯片上系统集成电路[0256]图27至图29展示了根据本文所述的各种实施例的可以使用一个或多个IP核来制造的示例性集成电路和相关图形处理器。除了所展示的之外,还可以包括其他逻辑和电路,包括附加的图形处理器核、外围接口控制器或通用处理器核。[0257]图27是展示了根据实施例的可以使用一个或多个IP核来制造的示例性芯片上系统集成电路2700的框图。示例性集成电路2700包括一个或多个应用处理器2705例如,CPU、至少一个图形处理器2710,并且另外还可以包括图像处理器2715和或视频处理器2720,其中的任一项都可以是来自相同或多个不同设计设施的模块化IP核。集成电路2700包括外围或总线逻辑,包括USB控制器2725、UART控制器2730、SPISDI0控制器2735和I2SI2C控制器2740。另外,集成电路还可以包括显示设备2745,所述显示设备耦合至高清晰度多媒体接口(HDMI控制器2750和移动行业处理器接口(MIPI显示界面2755中的一项或多项。可以由闪存子系统2760包括闪存和闪存控制器来提供存储。可以经由存储器控制器2765来提供存储器接口以访问SDRAM或SRAM存储器设备。另外,一些集成电路还包括嵌入式安全引擎2770。[0258]图28是展示了根据实施例的可以使用一个或多个IP核来制造的芯片上系统集成电路的示例性图形处理器2810的框图。图形处理器2810可以是图27的图形处理器2710的变体。图形处理器2810包括顶点处理器2805和一个或多个片段处理器2815A至2815N例如,2815A,2815B,2815C,2815D,一直到2815N-1和2815N。图形处理器2810可以经由单独的逻辑执行不同的着色器程序,使得顶点处理器2805被优化以执行顶点着色器程序的操作,而一个或多个片段处理器2815A至2815N执行片段例如,像素着色操作以用于片段或像素着色器程序。顶点处理器2805执行3D图形流水线的顶点处理阶段并生成图元和顶点数据。(多个片段处理器2815A至2815N使用由顶点处理器2805生成的图元和顶点数据来产生显示在显示设备上的帧缓冲器。在一个实施例中,(多个片段处理器2815A至2815N被优化以执行OpenGLAPI中提供的片段着色器程序,这些片段着色器程序可以用于执行与Direct3DAPI中提供的像素着色器程序相似的操作。[0259]另外,图形处理器2810还包括一个或多个存储器管理单元MMU2820A至2820B、一个或多个高速缓存2825A至2825B和(多个)电路互连2830A至2830B。一个或多个MMU2820A至2820B为图形处理器2810包括为顶点处理器2805和或一个或多个片段处理器2815A至2815N提供虚拟到物理地址映射,除了存储在一个或多个高速缓存2825A至2825B中的顶点或图像纹理数据之外,所述虚拟到物理地址映射还可以引用存储在存储器中的顶点或图像纹理数据。在一个实施例中,一个或多个MMU2820A至2820B可以与系统内的其他MMU包括与图27的一个或多个应用处理器2705、图像处理器2715和或视频处理器2720相关联的一个或多个MMU同步,使得每个处理器2705至2720可以参与共享或统一的虚拟存储器系统。根据实施例,一个或多个电路互连2830A至2830B使得图形处理器2810能够经由SoC的内部总线或经由直接连接来与SoC内的其他IP核交互。[0260]图29是展示了根据实施例的可以使用一个或多个IP核来制造的芯片上系统集成电路的附加示例性图形处理器2910的框图。图形处理器2910可以是图27的图形处理器2710的变体。图形处理器2910包括图28的集成电路2800的一个或多个MMU2820A至2820B、高速缓存2825A至2825B和电路互连2830A至2830B。[0261]图形处理器2910包括一个或多个着色器核2915A至2915N例如,2915A、2915B、2915C、2915D、2915E、2915F、一直到2915N-1和2915N,所述一个或多个着色器核提供统一的着色器核架构,其中单个核或类型或核可以执行所有类型的可编程着色器代码包括着色器程序代码以实现顶点着色器、片段着色器和或计算着色器。存在的着色器核的确切数量可以在实施例和实现中变化。另外,图形处理器2910还包括核间任务管理器2905,所述核间任务管理器充当用于将执行线程分派给一个或多个着色器核2915A至2915N的线程分派器和用于加快分块操作以进行基于图块的渲染的分块单元2918,其中场景的渲染操作在图像空间中被细分,例如以利用场景内的本地空间一致性或优化内部高速缓存的使用。[0262]以下条款和或示例涉及其特定的实施例或其示例。这些示例中的细节可用于一个或多个实施例中的任何地方。能以各种方式将不同的实施例或示例的各种特征进行组合,其中某些特征被包含在内而其他特征被排除在外,从而适应各种不同的应用。示例可包括诸如以下的主题:方法、用于执行所述方法的动作的装置、至少一个机器可读介质,所述机器可读介质包括指令,所述指令当由机器执行时使得机器执行所述方法的动作、或根据本文中所描述的实施例与示例的装置或系统的动作。各种部件可以是用于执行所描述的操作或功能的装置。[0263]本文中所描述的实施例涉及诸如专用集成电路ASIC之类的被配置成执行某些操作或具有预定功能的硬件的特定配置。此类电子设备一般包括耦合至一个或多个其他部件的一个或多个处理器的集合,所述一个或多个其他部件诸如一个或多个存储设备非暂态机器可读存储介质)、用户输入输出设备(例如,键盘、触摸屏和或显示器)以及网络连接。该组处理器和其他部件的耦合一般是通过一个或多个总线和桥也称为总线控制器实现的。存储设备和携带网络话务的信号分别表示一个或多个机器可读存储介质和机器可读通信介质。因此,给定电子设备的存储设备通常存储用于在该电子设备的一个或多个处理器的集合上执行的代码和或数据。[0264]当然,实施例的一个或多个部分可使用软件、固件和或硬件的不同组合来实现。贯穿此具体实施方式,出于解释的目的,阐述了众多具体细节以便提供对本发明的透彻理解。然而,对本领域技术人员显而易见的是,没有这些具体细节中的一些细节也可实践实施例。在某些实例中,并不详细描述众所周知的结构和功能,以避免使实施例的发明主题变得模糊。因此,本发明的范围和精神应根据所附权利要求书来判断。

权利要求:1.一种通用图形处理单元,包括:计算集群,所述计算集群包括多个计算单元;停止通知模块,所述停止通知模块用于检测所述计算集群中的一个或多个计算单元停止并发送停止通知;以及再平衡模块,所述再平衡模块用于接收所述停止通知,所述再平衡模块用于响应于所述停止通知将第一工作负荷从一个或多个停止的计算单元迀移。2.如权利要求1中所述的通用图形处理单元,其特征在于,所述再平衡模块用于确定第二工作负荷是否是待处理的执行,并且当所述第二工作负荷是待处理的执行时,将所述第二工作负荷迀移到所述计算集群。3.如权利要求2中所述的通用图形处理单元,附加地包括功率模块,所述功率模块用于对所述计算集群内的空闲计算单元进行功率门控。4.如权利要求3中所述的通用图形处理单元,其特征在于,所述再平衡模块用于当所述第二工作负荷不是待处理的执行时,请求所述功率模块对所述计算集群进行功率门控。5.如权利要求1-4中任一项中所述的通用图形处理单元,其特征在于,所述停止通知模块用于维持活动计分板,所述活动计分板用于维持所述计算集群中的所述多个计算单元中的每一个的活动状态或阻塞状态。6.如权利要求1-4中任一项中所述的通用图形处理单元,其特征在于,为了将所述第一工作负荷从所述一个或多个停止的计算单元中的计算单元迀移,所述再平衡模块会将迀移命令发布到所述计算单元。7.如权利要求6中所述的通用图形处理单元,其特征在于,所述计算单元用于,针对所述第一工作负荷的待处理流水线事件,确定是去停止所述待处理流水线事件还是允许所述待处理流水线事件完成。8.如权利要求7中所述的通用图形处理单元,其特征在于,所述计算单元用于允许第一待处理流水线事件完成流水线并停止第二流水线事件。9.如权利要求8中所述的通用图形处理单元,其特征在于,所述计算单元用于当所述第一待处理流水线事件在所述迀移命令被接收时已经越过了事件临界时允许所述第一待处理流水线事件完成。10.—种通用图形处理单元上的计算集群抢占的方法,所述方法包括:经由计算单元计分板监视在计算集群上执行的工作负荷;经由所述计算单元计分板检测所述计算集群上的被阻塞的工作负荷;以及通知再平衡模块所述被阻塞的工作负荷被阻塞,所述再平衡模块用于将所述被阻塞的工作负荷从所述计算集群迀移。11.如权利要求10中所述的方法,其特征在于,检测所述计算集群上的所述被阻塞的工作负荷包括检测所述计算集群的所有计算单元都被停止。12.如权利要求10中所述的方法,其特征在于,将所述被阻塞的工作负荷从所述计算集群迀移包括,评估与所述被阻塞的工作负荷相关联的待处理流水线事件,并确定是否允许所述待处理流水线事件完成。13.如权利要求12中所述的方法,其特征在于,评估所述待处理流水线事件包括,确定所述待处理流水线事件在接收所述被阻塞的工作负荷的通知之前是否已经超过流水线临界。14.如权利要求10中所述的方法,附加地包括:询问调度器以确定待处理的工作负荷是否是待处理的执行,当所述待处理的工作负荷是待处理的执行时,请求所述再平衡模块在所述计算集群上发动所述待处理的工作负荷,并且当所述待处理的工作负荷不是待处理的执行时,请求功率模块对所述计算集群进行功率门控。15.—种设备,包括用于执行如权利要求10-14中的任一项中所述的方法的装置。16.—种数据处理系统,包括:非暂态机器可读介质,所述非暂态机器可读介质用于存储由所述数据处理系统的一个或多个处理器执行的指令;以及通用图形处理单元,包括:计算集群,所述计算集群包括多个计算单元;停止通知模块,所述停止通知模块用于检测所述计算集群中的一个或多个计算单元停止并发送停止通知;以及再平衡模块,所述再平衡模块用于接收所述停止通知,所述再平衡模块用于响应于所述停止通知将第一工作负荷从一个或多个停止的计算单元迀移。17.如权利要求16中所述的数据处理系统,其特征在于,所述再平衡模块用于确定第二工作负荷是否是待处理的执行,并且当所述第二工作负荷是待处理的执行时,将所述第二工作负荷迀移到所述计算集群。18.如权利要求16中所述的数据处理系统,附加地包括功率模块,所述功率模块用于对所述计算集群内的空闲计算单元进行功率门控。19.如权利要求18中所述的数据处理系统,其特征在于,所述再平衡模块用于当所述第二工作负荷不是待处理的执行时,请求所述功率模块对所述计算集群进行功率门控。20.如权利要求19中所述的数据处理系统,其特征在于,所述停止通知模块用于维持活动计分板,所述活动计分板用于维持所述计算集群中的所述多个计算单元中的每一个的活动状态或阻塞状态。21.如权利要求16中所述的数据处理系统,其特征在于,为了将所述第一工作负荷从所述一个或多个停止的计算单元中的计算单元迀移,所述再平衡模块会将迀移命令发布到所述计算单元。22.如权利要求21中所述的数据处理系统,其特征在于,所述计算单元用于,针对所述第一工作负荷的待处理流水线事件,确定是否停止所述待处理流水线事件或者允许所述待处理流水线事件完成。23.如权利要求22中所述的数据处理系统,其特征在于,所述计算单元用于允许第一待处理流水线事件完成流水线并停止第二流水线事件。24.如权利要求23中所述的数据处理系统,其特征在于,所述计算单元用于当所述第一待处理流水线事件在所述迀移命令被接收时已经越过了事件临界时,允许所述第一待处理流水线事件完成。25.如权利要求16中所述的数据处理系统,附加地包括线程暂存空间,所述线程暂存空间用于存储所述第一工作负荷的被挂起的线程的上下文,其中计算单元用于检测所述计算单元上的所有线程都被阻塞,并选择所述计算单元上的牺牲线程以挂起到所述线程暂存空间。

百度查询: 英特尔公司 通用图形处理单元内的计算集群抢占

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。