CAPITALLINK

搜索
确认
取消
行业研究
/
/
/
大算力时代, 盘点层出不穷的“XPU”

大算力时代, 盘点层出不穷的“XPU”

  • 分类:行业洞察
  • 作者:
  • 来源:
  • 发布时间:2021-12-23
  • 访问量:0

大算力时代, 盘点层出不穷的“XPU”

【概要描述】

  • 分类:行业洞察
  • 作者:
  • 来源:
  • 发布时间:2021-12-23
  • 访问量:0
详情

大数据、云计算、人工智能等技术的发展离不开强大算力的支持,而算力又是依附于各种硬件设备的。随着大算力时代的持续推进,不同厂商为了适应不同的垂直场景,抛出了各种各样的芯片,于是有了市场上令人眼花缭乱的各式“XPU”,今天我们就来盘点一番。

GPU:并行运算,带来图形处理新时代

 

CPU遵循的是冯诺依曼架构,即存储程序、顺序执行。一条指令在CPU中执行的过程是:读取到指令后,通过指令总线送到控制器中进行译码,并发出相应的操作控制信号,然后运算器按照操作指令对数据进行计算,并通过数据总线将得到的数据存入数据缓存器。因此,CPU需要大量的空间去放置存储单元和控制逻辑,相比之下计算能力只占据了很小的一部分,在大规模并行计算能力上极受限制,而更擅长于逻辑控制。为了解决CPU在大规模并行运算中遇到的困难,GPU应运而生,GPU全称为Graphics Processing Unit,中文为图形处理器。为什么GPU特别擅长处理图像数据呢?这是因为图像上的每一个像素点都有被处理的需要,而且每个像素点处理的过程和方式都十分相似,也就成了GPU的天然温床。

CPU、GPU架构对比

 

从架构图能很明显看出,GPU的构成相对简单,有数量众多的计算单元和超长的流水线,特别适合处理大量的类型统一的数据。但GPU无法单独工作,必须由CPU进行控制调用才能工作。GPU就是用很多简单的计算单元去完成大量的计算任务,这种策略基于一个前提,就是各任务间是相互独立的,没有什么依赖性。但有一点需要强调,虽然GPU是为了图像处理而生的,但它在结构上并没有专门为图像服务的部件,只是对CPU的结构进行了优化与调整,所以现在GPU不仅可以在图像处理领域大显身手,它还被用来科学计算、密码破解、数值分析,海量数据处理,金融分析等需要大规模并行计算的领域。

TPU,专业从事机器学习的ASIC

 

TPU(Tensor Processing Unit, 张量处理器)是谷歌专门为加速深层神经网络运算能力而研发的一款芯片,其本质上是一款ASIC。原来很多的机器学习以及图像处理算法大部分都跑在GPU与FPGA(半定制化芯片)上面,但这两种芯片都还是一种通用性芯片,所以在效能与功耗上还是不能更紧密的适配机器学习算法,在此需求驱动下,一款专用机机器学习算法的专用芯片TPU便诞生了。

 

TPU可以提供高吞吐量的低精度计算,用于模型的前向运算而不是模型训练,且能效更高。相比GPU,TPU更加类似于DSP,尽管计算能力略有逊色,但是其功耗大大降低,而且计算速度非常的快。然而,TPU,GPU的应用都要受到CPU的控制。据统计,TPU与同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。TPU能做到如此之快主要是因为(1)深度学习的定制化研发:TPU是谷歌专门为加速深层神经网络运算能力而研发的一款芯。(2)大规模片上内存:TPU在芯片上使用了高达24MB的局部内存,6MB的累加器内存以及用于与主控处理器进行对接的内存。(3)低精度 (8-bit) 计算:TPU的高性能还来源于对于低运算精度的容忍,TPU采用了8-bit 的低精度运算。研究结果表明,低精度运算带来的算法准确率损失很小,但是在硬件实现上却可以带来巨大的便利,包括功耗更低、速度更快、占芯片面积更小的运算单元、更小的内存带宽需求等。

 

TPU芯片布局图

 

到目前为止,TPU已经干了很多事情了,例如机器学习人工智能系统RankBrain,它是用来帮助Google处理搜索结果并为用户提供更加相关搜索结果的;还有街景Street View,用来提高地图与导航的准确性的;当然还有下围棋的计算机程序AlphaGo! 

VPU,专业的视频处理专家

 

VPU(Video Processing Unit,视频处理单元)由ATI提出,是一种全新的视频处理平台核心引擎,具有硬解码功能以及减少CPU负荷的能力。另外,VPU可以减少服务器负载和网络带宽的消耗。VPU上的大多数视频硬件模块都为了针对不同的视频标准间的共享进行了优化设计,能够提供额外的低功耗和性能强大的低口数。

 

随着多种高速高性能处理器技术的发展,视觉处理有了更多的可选平台。可编程逻辑阵列(FPGA)基于硬件可编程方式进行处理;嵌入式应用处理器(AP)可集成多种专用协处理器辅助处理;具有专用IP的单片系统(SoC)则可以直接将硬件处理单元植入系统平台。然而,在视觉处理新的市场环境下,对性能、功耗、价格和尺寸的更高需求对处理器提出了更加严格的要求,因此,视频处理平台VPU成为一种全新的核心引擎。本质上,VPU也是一个SoC,内部集成有多个主控RISC的CPU、许多硬件加速器单元和矢量处理器阵列,专门为视觉海量像素设计的高性能影像信号处理器(ISP),以及丰富的高速外围接口。在保证强大性能和功能的前提下,VPU采用更先进的集成电路工艺,大大缩小了芯片的尺寸,并结合有效的技术手段,降低各个运算单元的功耗。因此, VPU在视频处理领域形成了自己独特的竞争优势,并广泛赢在了云端服务器上。

 

此外,不同公司根据自身产品特点以及使用场景还相继提出了:

 

APU -- Accelerated Processing Unit, 加速处理器,AMD公司推出加速图像处理芯片产品。

 

BPU -- Brain Processing Unit, 地平线公司主导的嵌入式处理器架构。

 

DPU -- Deep learning Processing Unit, 深度学习处理器,最早由国内深鉴科技提出;另说有Dataflow Processing Unit数据流处理器, Wave Computing 公司提出的AI架构;Data storage Processing Unit,深圳大普微的智能固态硬盘处理器。

 

HPU -- Holographics Processing Unit 全息图像处理器, 微软出品的全息计算芯片与设备。

 

IPU -- Intelligence Processing Unit, Deep Mind投资的Graphcore公司出品的AI处理器产品。

 

NPU -- Neural Network Processing Unit,神经网络处理器,是基于神经网络算法与加速的新型处理器总称,如中科院计算所/寒武纪公司出品的diannao系列。

 

RPU -- Radio Processing Unit, 无线电处理器, Imagination Technologies 公司推出的集合集Wifi/蓝牙/FM/处理器为单片的处理器。

 

WPU -- Wearable Processing Unit, 可穿戴处理器,Ineda Systems公司推出的可穿戴片上系统产品,包含GPU/MIPS CPU等IP。

 

XPU -- 百度与Xilinx公司在2017年Hotchips大会上发布的FPGA智能云加速,含256核。

 

大潮褪去,才知道是谁在裸泳。尽管各式各样的“XPU”概念在市场上掀起一阵又一阵热度,但真正决定概念生命力的,还是其内核产品力,即是否真正解决了现有产品在特定场景下的使用痛点,是否建立起了其他处理器难逾越的技术壁垒,是否真正让技术衍生出广阔的经济与社会效益。随着算力、功耗、成本对处理器的综合要求越来越高,哪些处理器能够成为下一个“GPU”般的存在,哪些只是昙花一现,凯联资本将继续锐化产业视角,持续追踪解答。

关键词:

扫二维码用手机看

在线搜索

搜索
搜索

凯联资本   专业成就信任