谷歌的人工智能TPU发展迅速，影响力到底有多大？

2017-08-14 18:08

Giraffe编译

谷歌前段时间公布了其内部人工智能芯片的详细性能和功耗指标，这会对市场产生什么影响呢？

谷歌推出张量处理单元（TPU）已经一年有余，前段时间又发布了内部人工智能芯片的详细性能和功耗指标。该芯片在许多方面令人印象深刻，可以理解，谷歌并不打算将其出售给竞争对手，因此该芯片对行业会产生什么影响还无法定论。那么，究竟谁会从人工智能的这款忍者芯片中真正受益呢？谁又需要面对其增量风险呢？我认为答案是，每个人都会从中受益，没有人需要承担风险。下面我就来告诉大家原因。

什么是TPU，它如何堆叠？

谷歌几年前面临的挑战是，它预见到其计算需求必须急剧转变，才能支持机器学习工作负载。这些应用程序属于计算极度密集型，持续使用（英特尔）CPU的成本过高，不能满足数百万用户同步查询的快速响应时间要求。谷歌使用 NVIDIA GPU来训练底层神经网络，允许机器识别数据中的模式，并使用x86 CPU在神经网络中执行查询，这一步称为推理。训练用的大型GPU相当昂贵，这些推理机的工作量非常大。因此，谷歌决定开发一种成本更低、性能更高、功耗更小的芯片来处理这个工作。

谷歌的TPU固定在PCIe卡上，适用于标准的磁盘驱动器托架。每个服务器可以有多个TPU。（来源：谷歌）

谷歌前一段时间发布了详细的内部结构和性能数据，展示其劳动成果。可以理解，它将TPU与当时它还在用的NVIDIA和Intel芯片进行了比较，英特尔的Haswell已经是3代前的产品了，NVIDIA Kepler是2009年架构的，之后过了很久，才有人开始使用GPU进行机器学习。现在，NVIDIA公司CEO黄仁勋提供了基于NVIDIA PASCAL的NVIDIA最新一代芯片数据，让谷歌用于更新比较数据。与以前的比较结果相比，对目前这一代芯片进行比较后结果产生了极大的差异，NVIDIA原来的性能只有TPU的1/13，而现在的优势却是TPU的2倍，不过，NVIDIA的功耗是TPU的3倍。

NVIDIA GPU与谷歌TPU的性能和功耗比较。（来源：NVIDIA）

这两种比较的结果非常不同。P40具有很强的浮点，在训练中很有用处，内存带宽很大。TPU每秒处理90万亿次操作，几乎是GPU的2倍，但功耗却只占GPU的1/3 。请记住，参与测量的GPU只是PASCAL架构的一个示例； NVIDIA能够生产单一架构，以解决包括游戏、机器学习（机器学习训练和推理）、汽车和超级计算等许多不同市场的问题。GPU是可编程设备，本身就是通用加速器。另一方面，TPU的设计目的就是为了很好地完成一个任务：多张张量（整数矩阵）并行，代表用于人工智能机器学习中使用的（深层）神经网络。

但这两款芯片的相对表现并不是真的那么重要。我认为更重要的是谷歌证明了一个事实：要想在人工智能方面取得突破，就要求不管是通过GPU、FPGA，ASIC还是多核CPU都能达到真正的提速，如果要让人们负担得起人工智能，人工智能也能迅速对要求做出回应，就需要比传统的服务器CPU（英特尔 Xeon）快至少2个数量级。另外一点也很重要，处理机器学习的任务对于谷歌来说工作量非常大，它正在投资制造自己的定制芯片，来优化机器学习数据中心。我并不赞同许多博客上发表的观点，我认为这不是谷歌的一次性活动。

赢家和输家

那么谁能从TPU中受益，谁又会受到伤害呢？因为越来越多的服务将在TPU基础上运行，谷歌的机器学习服务用户将直接受益; 谷歌已将某些精选服务的价格降低了6倍，而TPU的使用也节省了开支。因此，谷歌胜在为云机器学习服务提供了更具竞争力的平台，并节省了庞大数据中心的资本支出和功耗。

TPU是否会对英特尔和NVIDIA等芯片厂商构成风险？我认为不会，至少不会立刻构成直接的风险。首先，今天的大多数推理工作都是由Intel Xeon CPU和 ARM CPU完成的，它们部署的规模比较适中。而谷歌仍在使用NVIDIA GPU来训练其神经网络，所以TPU并没有从NVIDIA的业务中抽走一大块。英特尔本来就没有提供谷歌所需的性能，所以这也不会对Intel产生什么影响。

其次，TPU只适用于谷歌的内部数据科学家和人工智能云服务用户。谷歌云平台仍然远远落后于亚马逊AWS和微软的Azure，居第三的地位，而亚马逊和微软都在其云服务中为机器学习应用程序提供NVIDIA GPU。展望未来，在某种程度上，谷歌会开发训练芯片，为其日益增长的人工智能产品组合进一步节省成本，对此我并不感到惊讶。同样，这只会影响谷歌用于自身目的的购买行动，而不会对全球另外6家最大的数据中心（亚马逊、阿里巴巴、百度、Facebook、微软和腾讯）的购买产生影响。当然，在更好的选择出现之前，这些数据中心将继续购买GPU和FPGA，用于自己的加速工作。

鉴于市场快速增长和对更高性能的渴求，我认为芯片厂商一定会推出专为机器学习设计的芯片。例如，英特尔正在完善去年8月份收购的Nervana引擎技术，很可能用于训练和推理目的。而且，我知道至少有四家创业公司，包括Wave Computing、NuCore、GraphCore和Cerebras，可能正在开发用于加速机器学习的定制芯片和系统。当然，这个领域竞争激烈，不断推陈出新，有利于市场上的每个人。

对于市场领导者NVIDIA来说，不太可能陷入困境。NVIDIA也可以在其专门用于机器学习的硬件中集成新技术，继续优化软件生态系统，与其它竞争者并驾齐驱。就在去年，NVIDIA为16位浮点数和8位整数值设置了精简矩阵运算的新标准，分别用于训练和推理。除了赛灵思之外，其他芯片厂商，在采用这种方法方面至少落后NVIDIA一年，这种方法可以把性能提高2-4倍，功耗降低2-4倍。

最后，NVIDIA的NVLINK互连仍然是支持超强可扩展的协同处理器的唯一可行的竞争对手。（IBM的OpenCAPI是唯一的替代选择，连IBM都同时支持这两款产品。）

结论

在互联网搜索操作和云服务产品中开发和使用机器学习算法和硬件方面，谷歌处于世界领先地位。从支持100多种语言的谷歌翻译到Google Now，再到构建在围棋比赛中击败世界冠军的人工智能，到处都有谷歌的身影。因此，理所当然它想投资可以让其软件发挥最佳性能的定制硬件。前段时间公布的性能参数和内部架构细节表明，它在设计加速机器学习的ASIC方面实力超群，TPU很可能预示着还会出现进一步挑战现状的其他设计。我确信其它大型互联网数据中心将会评估自己的类似努力到底有多少投资回报率，但是我怀疑他们目前的规模可能不足以支持一年1亿美元的开发投资。不过可以确定的是，机器学习和人工智能市场目前还处于起步阶段，未来几年硬件和软件方面将出现很多创新。