日志样式

阿里巴巴基础设施挑战与芯片策略

首要,咱们服务器从10万到100万,当然今日还没有哪家公司有1000万规划的服务器,千万级规划遇到的应战必定是不相同的。当在线出产服务器抵达10万的时分,一定要考虑在百万级的时分应该遇到什么样的应战;相同,当抵达百万级的时分,就要考虑千万级将遇到什么样的应战,技能应战和运营应战都是什么,这些都是需求值得咱们考虑的。

从技能上简略讲一下,咱们一定要考虑技能竞争力。首要技能要有先进性,别的还有考虑TCO的本钱,假如不考虑本钱问题的话,必定不或许大规划运用。没有大规划运用的话,就以为是技能的自嗨,所以在这儿考虑的作业就比较多了,比方考虑大规划的在线管控,必定不或许人工办理而要高度的主动化,这就或许带来很大的危险,一个bug或毛病很或许就会被扩大,究竟要怎样做,咱们或许许多时分就会疏忽供应链。

今日阿里巴巴在全中国的一年新增服务器,占到全中国添加服务器10%以上的时分,能够想一下一年添加几十万台服务器是什么概念,或许几天之内就要有多少万台的布置,供应链就会带来应战。

咱们从前有过阅历,服务器或许要两三个月才干到货,因为用量大,不是几百台、几千台。现在根本上从开端下单到最终能够用,10个作业日就能够悉数搞定了,这是咱们以为比较经济的时刻。

这儿其实有十分多的技能考虑,包含怎样经过算法做好猜测等,包含运维管控中呈现的毛病、怎样处理用户的期望等。

咱们都知道,今日云的客户最期望不论基础设施,只管做好事务就能够了。不论是什么概念呢?便是说这个设备永久不要换,潜台词便是永久不要呈现一个毛病,最好让客户不知道,但很明显是不太或许的。

别的,资源永久是需求的时分就要有,最好不要告知客户说服务器没有了、资源没有了、数据中心没有了等等,这个其实也很难做到。

站在咱们的视点就要考虑这么多的应战。

相同,回到今日的论题“算力”,咱们都在讲摩尔定律遇到的应战,核算力是未来。我作为一个基础设施的技能研制、规划作业者,以为核算力绝对不仅仅是核算力,它涉及到核算、存储、互联,涉及到数据中心怎样进行有效地结合。

今日阿里巴巴作为互联网企业,更多体现在整个集群上要考虑的作业,就特别多了。比方咱们今日都在做异构核算GPU、NPU,这些算力怎样与CPU进行调配是最合理的?

相同,今日许多的数据在核算时需求转移,转移数据的时分一定会遇到带宽等问题,也要考虑到转移数据的进程是否介意延时。

像今日做存储,假如是分布式存储,很明显需求集群网络的功能,这时分网络延时就很重要了,咱们都知道TCP/IP协议不太合适低延时,那就要考虑究竟是要运用现有的低延时网络协议如InfiniBand、RDMA,或是今日自研一个低延时的网络协议,包含拥塞操控的算法,这些都是十分有技能含量的。

运用中还遇到一些问题,比方今日的互联网公司期望做一个10万台规划的服务器集群,因为它可扩展、运用率高,相当于能够供给许多资源。

网络人员会说,数据中心只需能够承载这么大规划的服务器,网络都能够搞定;而数据中心人员会说,只需网络能搞定,其它都没有问题。

但真实要做的时分,遇到的问题就十分多了。比方从数据中心来讲,最简略想到的是供电,还要考虑每一个机柜多少千瓦最合理。相同,对网络来说,网络设备本钱现已占到50%以上,这时分就要考虑究竟是悉数用相对比较贵重的长距模块,仍是经过布置让网络设备愈加合理,用的模块间隔更短一些、本钱更低,整个TCO更有竞争力、每个端口的本钱最合理,这些都是需求考虑的。

接下来,简略讲一下阿里巴巴在这些范畴里做了哪些作业。

首要,算力方面,平头哥供给了NPU芯片。相同,作为一个互联网公司,大多数时分在基础设施里仍是会运用合作伙伴的技能,因为要点在于全体架构、整个体系规划,怎样获取最高的才能。所以,咱们也会定制化,包含FPGA。今日阿里巴巴在查找事务上,曾经的查找用的是GPU,而GPU相对比较贵重,咱们在查找事务用FPGA进行卸载,其实十分不错,但仅有一点便是或许常常会有算法的改动。咱们都知道,算法一旦变,做个FPGA、RTL,虽然比ASIC要快,也得花两三个月的时刻。这时分咱们做了一个编译器层,包含专有的指令集,把一些根本算子先写好,当算法有变化时经过编译器就能够快速地运用新算法。

这样的话,就能够从曾经的两三个月,很快缩短到几天的时刻,其实实际中乃至不到一天或半响就搞定。

讲一下衔接,衔接其实贯穿了整个数据中心。从芯片来讲,服务器总线协议、机柜级衔接、集群衔接等,都需求做十分多的作业。

今日讲一下从节点到集群的作业,中心是今日发布的自研400G DR4硅光模块,硅光模块到今日为止还没有发布400G的。硅光模块有十分大的长处,比方把比较大的光器材做成硅光芯片,这样就能让硅光芯片象集成电路相同,能够快速地规划而且制作,体积愈加小而且本钱在大规划出产之后会下降,但应战十分大,包含技能和生态链条上的应战。假如做光芯片的,必定会十分知道这儿面的艰苦,但阿里巴巴做了而且做成了。咱们今日发布今后,大规划运用或许会在下一年的下半年。

再往上是DCI通讯,再往上讲一下网络集群,其实是用自研的交换机和OS来组成新的HAIL 2.0集群架构,这个集群架构扔掉了以往的商用交换机架构。

商用交换机中心是机架式中心交换机,咱们悉数是自研的交换机,自研NOS的优点是规划能够做到很大,能够做到10万台规划以上的集群,相同扩展才能也十分高,便是扩展十分便利。再者比较智能,能够像服务器相同来办理交换机,所以能够主动化的上线。

根本上咱们的网络便是主动上线、主动改动,遇到毛病时根本上完成的是3分钟康复,便是1分钟发现毛病、1分钟定位、1分钟康复,这在传统网络设备里仍是十分大的应战,但正是因为咱们今日做了这些作业,才有了这样的一个成果。

再讲一下存储,上一年咱们发布了AliFlash V3版别,自研的SSD也支撑了Open Channel的SSD,本年现已大规划用上了。支撑Open Channel SSD的优点是经过本地的存储软件,能够直接对SSD进行愈加底层的操作,功能更好。相同,AliFlash V5.0也在研制中,会做一些净数据的存储和核算。

相同,咱们在服务器范畴里也做了从部件到整机服务器架构优化的规划,这是新一代的云服务器玄武,它其实也是一个模块化规划,便是在服务器硬件层面是模块化的,能够自由地组合、拼装,经过不同的拼装之后能够满意不同需求,比方不同标准的核算或存储服务器,从硬件层面都比较便利。

相同,咱们也做了边际云服务器,首要意图是为了快速交给而且快速上云。

方才讲到了存储、核算、衔接,还有一个很重要是数据中心,阿里巴巴在数据中心一向做了许多探究,前两年在千岛湖里做了一个从湖底抽水制冷的数据中心,它的优点是比较环保和节省本钱。咱们在张北也做了新风天然冷,也是十分环保和节省本钱的,但张北还做不到365天,因为有时分与空气质量有联系,因而差不多有300天以上是天然风冷功能。

因为今日数据量越来越大,数据处理也越来越杂乱,芯片功耗也越来越多,咱们都面临着功耗应战,这时分就要求单机柜的功率密度,乃至有时分要求高功率密度的机柜,所以咱们研制了浸没式液冷的数据中心,今日现已在张北布置了世界上最大规划的浸没式液冷数据中心,咱们行将布置在杭州的差不多有两三万台规划的浸没式液冷数据中心。不仅仅是功耗问题,咱们也在考虑怎样能够把浸没式液冷作为普世性的数据中心。

回到算力问题,架构会带来十分大的改动,会带来E级核算才能,事实上咱们也经过各个团队的尽力做了512片的练习集群。咱们在数据中心范畴,在低延时网络、核算、存储、编译器、AI算法等尽力下,这个集群取得了很大的作用。

举个比方,比方曾经做的拍立淘,之前做一项练习或许需求花两周,而用这个集群或许几十分钟就能搞定了。相同,曾经咱们做不到100万的分类,今日用这个集群就做到了这么大规划的分类。

总结下来看,核算才能线性的添加是有技能含量的,这个技能含量是需求各个专业深度合作,而且这是有事务价值的,体现在两个方面:一方面,曾经需求花很长时刻,今日能够很短的时刻搞定,让事务快速迭代,特别互联网快速迭代事务、快速试错十分重要;另一方面,曾经做不到的作业现在能够做到了,比方Google发布了一个模型,许多本来根本就无法算,但对咱们来说就不是问题。中心便是一点,核算才能线性增加是有技能含量的,也是有事务用处的。

今日咱们团队供给的不仅仅是技能,还供给的是出产7×24小时服务,意思是说不仅仅是供给设备,也不仅仅是供给技能自身,而是要供给用于出产的服务。这时分就要管控了,咱们做了一个数据中心大脑,干了什么作业呢?首要,是对服务器、网络、机电设备等进行很好的管控,从交给到事务处理,一旦有了毛病能够快速康复,从最开端人工到数据化,从数据化到主动化,从主动化到智能化。其次,是数据中心日常运维现场人员的办理,IT人员、电力设备人员、空调制冷人员等,怎样进行日常作业、做哪些作业,这时分让数据中心大脑供给决议计划辅佐,供给最优决议计划。举个供应链比方,经过智能算法做好准确的猜测,让整个交给准确率很高。

最终,回到今日的主题,阿里巴巴基础设施和芯片战略,芯片十分重要的,没有芯片的硬核核算才能,实际上很难有这么一个未来。

可是要把芯片才能完美地发挥出来,需求各个专业才能包含架构才能等。一起,阿里巴巴也不是一切作业都自己做,咱们也深信不论从运用到体系仍是部件到芯片,也要有合作伙伴一起来发挥各个专业才能,然后取得整个体系最优的架构。

最终讲一下,一切这一切都是在客户需求的价值驱动下做的。有必要回到咱们做的作业究竟对客户的价值是什么,处理客户的痛点究竟是什么,不然一切都是技能自嗨。回来,检查更多

责任编辑: