×
新网 > 主机-资讯 > 正文

ODCC副主席阿里巴巴集团基础设施事业群首席架构师兼IDC研发总经理高山渊:从去IOE到新基建

  • 作者:zccc
  • 来源:网络
  • 2020-09-16 09:28:43

很荣幸今天跟大家能够做一个这样的分享,这个演讲实际上想跟大家一起回顾一下阿里巴巴这么多年来在基础设施领域的发展思路、关键技术的背景。为什么叫从去IOE到新基建呢?大

很荣幸今天跟大家能够做一个这样的分享,这个演讲实际上想跟大家一起回顾一下阿里巴巴这么多年来在基础设施领域的发展思路、关键技术的背景。为什么叫从去IOE到新基建呢?大家也知道阿里在很多年以前,我们严格意义上来讲不是以技术著称为主的公司,大家提到阿里业务做的很成功,大家对阿里的技术特色不是那么明显。但是从去IOE开始,阿里真正确立了自己技术公司的品牌,今天说阿里是一个技术公司,没有人会怀疑。

所以我们为什么来看为什么是这样的机遇奠定了阿里今天的这样的地位?我们说去IOE的初衷,不是说阿里那时候想的很清楚今天做成技术公司,那时候基于成本优化的考虑。当阿里巴巴业务,特别是淘宝业务蓬勃发展的时候,我们遇到成本挑战,我们构建电商系统的时候,发现每年成本支出是难以承受的代价。为了优化这样的代价,那时候我们部门主管刘志锋同学说,我们要在2010年阿里巴巴不购买小型机,这句话被我们当时的王坚博士说,如果2010年可以不购买,以后是不是可以永远不购买,所以2010年起,不再购买小型机,以后没有购买小型机的念想,用其他方式来替代。

当然这件事情做的过程里面,我们发现它的好处不仅仅是一个成本优化,给我们带来了很多的业务发展的可能性,还有我们的技术机遇。可以想象如果今天仍然用传统的架构,阿里巴巴没有办法支撑双十一巨大的流量,特别是前几年每年的流量都是近10倍增长的情况下,所以正是因为我们有了这样的技术积累,才能让整个阿里的技术蓬勃发展,业务蓬勃发展,给了我们成为一个技术公司的技术机遇。

基于这样的技术机遇,怎么样演进基础设施,是一个很大的挑战。首先要讲的基础架构如何支撑业务的发展,我们的技术与资源如何掌控,我们利用率、运营效率如何提升,才能让整个阿里的业务持续的发展。今天可能这些问题,还是困扰着很多公司发展的一些要命的因素。

我们可以看,首先我们看对于基础设施层面的理解,首先是从迭代周期到生命周期,我们知道业务是很灵动的,每一项业务的研发快则几周,慢则几个月要发布上线,特别是在今天竞争非常激烈的情况下,但是对越偏底层的基础设施,迭代越慢,IDC研发都是以好几年记,像今天阿里发布的巴拿马项目,从科研调研到最后公布到ODCC跟大家一起共享,也经历了差不多5年的时间。

怎么样在这样天然的业务发展周期不平衡情况下,我们做好这样的业务迭代,最后达到高性能、大规模可扩展,这是非常有挑战的事情。我们定了基本的原则,从数据中心开始做大规模可扩展,网络结构非常简单,服务器性能好,而且模块化,可以组合不同的形态来满足业务的发展,最后所有的这些东西我们靠智能化运营手段把它提起来。

今天我们讲讲以这样的思路来看阿里在这样的演进里面,以IDC为代表是什么样的。阿里云经过前几年云的数据,我们交付了5大数据中心,刚刚获得5A认证的杭州数据中心,以及乌兰察布等等,每个数据中心有每个数据中心的特点,但是我会基于过程当中怎么演进到这一步以及未来的演进路线,来告诉大家IDC怎么看这件事情。

传统上阿里的数据中心跟大多数企业一样,从租用起家,租用的时候有什么样的技术就用什么样的技术,比较传统的UPS、风冷空调技术。这个阶段整个的PUE也是比较差,平均在1.8左右。我们进军到云计算、业务发展的快车道也好,我们实际上认为数据中心未来是阿里的核心竞争力。在这样的情况下我们尝试着深入到这样的领域,我们开始合作定制的事情,包括我们推出的高压直流、市电直供,以及自然水冷,包括标准架构,这时候PUE也有了比较大的优化,达到1.3-1.6水平。这是我们技术积累的阶段。有了相关的技术积累之后,我们要解决的问题还是前边讲的大规模可扩展怎么去做,所以我们在全国布局了5大超级数据中心。这些超级中心核心解决的是资源的掌控度,能够满足阿里业务未来的可持续发展的资源需求。在具体每个数据中心选址的时候,我们考虑能源是否绿色,是否能用全自然的风能,我们的业务演进对功率密度提出了很高的要求,所以怎么做高功率密度的支撑,也是今天深度思考的一些问题。

面向未来,阿里有志于作为社会的基础设施,作为基础设施的基础设施,也就是今天火热的新基建,我们怎么进一步提升基础设施的能力,提升阿里这方面的竞争力,要做的事情蛮多的,包括已经发布的浸没式液冷,还是方升服务器,都是我们一体化优化的一部分。这里面需要深度做的一个领域就是技术的白盒化,包括技术、设备、运营自动化等等层面,还有就是智能化。所以这一页跟大家大致讲一下,我们在IDC技术里面除了模式变化以外,架构的演进、设备演进、运营能力的演进,也是我们认为非常重要的几个方面。

大概讲一下我们的技术演进,我们尝试了很多的技术,包括千岛湖水冷,在张北、乌兰察布,还有浸没式液冷,这些技术都有很大的挑战。比如说全新风自然冷却,虽然中国张北跟乌兰察布这一代天气空气质量相对比较优,但是仍然有一些极端天气,比如说雨天,湿度极度变化,会对服务器造成很大的损坏。。下边是关于供电方面的一些演进,我今天不做展开了。

还有架构设计好的之后要落地的时候,依赖于设备的能力。这个设备一方面业界已经有非常多标准的产品,比如说标准的UPS也好,标准的HVDC,虽然我们是定制,但是今天已经标准,还有制冷等等。但是标准产品集合到系统的时候,对技术掌控的深度,是不是能满足安全性、稳定性、效率的影响,是一件非常有挑战的事情。阿里每年会做大量的工作在这个层面发布两次设备白名单,把那些优秀的产品选进来,把一些不符合我们产品的要求剔除出去。

除了用业界标准产品之外,我们大力做自研产品,比如说巴拿马技术,再比如说我们的液冷,不管是从炭烤还是到液冷,都是非常有挑战的一件事情。今天来看整个液冷,在阿里相当大规模已经布局,包括业态,与服务器配合、液体的成本,需要大家共同努力降低的一个地方。包括我们为了提高整个的交付效率、运营效力,做的机器人还有整机柜,都是很重要的一个方面。

还有一个层面就是运维,实际上今天来讲数据中心运维是越来越重要的,数据中心从选址到建设一般也就是两年的时间建成投产,但是运营的生命周期可能是10年、20年,中间还要更新迭代,实际上运维期的工作,首先占生命周期的时间比重比较大,第二真正决定了数据中心的很多稳定性的问题。就是架构设计的再好,但是运维不上心的话,仍然会运维出一个非常大的数据中心。还有就是效益,设计再好,运维不做精细化管控,很多设计效果不能达成。所以这个角度来讲阿里在智能运维层面也做了补很多的工作。还有包括单个数据中心能支持两三万台服务器,但是要支撑200万、500万台服务器的时候,数据中心规模相当大,你怎么做到准确及时,及时发现问题的根源,都是非常有挑战性的事情,阿里在这方面投入巨大的精力来做这样的事情。大家看这几张图,包括PUE优化,还有全球的运营状况等等。

前边主要以IDC领域为主要的结束,整个基础设施是一体的,在IDC演进过程里面,我们必须要跟服务器跟网络协同。所以今天很荣幸的看到阿里做的方升服务器已经成为ODCC开源标准,有很多同仁参与到这个项目里面。所以今天阿里的服务器也是经历了跟IDC差不多的过程,我们从OEM、ODM,到今天开源,引领这样的潮流,也是服务器研发团队投入了非常多的精力来做这样的一件事情。

还有网络,如何做到一个网络的高性能、可扩展,实际上也是非常有挑战性的。网络同样也经历了纯商用、定制到自研的过程。纯新一代的是HAIL,兼顾高可靠性,又要兼顾低时延,是非常大的挑战。比如说今天以阿里巴巴数据中心园区可能是10万台大规模数据园区,我们用一套来覆盖,这是非常大的一个挑战。光有这个架构也是不行的,对吧,像数据中心一样,有了这个架构,还得要可落地技术,包括自研交换机、自研芯片、光模块、光互联,以及我们的软件,都是非常重要的组成部分。

最后阿里云我们有志于成为数字经济时代的基础设施的提供者,欢迎大家跟阿里云一起共建整个中国新基建的未来。谢谢大家!

  • 相关专题

免责声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,也不承认相关法律责任。如果您发现本社区中有涉嫌抄袭的内容,请发送邮件至:operations@xinnet.com进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

免费咨询获取折扣

Loading