当前位置: 时代头条 > 正文

技术大揭秘:阿里双11“逆天”记录是如何做到的?

不用惊奇,今年的阿里双11再次打破了去年他们创造的交易记录,这显然是“没有最快只有更快”的鲜活例子。

根据对外披露的数据,承载在阿里云上的双11系统交易创建峰值在当天达到了每秒钟14万笔,支付峰值达到每秒钟8.59万笔。

技术大揭秘:阿里双11“逆天”记录是如何做到的?

这简直要“逆天”了!要知道,大家常用的全球性支付清算机构Visa最新的实验室测试数据是每秒5.6万笔,另一家MasterCard的实验室测试数据为每秒4万笔。而在实际应用中,Visa处理的峰值为每秒1.4万笔,阿里此次创造的支付纪录比Visa快大约6倍。

不过,在这些创纪录的数字背后,我更关心是的阿里云是如何实现这一切的,背后靠的是什么样的技术支持?同时,对阿里云乃至整个中国云计算市场而言,这些数字背后又蕴含着哪些实际的意义?

阿里云关键技术大揭秘

对每年的阿里双十一而言,最核心的诉求无外乎要保证“无故障,无漏单”。

这些需要应对的难题包括:超大流量的高并发实时交易如何顺利实现?对稳定性要求极高的数据库如何保证支付便捷和安全;不可预知的业务爆发或者出现系统宕机时,又如何保证整体系统的平滑过渡等等。

想一想这些难题,熟悉互联网或者企业级市场需求的同学,一定会感叹:实在是让人头大呀!不过,阿里云目前具备的全球最大混合云架构、金融级自研数据库Oceanbase、异地数据中心多活体系等由其自主研发的技术是实现上述难题的“关键钥匙”。

第一,全球最大混合云架构。从技术层面来看,今年双11成为了一场全球最大规模的混合云弹性架构实践。众所周知,过去整个天猫、淘宝以及支付宝都是架构在专有云的基础上,但是每年的双11都会产生不可预估的交易和支付峰值。

显然,如果为了峰值而不断增加专有云平台的软硬件和人力的投入,肯定是不经济也不环保的事情。因此,既要省钱又要省时间,公有云+混合云的组合模式自然成为了最佳的选择。

上云之后,阿里能够充分利用云的弹性优势,随时调度资源,而在双11之后,又能快速归还资源,避免高峰期过后的闲置浪费,真正做到了“无缝迁移”。

我想这个过程一定是很艰难的,因为企业中有系统订单、商品、交易、财务、支付等等,这些系统要全部搬上云是非常复杂的,但是阿里的团队毕竟做到了。

从目前看,阿里巴巴成为全球大型互联网公司中,首个将核心交易系统放在云上的公司,而阿里云也成为了全球第一家有能力支撑核心交易系统的云服务商。

第二,金融级自研数据库Oceanbase。今年双11期间,Oceanbase承担了支付宝100%的交易流量,在交易系统、支付系统以及会员系统中广泛应用,业务最高峰时满足每秒14万订单创建、8.59万支付交易。以交易系统为例,一天写入数据量高达10900GB,操作平均延迟0.62毫秒。

它有四大特点:首先,这是阿里完全自主研发的关系数据库,也是全球首个应用在金融业务的分布式关系数据库,OceanBase 2010年诞生,每一行代码都是阿里工程师完成的。

其次,具备金融级别的可靠性,和传统数据库相比,OceanBase使用Paxos协议。保证数据写到三台机器中至少两台机器,保证任意一台机器宕机都不影响系统稳定性。如今,其应用范围越来越广,今年6月网商银行开业时,其底层数据库全部采用OceanBase,是第一家完全摆脱商业数据库的金融机构。

再次,具备高性能的特点,在延迟方面做到极致。OceanBase在基线数据方面采用了SSD,在增删改数据方面采用了内存。同样实现10亿次写,OceanBase容量增加仅为100GB左右,而传统的数据库要完成10亿次写,则需要高达8TB容量。

最后,拥有更低的成本,和常用的商业数据库Oracle相比,OceanBase成本不到其一半。关键的是,分布式的系统可以更好地应对双11这类大流量冲击。

第三,异地多活数据中心技术。通过异地多活技术,系统可以迅速的把流量全部切换到另外的数据中心,整个过程不会对业务造成任何影响,用户也几乎没有感知。

这项技术可以理解为“为正在飞的飞机换引擎”。其关键特性如下:具备多个跨地域的数据中心;每个数据中心均承担用户的读写流量;同时实现多点写;关键的是,任意一个数据中心出现问题,其他数据中心均可分钟级接管用户流量。

这其中要解决的问题包括:远距离带来的延时、多点写带来的数据正确性和一致性。因此,阿里云的异地多活能力也经历了三年的磨练,在2013年他们采用了同城双单元双活;2014年实现异地(距离近)双活;2015年完全实现异地(距离超过1000KM)多活。

这意味着阿里云具备极强的水平伸缩能力,同时还具备极强的故障应对能力。不仅如此,这对推进业界数据中心灾备技术的演进具有很高的的参考价值。

可以说,阿里云异地多活技术的实现,是一项了不起的成绩。因为“双活”和“多活”改造中,阿里碰到的所有的问题都没有可参考的对象,包括开源软件都不涉足这个领域,异地多活也是阿里完全自研的技术。

当然,在上述三大核心能力之外,阿里还构建了应用于异地多活的数据传输产品DataTransmission、实时计算系统StreamSQL、数据可视化引擎dataV等产品也已经经过双十一验证,并将在不久之后实现对外输出。

阿里云技术创新的意义

阿里云资深总监李津说,“阿里从来没有想过做出世界纪录,也从来没有要做这么大的指标,之所以这么做也是被逼的。在中国,做IT、信息化技术或互联网,有信心是非常难的事情。”

显然,他说出了很多国内企业的心声,那就是技术实力的突破并不容易。因此,阿里云花费巨大的“心血”构建的这些核心技术能力,不仅仅体现了阿里云的技术实力。更重要的是,我认为对当下中国的企业级以及云计算市场有着更为特殊的价值,主要有三点:

第一,自主研发的突破和创新。最近几年,随着互联网的兴起,以阿里倡导的“去IOE”成为了热点话题,在很大范围内形成了一种公认的趋势,这是不能否认的事实。

与此同时,为了满足“自主、安全、可控”的未来发展要求,毫无疑问最重要的是核心环节的突破,而拥有核心自主知识产权一直是中国追求的目标,对核心环节的控制权也时刻影响着国家的安全。阿里一系列的自研技术,显然是实现这一目标的最好例证。

以数据库市场为例,目前中国绝大多数关键行业用户的数据库都被国外厂商所垄断,而垄断的市场造成了选择权和议价权的受限以及高昂的维保费用长期是头疼的事情。显然,阿里自研的OceanBase的出现,让用户在数据库上拥有了更多的自由选择权利。

第二,提升用户使用公有云的信心。国内不少企业为了能够获得良好的云计算基础设施服务,甚至不惜花高价购买美国云服务商的服务,如此舍近求远,实在没有必要。

众所周知,国内的公有云市场虽然与国外市场环境有差距,但通过阿里云的努力,已经迈出了坚实的一步。双11的成绩证明,核心业务迁移到共有云架构下是没有问题的。自2009年以来,阿里云累计的客户已经超过140万,但在如此大规模的市场下,我认为这一数字还有非常大的提升空间。

相信随着市场成熟度的不断提高,在不远的将来,国内用户的接受程度会远远超越全球的用户,也会有更多的用户会迁移到公有云平台上来。在这个过程中,作为中国云市场的领头羊,阿里在技术能力上的连续突破,具有重要参考价值。

第三,阿里“普惠经济”价值观的落地。此前,阿里云提出要在云计算平台之上构建中国未来商业的重要经济设施,也就是要实现“普惠经济”的基础环节。现在,阿里云通过双11的表现,证明了他们正在践行这一价值观的落地。

可以说,阿里云通过一系列技术实力证明,不管企业处于什么样的应用水平,都能轻松拥抱云服务,构建像淘宝、天猫、支付宝这样的大型分布式应用服务,快速实现业务创新、实现资源效率的最大化。

最新文章