SDS 2.0时代进化
达尔文的《进化论》认为,地球上现存的所有生物都是自然选择的结果,生物只有适应环境的变化,才能得到生存和进化。
回望到企业存储,一个常做常新的行业,从上古结绳记事到竹简刻字,从殷墟甲骨文到蔡伦造纸,从传统存储到软件定义存储…事实上,数据一直在进化,存储也在持续的迭代进化。
正如同,当我们正在谈论软件定义存储加速替代传统存储的话题时,殊不知,一场关于软件定义存储的2.0时代进化早已开始。
1“江山代有才人出,各领风骚数百年”
将时间指针拨回到2013年以前,用今天的时髦话说,那时候的传统存储,尤其是高端存储,那就是“高端大气上档次”的化身,软硬一体,且多为定制化设备,高性能高可靠的同时,同样少不了高昂的价格,主要应用于核心场景。
传统存储的架构以机头控制器为核心,从双控到16控,Scale-up垂直扩展,无法线性扩展。主存以HDD机械硬盘为主,通常使用内存Cache+BBU进行加速。容量多从几十TB到几百TB,有些高端的能到PB级。
磁盘和容量可以通过增加JBOD(Just a Bunch Of Disks,磁盘簇)来增加,但会受限于机头的性能瓶颈。产品主要以SAN和NAS为主,同样也出现了SAN+NAS的统一存储方案。
图片来源网络
着互联网和云计算时代的到来,超大规模和“秒杀”在很多行业中成为常态,超大容量、快速变化的IO需求,对存储设施的弹性扩展、简便运维以及更低的TCO成本,都提出了更高要求。而传统存储的紧耦合特点,烟囱式架构,以及高昂的价格,无法满足企业的发展需要。
这一时期,基于分布式架构的软件定义存储(Software Defined Storage,SDS)开始“登堂入室”,而且随着万兆网络和SSD固态硬盘技术的逐渐成熟,进一步为传统的集中式架构向分布式架构演进提供了基础。
2012年,VMware首次提出了软件定义数据中心(SDDC)的概念,作为VMware软件定义数据中心五大组成部分(计算、存储、网络、管理和安全)之一,软件定义存储的概念首次被提出。
2013年,Gartner发布2014年十大战略技术中,便包含了“软件定义一切”。Gartner认为:软件定义一切囊括了在基础设施可编程性标准提升下不断增长的市场势头、由云计算内在自动化驱动的数据中心互通性、DevOps和快速的基础设施提供等。
2015年前后,国内一大批新兴的start-up公司投身这一赛道,同时传统存储大厂也开始加紧在这一领域的研究。从技术路线来看,开源成为当仁不让的主流,而Ceph又是其中的绝对热门。
Ceph最早作为加州大学圣克鲁兹分校的Sage Weil的博士论文研究项目,是一个遵循自由开源许可(LGPLv2.1)的分布式存储系统。Ceph的主要目标是提供高可扩展性和提供对象存储、块存储和文件系统的存储机制,是一个高扩展、高容错、高一致的开源分布式存储平台。
无论是开源版本还是基于Ceph的商业化软件定义存储版本,在中国市场都得到了较多应用,尤其是与OpenStack成为了“最佳CP”。而企业存储在这一时期的进化和分布式转型,我们可以称之为软件定义存储的1.0时代,归结来看有如下核心特点:
1、计算和容量都支持Scale-out横向扩展,存储集群容量和性能可以随着扩容线性增长;
2、软硬件解耦,可以使用通用服务器作为存储服务器,解除硬件绑定;
3、分布式架构决定了存储系统可以按照资源池化管理,系统可以根据实际的容量性能需求进行部署,同时伴随需求的变化进行快速的部署扩展。
2“数风流人物,还看今朝”
今天,企业的数字化转型正加速迈向“数据红利”时代,企业对数据的认知和数据的利用超越了以往任何一个时代。软件定义存储1.0使得用户从边缘到准核心再到部分核心业务,都可以得到支撑,一定程度上推动了企业基础架构的现代化转型。但是,作为上一个十年的技术产物,由于技术架构上的先天不足,面对企业需求的新变化,逐渐“难以招架”。
第一,混合多云正在成为企业当下以及未来实现数字化的最佳选择。调研显示,超过八成的企业已经开始在多云环境中开展运营,其中,超过四分之三的受访企业表示,他们正在使用至少2-15个云平台。存储系统需要为用户提供面对混合多云异构环境下的一致性体验,确保数据在多云环境中自由流动,真正就绪跨越“边缘-本地-多云”的基础能力。
第二,边缘计算的兴起,意味着企业将管理更多的动态数据,存储设备将要求更接近计算,并最终提供计算功能。IDC预测,到2025年,44%的数据将在核心和边缘创建,届时,全球将近80%的数据将存储于核心和边缘,这一数字在2015年仅有35%。边缘将要求能够存储关键数据并进行分析,以应对终端交易和时延敏感性的服务请求。
第三,目前主流的SDS产品架构由于诞生的年代,决定其基于HDD或者HDD+SSD Cache来设计,整个软件栈非常厚重且冗繁;针对目前一些新的高IOPS、低时延的存储硬件比如NVMe SSD,SCM等,软件定义存储1.0的架构无法发挥出来其性能优势;而从网络侧来看,软件定义存储1.0架构对于目前有着更高性能的RDMA网络,无法将其价值完全发挥出来。整个集群的性能区间大约为:从几万到几十万IOPS,端到端平均时延都是毫秒级别,峰值时延可能到分钟级,完全不能覆盖高性能业务场景的需求。
第四,目前大部分SDS产品采用开源平台进行构建,在自主可控方面存在风险,而且过时、复杂的技术栈设计,让系统的整体效率和性能受到限制,不能最大化发挥分布式架构的优势。另外,由于架构和工程实现带来了横向扩展的瓶颈,全系统并不能真正做到无限的Scale-out。
第五,“云原生”技术正在加速企业数据中心变革。IDC预计,到2022年,90%的新应用将采用微服务架构,35%的生产环境应用是云原生。企业存储需要适应全面云化的IT基础设施的特征和要求,利用云的弹性敏捷的特点,让企业业务的迭代、交付和创新变得更快。
第六,现代企业组织的CIO们逐渐意识到,必须摆脱过去“以流程为中心”,转向“以数据和应用为中心”构建下一代数据基础架构,让数据真正服务于企业创新和创造利润。对于存储设施而言,不仅需要考虑如何存好的问题,对数据的全生命周期管理都需要通盘的考量,数据从何来、去何处、怎么管、什么类型、如何用、什么价值,都会成为企业存储设施的基础技术栈与能力。
基于上述,下一代SDS呼之欲出。并且,关于理想中的下一代SDS,业界开始形成了一些共识:
1、迫切需要设计新一代分布式存储引擎,在TCO成本可控的前提下,性能、可靠性、自动化运维等达到量级飞跃。例如,在性能输出上可提供微秒级延迟以及百万甚至千万级的IOPS能力。
2、具备面向高IOPS、低时延的新一代存储介质的扩展能力,能够与硬件技术革新保持同频。
3、支持跨越本地数据中心到边缘以及多公有云的数据自由流动,全面拥抱云原生,真正实现数据“生于云上,长于云上”。
4、支持全系统几乎无限的Scale-out横向扩展,以及支持完整的访问协议和对全业务场景的覆盖。
5、能够站在数据的“第一视角”,通盘考量南向数据存储和北向数据服务。
3“柳暗花明又一村”
第三方分析机构Wikibon认为“面对传统企业级客户的下一步云化,最终主导模式是将云移动到数据上,而非将海量数据移动到中心云上。”也就是说,将云的能力推送到企业将变得至关重要。
从传统存储到软件定义存储1.0再到下一代SDS,我们看到云的体验和技术能力正加速落地到企业。
事实上,目前我们已经观察到了一些接近下一代SDS特征的产品和服务,例如阿里云pangu2.0同期推出的第二代存储引擎,也正基于类似的设计思想完成了产品的整体迭代。
领先的数据基础设施整体解决方案提供商——ExponTech公司(华瑞指数云科技)目前正基于自研的全新一代分布式存储引擎,推出了混合多云数据平台(Hybrid and Multi-Cloud Data Platform),其与下一代SDS的特征高度契合,目前产品已经开始投放市场,并在多家客户处进行联合测试,更多的技术细节后续将对外披露。