自动分层让混合存储发挥最大效益
2017-10-19 15:17 浏览: 次这是一个不平衡的世界,极少数富人占有绝大多数的财富、少数几家领导品牌厂商占有整个业界绝大多数的利润……,类似的,这种由80/20法则所描述的不平衡现象,在IT储存应用领域也是普遍的情况——储存设备的大部份效能,其实是由一小部份应用所消耗。这也是说:绝大多数的应用其实都不会耗去太多I/O效能,所以我们只需为那少数极耗I/O效能的关键应用,準备少量高效能储存装置即可,至于其他应用的储存需求,则可用便宜的低价储存设备来满足。
混合储存的效益——把高效能装置用在刀口上
从储存装置本身的特性来看,SSD效能高,但单位容量成本也高;传统硬盘单位容量成本低,效能也相对较差。
以80/20法则来看储存系统的配置,採用全SSD的配置是不合理的——由于实际上只有一小部份应用会需要SSD的高效能,不分应用紧要与否、一律给予SSD资源,显然不合成本效益;但传统的全硬盘配置也已逐渐不敷使用,传统硬盘虽然足以应付I/O需求不高的一般应用,但受先天架构所限,必须透过组成大规模阵列的笨拙方式,才能拼凑出关键应用所需的高I/O效能,为了一小部份关键应用的高I/O需求,往往必须耗费数十台甚至上百台硬盘组成阵列,即便满足了I/O效能,但也耗费了大量空间与电力,显然也不合乎效益。
因此为了兼顾效能与成本,同时使用SSD与传统硬盘的混合储存架构,才是当前IT环境最合理的做法,在储存设备中混用小比例的SSD(一般来说占总储存容量10~15%即可),即足以因应一小部份关键应用的高I/O需求,其余应用则透过传统硬盘来提供储存服务。
自动分层技术让混合架构真正实用化
就塬则来看,同时使用SSD与传统硬盘的分层架构,是最合理与最具效益的储存配置。但在实务上,这种混合架构将面对如何将各式各样的资料放置到合适储存层的困难。
理论上,我们可使用人工来进行分层储存配置工作,由MIS预判各主机应用程式的I/O需求,然后分别配置不同层级的储存资源,并视I/O运行状态的变化来调整储存资源配置。
然而这种人工调整储存资源配置的方式,对于个人端或极小规模的应用环境或许适用,但对于企业IT环境实际上是不可行的。
首先,企业环境规模庞大,储存系统必须服务数量众多的主机与应用程式;其次,各主机与应用程式的I/O需求会随时间而变化。面对数量众多、且会随时间变化的前端主机应用程式,为了让储存资源维持在最佳配置,将必须持续追踪各主机应用程式的I/O负载变化,并针对I/O负载变化,频繁地调整储存配置,这将带来非常庞大的管理作业负担,远超过人工作业所能负担的程度。
因此唯有透过自动化的分层储存与资料迁移技术,才能让分层储存架构真正步入实用化,由软体来执行I/O存取负载的追踪与统计工作,并依照预设政策或演算法,自动在各储存层间迁移资料,从而自动让整个储存资源的配置达到最佳化。这也就是说,如何「自动化」,才是分层储存的关键。
自动分层储存技术的4大面向
自动分层储存技术的塬理十分单纯,首先必须建立一个跨多个储存层的磁盘区,然后由一个I/O监控单元,追踪与统计磁盘区各区块的I/O负载,接下来再由一个资料搬移单元,依照各区块的I/O负载程度,定期执行资料迁移作业,将各区块放置到合适的储存层。
尽管塬理并不复杂,不过由于设计理念与储存基础架构互有差异,各厂商的自动分层储存技术在架构与运作方式上,也存在许多不同,我们可以透过储存分层的型式、分层作业的粒度、分层迁移作业的周期,以及管理政策权限这4个面向,来检视与比较各厂商的自动分层储存技术特性。
储存分层的型式
最基本的分层型式,是将储存装置简单地分为SSD与硬盘两层,如较早版本的IBM Easy Tier,以及普安ESDS 3000的Automated Storage Tiering,都是採取两层式架构。
只分为SSD与硬盘两层的主要出发点,是认为无论哪种转速的机械式硬盘,速度都远低于SSD,因此无需对硬盘类型再作细分,而且只分两层的话,分层判断与管理也会单纯的多。
不过就实际环境来说,尽管I/O效能均远不如硬盘,但1万转与1.5万转的高转速硬盘,与7200转的低成本硬盘之间,在单位成本上仍存在相当大的差距,因此绝大多数厂商的分层架构都是採用SSD、高转速硬盘与低转速硬盘的3层式区分,将硬盘再分成高速与低成本两种类型。比起2层式架构,3层式能提供更细緻的分层,来因应主流磁盘装置的典型效能——成本区分,但分层运作也会更复杂。
少数厂商的自动分层功能,如EMC VMAX的FAST VP与普安ESVA的Automated Storage Tiering,还能支援最多4个分层,分层上又更细緻,但架构与运作相对会变得十分复杂。
分层最细緻的是Dell Compellent Storage Center的Data Progression自动分层技术,Data Progression也是3层式的架构,但区分方式与众不同。自Storage Center OS 6.4版以后,Data Progression採取由SLC SSD、MLC SSD与传统硬盘构成的3层架构,前2层分别是两种型式的SSD,所有传统硬盘则归到第3层。藉由这种独特的同时採用2种SSD架构,Data Progression设定由写入效能优越的SLC SSD来承担所有写入I/O,而由可兼顾高读取效能与成本的MLC SSD来承担高读取I/O,搭配低成本传统硬盘来存放低I/O负载的资料。
除了依照磁盘装置类型分为基本的3层外,Data Progression在每一储存层内还可依照RAID型式与组成RAID群组的磁盘数量等,进一步画分更细的分层,Data Progression这种在大分层内又夹有小分层的架构,在当前的分层储存技术中也是独有的,其他厂商大多只允许在每个储存层中使用1种RAID群组。
分层作业的粒度
自动分层储存功能执行存取行为分析与资料搬移时,所採用的「粒度(granularity)」,也就是容量单位,一般来说是越小越有利,以几百KB为单位的区块来执行搬移作业,显然比以数GB为单位的整个Volume或LUN更为理想,不仅消耗的资源较少,也能达到更高的储存资源配置效率,也能更精确地迁移那些真正需要迁移的资料区块。
在一个数十或数百GB的Volume或LUN中,经常被存取的通常只是其中一小部分的区块,因此在执行资料分层迁移作业时,若自动分层储存系统能以更小的区块作为单位,便能更精确地将真正经常存取的那些区块、保留在高效能储存区域上,其余部分则迁移到低价的储存区域保存,从而更有效率的使用储存空间。如果粒度较大,则在迁移资料时,很容易会连带搬动到不需要迁移到资料区块,以至造成储存资源的浪费。
但另一方面,若运作的精细度越小,则系统相对应须追踪的区块数目与相对应的metadata也越多,相对也更会增加控制器的负荷。
目前的自动分层储存技术都是属于「Sub-LUN」或「Sub-Volume」等级,也就是可以比LUN或Volume更小的单位,来执行资料迁移作业,不过彼此间差异甚大,粒度最精细的可以到数百KB或数MB等级,如Dell Compellent的Data Progression(512KB~4MB)、普安的Automated Storage Tiering(256KB~2MB),以及EMC VMAX的FAST VP(7.5MB)等。
比较常见的粒度是数十MB到上百MB等级,如HDS的Hitachi Dynamic Tiering(32MB与42MB)、HP 3PAR的Adaptive Optimization(128MB),还有一些是数百MB等级以上,如EMC VNX的FAST VP(256MB)、IBM Storwize V7000的Easy Tier(最小16MB、最大8GB,建议值为256MB),以及IBM DS 8700/8800的Easy Tier(1GB)等。
分层迁移作业的周期
对于自动分层储存技术来说,如何决定重新迁移资料分层的作业周期,是一个两难的问题。
考虑到资料搬移动作会消耗储存设备相当程度的I/O效能,若搬移动作过于频繁,将会衝击到正常存取作业;此外,考虑到有些高负载存取行为只是暂时性现象,若分层迁移作业间隔过短,可能会导致系统以突发的非常态存取行为作为迁移资料的依据,导致I/O资源的浪费。
因此重新迁移分层的作业,最好间隔一个足够长的间隔,以便让系统能更精确的掌握长期、常态性的存取负载特性,减少短期、突发性行为的干扰。
但若资料搬移作业时程间隔过长,又无法即时反应储存区域「热点」的变化,以致无法让储存空间配置,持续维持在最佳效率的组态上。
因此迁移作业太密集会占用过多效能,但间隔太长又无法达到让分层组态最佳化的目的。目前绝大多数的自动分层技术,都预设以24小时为週期,每隔24小时执行一次资料搬移,换言之,系统必须每隔24小时运作后,才将资料分层调节到最佳配置上,如IBM的EasyTier、Dell Compellent的Data Progression、HP 3PAR的Adaptive Optimization,以及EMC的FAST VP等。
较特别的是HDS的Hitachi Dynamic Tiering,除了可以日为单位设定重新迁移周期外,也允许以小时、30分鐘为单位设定作业週期,甚至还提供连续作业模式,只要经过一个I/O循环,就能反映最新存取行为的变化,不过就像前面所说的,越密集的迁移周期,系统负担也越大,实务中未必是合适的选择。
管理政策权限
自动分层技术的管理政策权限有两种典型作法,一种是允许管理者介入各个运作细节的设定,让管理者能依据不同前端主机与应用程式的需要,调整自动分层作业的设定。如EMC的FAST VP、HDS的Hitachi Dynamic Tiering等。
另一种则是由系统包办几乎全部的作业,管理者只能选择使用哪些分层,其余环节均无法介入,如IBM的Easy Tier等,用户连作业排程都无法设定。
还有一些则是介于两者之间,Dell Compellent的Data Progression、HP 3PAR的Adaptive Optimization等,用户能决定使用哪些储存层及排程,但其余细节则由系统包办。
提供给管理者设定的权限越大越好?还是越少、由系统自动处理更好?这是类似自排车好或手排车好的见仁见智问题,设定选项越多,可以给管理者更充分的驾驭系统能力,不过管理负担也越大。反之,管理选项越少,管理负担越轻,但管理者也失去调节运作的能力。
渐趋普遍的自动分层储存技术
几乎任何储存设备都能提供同时混合SSD与硬盘的「分层」组态,但要实现「自动分层」,便有较高的技术门槛,只有一部份产品能提供这样的能力。
除了NetApp以外,目前几乎所有一线储存大厂,包括Dell、EMC、HDS、HP、IBM等,都已推出了搭配旗下主要SAN磁盘阵列产品的自动分层储存技术,国内的普安也为旗下产品提供了这项功能,在这次採购特辑中,我们将介绍到上述6家厂商,一共8款含有自动分层功能的储存产品。
【免责声明】:部分内容、图片来源于互联网,如有侵权请联系删除,QQ:228866015