如果2000年IBM、HP等厂商没有发布LTO Ultrium磁带驱动器和磁带介质,很可能企业数据中心的磁带使用历史,会在近几年画上一个句号。这对于磁盘厂商来说,显然是一个再好不过的消息,但对于用户来说,磁带的消亡未免不是一件令人扼腕叹息的事情。

从2000年推出LTO Ultrium,随后的每两年,LTO联盟都会更新一代新的LTO磁带技术,目前最新的LTO格式为压缩容量3TB、传输速度最高达525MB/s的LTO-5磁带,而据LTO联盟近几年披露的路线图显示,未来的LTO-8将达到32TB容量和1180MB/s的传输速度,从目前磁盘技术的发展速度来看,LTO磁带及驱动器的指标,绝不逊色。

LTO磁带技术的发展不仅代表着LTO联盟厂商,包括IBM、HP和昆腾的正确押注和对这一格式本身的发展,实际上,随着DAT、SDLT、DLT等磁带格式的相继消亡,LTO在磁带市场的出货量接近所有磁带存储格式产品出货量的九成,这就意味着,LTO的继续发展决定了磁带市场是否还能够发展下去。

除了极少的用户仍然在使用非LTO格式磁带,LTO几乎成为磁带的“唯一格式”,LTO现在可能也是唯一还在继续支持未来2~3代路线图的磁带技术。

前有业界对磁带可靠性与应用领域的唱衰,后有磁盘技术的围追堵截,加之SSD对磁盘正在形成压倒性优势,磁盘对磁带的进攻必然将越发激烈,磁带——或者说是LTO——到底能否坚持到LTO-8出现的那一天?

Bruce Master

5月31日,在2011中国SNW大会上,来自LTO联盟的LTO项目高级经理同时也是IBM旗下磁带与存档系统的负责人Bruce Master以及HP公司企业业务集团服务器、存储和网络事业部存储产品部高级业务拓展经理张梅生女士,作为LTO联盟的代表,回答了有关磁带发展的问题。

磁带:身在逆境谈复兴

磁盘技术的每一次发展,都像是在为磁带吹响警钟,从自动精简配置到重复数据删除,再到磁盘到磁盘的D2D备份技术——尤其是在将D2D技术和重复数据删除技术整合之后,类似DataDomain这类的磁盘备份解决方案,将磁带在备份市场的最后努力连根拔起。

磁带经历过过去差不多六十年的存储发展,在最开始曾作为主存储介质,但很快被IBM所发明的磁盘技术所取代,差不多在那个时候,也就是大约50年左右,就有人认为磁带会被磁盘所消灭,但是磁带却奇迹般的顽强的生存了下来,并依次开始进入备份、远程灾备和离线备份市场,到现在,磁带只不过是又被从一个占据差不多30年的市场挤压出来而已。磁带并非没有经历过这样的情况。

既然在备份市场深陷囧境——就像是50年前被从主存储系统赶出来一样——磁带开始巡展新的能够复兴的市场机会,而这一机会目前普遍被认为是归档市场。关系到磁带能否借助归档市场复苏的核心问题是:多少数据可以或应该存储在归档中?答案很可能是差不多所有数据。

LTO-6、7、8还在路线图上,这也就意味着,LTO联盟至少未来6~7年都还有不少事情要做。

一个粗略的估计是80%的归档是固定内容数据,不过这个比例很可能还偏小了。大部分数据在创建的时候就是固定的,比如发送和接受的电子邮件或医疗数字图像。考虑到大部分非结构化数据(这种数据构成了大多数公司中增长最快的数据群)也是固定的。一个未完成的交易(结构化数据)或一个未完成的文字处理文档(半结构化数据)不是固定内容,但是在数据库中的多数数据或在服务器中的多数文件不太可能再发生改变,因此,一个组织的绝大部分数据可以放入归档。

第二个问题是:为什么数据还没有被归档?有许多答案。一方面,一个归档意味着需要良好的数据保留管理策略,对于许多企业来说这是比较难以达到的。我们可以说数据保留实践是比较少的,除了那些通常在磁带上执行的深度归档。

这很符合如今的“大数据”理念:并不仅仅只是大文件数据,同时包括极为庞大的数据量这一概念,因此,IBM宣布推出了一批与磁带有关的新产品,包括一种新的磁带格式和一些面向其高端磁带库产品的机械臂新产品——IBM将磁带定位为数据存储中的集成归档层。

是否继续使用磁带其实不是什么问题,用户会给出自己的选择。

大数据是最近才被EMC等厂商热炒起来的概念,除去浮华的泡沫,庞大的数据规模确实意味着“差不多这些数据都要被归档而归档的数据量将会是空前的庞大”,但这也并不意味着磁带仅仅是打算盘踞在归档市场——占山为王终有被招安的一天,所以LTO联盟为磁带寻找了新的方向:在磁带上做文件系统。这也是磁带的复兴计划的一部分。

不过,磁带复兴的关键问题是:磁带到底有哪些是磁盘无法替代的?LTO又计划做出哪些让磁盘无法替代的技术或是功能,作为磁带行业最后一个建成运营的联盟,IBM、HP和昆腾的联盟,在三家供应商都拥有丰富的磁盘备份甚至是磁盘归档产品的今天,是否仍然牢固?

LTO容量与性能线性发展的矛盾

算机所用的磁带大概已经存续了60年左右的时间。这项技术比目前大多数技术行业从业人士还要年长。 由于磁带备份市场的规模已经远远小于归档市场的规模,磁带迁移就成为磁带行业现在面临的最大问题之一。大规模归档方案的数据迁移通常会是一个连续的过程。

因此,即使是计划做归档,磁带仍然有一个问题成为软肋:磁带的密度每隔18个月到24个月就会增加一倍,但是同期磁带的性能大约只能提升20%——这意味着即便磁带驱动器数量不再增加,迁移归档数据所需的时间也将越来越长!

当然,企业也可以选择不做迁移,毕竟LTO的每代延续性是非常好的,但另一个问题是:磁带驱动器的某些接口如光纤通道1Gb和2Gb已经不再被业界支持。如果不进行迁移,磁带库的数量就会增加,那必然导致成本的大幅上升。

从前一的角度来说,LTO-5还是慢了些,迁移一盘磁带4个小时,对于数据中心大量的数据——PB就快成为日常的数据量单位——来说,LTO-5速度确实慢了些。

于是,问题就归结为磁带不断膨胀的压缩后可用容量增长和传输速率的矛盾:LTO-1、2、3、4、5格式磁带的容量分别为200GB、400GB、800GB、1.6TB和3TB,传输速率最低为40MB/s,相对较高的LTO-4和5为240MB/s和280MB/s,如果说这还是在可接受范围内的话,LTO-6、7、8的8TB、16TB、32TB则仅仅对应525MB/s、788MB/s和1180MB/s的速率,简单的对比能够发现,这两个数值的变化并非是线性增长的。

对此,Bruce Master认为基于归档应用的特点,“LTO-5目前的传输速率是足够的,对于LTO-6及以后的LTO格式,传输速率对于容量来说都是匹配的。”在Bruce Master看来,归档应用对时效性的追求并不高,280MB/s的速度装满一盘3TB的磁带所需要的时间不超过4个小时,对于归档来说是足够的。与备份不同,归档并不需要“立等可取”的紧迫的时效性的特性。

但另外的问题是如果用户需要迁移磁带——按照LTO联盟的建议,磁带上的数据至少在5~6年内,需要迁移到新一代的更大容量更高性能的磁带上,不仅为了保证兼容性也是为了获得更好的成本效益——如此大量的数据的迁移,LTO现有的性能是否够用?

Bruce Master认为,磁带迁移是磁带整体成本的一部分,而从整体来看,磁带的成本和迁移的速度不会影响磁带本身的成本。

磁带归档的隐性成本:迁移

Bruce Master在现场为与会的媒体对比了虚拟磁带库、SATA磁盘和磁带的长期归档成本,其中,具有重复数据删除功能的虚拟磁带库的5年备份与DR成本研究中,重复数据删除率为15:1的虚拟磁带库的成本比LTO-5磁带库要高3~4倍;历时12年的TCO存档研究中,基于SATA磁盘的方案,仅其能耗成本一项,就已经超过基于磁带的解决方案的整个TCO成本。

由于Bruce Master并未直接介绍在5年或12年的方案中,是否有过磁带迁移情况出现,有与会媒体对此提出了质疑,认为在更长期的——如15年、20年、30年的周期内——磁带归档必然要经过多次的迁移,这很可能导致磁带归档成本的上升:受限于速度、磁带的更新、耗费的时间和能耗,磁带迁移的成本很可能会导致磁带解决方案整体成本的上升。

“5年和12年的情况下,都有迁移的成本考虑进去。” Bruce Master表示,在两个研究案例中,ESG和Clipper两家分析机构都考虑了磁带的迁移成本,而计算进成本的磁带迁移仍然难以撼动磁带的长期归档应用的低成本效益。

但磁带的迁移模式是根据归档数据所使用的数据使用模式的不同而不同的,归档支持需要多长的时间?对工作时间的利用情况如何?由于归档经常发生变化,因此很难判断归档负载是多少。因此,企业必须准备更多的磁带驱动器,因为那些驱动器的使用时间通常都比预期的时间更长一些。这很可能导致少部分企业的磁带迁移成本非常高昂。

用磁带做归档层仍然比磁盘要好。

这通常会变成一个预算平衡的问题,旧式磁带驱动器的成本通常很低,但新式磁带驱动器的成本要高得多。等待迁移的时间越长,磁带驱动器和磁带的成本就越低,但是迁移旧式磁带驱动器上的所有数据所需的时间就越长。 因此,很难决定最佳的成本模型。

大多数归档系统都必须先将数据从旧式磁带上读取出来,写入磁盘,然后再从磁盘上读取出来,写入新式磁带。如果归档系统要求在迁移过程中使用磁盘,那么企业还需要辅助存储空间和带宽来支持迁移。增加的数量取决于企业有多少备用的带宽和存储空间。例如,完全读取LTO-4磁带的数据并将数据写入LTO-5磁带就需要大量的存储空间和带宽。

如果企业想一次性读取和写入,那么你就必须准备1.5TB的存储空间以及140MB/s的数据写入带宽和240MB/s的数据读出带宽。这可能会占用很大一部分RAID控制器的带宽,大约是8Gb/s光纤通道支持带宽的30%左右。

不过,Bruce Master认为磁带仍然有杀手锏,那就是单位容量的低价格:“LTO-5每GB未经压缩的容量价格是5美分,这低于所有的磁盘。”由于LTO-6很可能在明后两年上市,LTO-5磁带的性价比肯定会进一步的提升。

LTO进步LTFS:文件系统的墙角不好挖

IBM还宣布推出了利用Linear Tape File System Library Edition(LTFS LE)连接特定IBM磁带库的文件系统。该系统是由IBM研究室研发而成,可为客户提供一种简单且经济有效的访问和管理海量归档数据和数字资产的方法。IBM表示,LTFS客户现在可以更高效地索引、搜索、检索和共享存储在开放磁带格式Generation 5 LTO磁带上的数据。

LTFS是基于LTO磁带格式设计的磁带文件系统,与五年前夭折的HPTFS不同,LTFS不仅是建立在LTO-5这一更大容量基础上的线性磁带文件系统,除了自描述特性外,LTFS能够完整保留复制来源的目录结构,这也就保证了磁带上的文件系统结构与来自磁盘的时候“一摸一样”。

磁带曾经是顺序读、顺序写的代表介质,如今,磁带开始走出这个桎梏。

LTFS格式利用了LTO-5的2个分区分别作为索引分区与数据分区,数据分区中存放了所有的数据内容与meta data,而索引分区则存放数据分区中数据的附属子集与附加meta data。

两个分区共同构成LTFS Volume,每个分区的起始都是用于识别的标签(Label)区段,其后则是存放索引或数据内容的区段,不同区段间则以档案标记(file mark)区隔。

当LTFS Volume挂载起来后,索引区块中的索引数据便会被读进计算机的主存储器,接下来系统便可利用这些位于主存储器中的索引数据,去存取数据分区中的档案。用户在格式化磁带时,也可将索引分区中的部分区域作为快取区,将符合设定条件的档案从数据分区写到索引分区,如此当LTFS Volume挂载时,索引分区中的快取数据就会被读进主存储器中的快取区,藉以加速特定档案的存取。

需要特别注意的是,LTFS格式并非仅能支持LTO-5磁带,理论上只要能提供双分割区功能的磁带,都能应用LTFS。如IBM便宣称当其专属的3592磁带规格在第4代产品中支持双分割区功能后,也将具备使用LTFS格式的能力。不过目前唯一能提供双分割区功能的磁带规格只有LTO-5,这也让当前的LTFS成为只有LTO-5磁带可使用的功能。

在实际应用中,要让LTFS格式发生效用,必须透过LTFS软件。LTFS软件主要有两个作用:将磁带机中的磁带格式化为LTFS格式,并将LTFS格式磁带挂载到操作系统上,或从操作系统中卸除。

由于识别、存取LTFS格式磁带牵涉到磁带机的驱动程序与固件,所以LTFS软件都是由LTO磁带机厂商所推出,且须搭配该厂商的磁带机硬件才能使用——这也就造成了LTFS可能造成的用户锁定,对于目前仅有的IBM、HP和昆腾三家主流厂商的LTO联盟来说,这并不是一个特别好的消息。

不过,在介绍中,Bruce Master表示“可以直接通过任意应用程序在磁带上访问文件”,相信这句话所说的“任意程序”,指的是操作系统中的应用程序。

Bruce Master表示,LTFS的潜在应用包括一般性的视频负载、数字视频监控、医疗健康影像等,据他透露,类似《加勒比海盗4》这样的电影制作团队,就在使用基于LTO-5技术的LTFS系统平台作为视频文件的存储后端。