建材之家讯:IBM阿尔马登(Almaden)和加利福尼亚(California)实验室的研究人员建立了一个比以往任何一个都要大10倍以上的数据储存库。这个1.2亿G的“硬盘”由20万个传统硬盘驱动器联合工作。这个巨大的数据容器能够存储1万亿个文件,能为复杂系统提供更强的仿真,如用于天气和气候建模。
120千万亿字节的硬盘能够保存240亿个5M大小的MP3文件或者轻松保存互联网最大备份的60个副本,1500亿个网页组成了互联网档案馆(Internet Archive)的时光机(WayBack Machine)。
阿尔玛登IBM的数据存储小组正在为一个未命名的客户端开发破纪录的存储系统,该客户端需要用一个巨型计算机来详细仿真真实世界现象。但是,用于建立如此大的存储库的新技术能为更多传统商业计算建立相似的系统,布鲁斯·黑斯伯格(Bruce Hillsberg)说,他是IBM存储实验室的主任,也是该项目的负责人。
“这个120千万亿字节的系统现在正比较热门,但是几年内,所有的云计算系统可能都和它一样,”黑斯伯格说。只是跟踪名称、类型和存在系统中的文件的其它属性就可以消耗大约2千万亿字节的容量。
史蒂夫·康威(Steve Conway)是IDC分析公司的副总裁,专门从事高性能计算(high-performance computing ,HPC)的研究,他说,IBM的数据仓库明显比以往的存储系统大很多。“120千万亿字节的存储阵列是我遇到过最大的,”他说。目前可用的最大阵列是15千万亿字节的规模。能从大容量存储获益的超级计算问题包括天气预报,石油工业中的震波图分析,和基因组或蛋白质的分子研究,康威说。
IBM的工程师开发了一系列新硬件和软件技术来扩展数据存储容量。要寻找一种方法来把数以千计的硬盘有效组合起来是一个挑战。在大多数的数据中心,放在机柜中的硬盘被垒的很高。然而IBM的研究人员必须把这种重大挑战变得非比寻常,要在小空间中放更多的硬盘。硬盘必须用循环水来降温,而不是标准风扇。
要收集这么多的硬盘,常规情况下会发生不可避免的失败,这是另外一个主要挑战,黑斯伯格说。IBM使用标准的策略来存储不同硬盘上数据的多个副本,但它还进行了新的改进,允许超级计算机在硬盘坏掉的情况下也能保持全速运行。
当一个硬盘坏掉的时候,系统把数据从其它硬盘上取出,并慢慢写入替代坏硬盘的另一个硬盘中,所以超级计算机可以继续工作。如果周围的硬盘发生了更多的错误,重建过程将加速以避免另一个硬盘发生错误,并暂时清除一些数据。黑斯伯格说,这样的结果是,一个系统在不损失性能的情况下100万年都不会丢失数据。
新系统也能从阿尔马登IBM开发的GPFS文件系统中获益,该文件系统能使超级计算机更快的访问数据。它把单个文件在多个硬盘中分布存储,这样文件的许多部分可以同时读写。GPFS也能让一个大系统跟踪它的许多文件,并不需要费力的扫描每一个文件。上个月,IBM的一个小组使用GPFS在43分钟内为100亿个文件做了索引,轻松的打破了之前在三小时扫描10亿文件的记录。
像这些为GPFS开发的软件改进和硬盘恢复技术对于大数据硬盘来说是残酷的,黑斯伯格说,因为为了实用性,这些硬盘必须不仅容量大而且速度快。与更大容量的存储需求相比,硬盘并没有更快更可靠,所以软件必须弥补这个差距。
IDC的康威承认,对于超级计算机来说,对大数据存储系统的快速访问是残酷的——尽管超级计算机经常被公开比较其处理器速度,这是确有其事的,因为全球TOP500列表就是用于决定这种国际特权之争。大的硬盘越来越重要,因为仿真规模越来越大,许多问题都是用所谓的迭代方法来解决,在其中,一个仿真就是运行上千次并且也是比较的结果,康威说。“检查点”(Checkpointing)是超级计算机为防止未顺利完成工作而保存工作快照的技术,这也是很普通的。“这些趋势产生了HPC(高性能计算)社区里的数据爆炸,”康威说。建材之家是聚集全国各大家居建材市场供应商于一体的建材O2O模式家装电商互联导购平台,专注于建材+互联网+AR全景的新零售应用场景建设,为消费者提供线下家装中各种家居,建材,装修,装饰材料的线上大家居导购服务,欢迎登陆http://wap.jc68.com/