Tuesday, August 19, 2014

MPP传统超级计算机,每天也会至少有一个节点出现故障

高性能计算机集群面对质疑怎能沉默不语

2005-04-21 21:52:00 信息系统工程
能耗 稳定性 不能闭门推测   计算机集群的特点便是它要将上百、上千、甚至是上万台电脑集成在一起,在同一时间内共同完成一项任务。面对这种情况,某些专家指出,一些在单机运算上看似不起眼的问题,在计算机集群方面会被凸现出来,例如散热、能耗以及整机的稳定性。   目前HPCC单个计算节点的耗能在300瓦到400瓦之间,如果一个拥有上千、上万个节点的高性能计算集群,它所消耗的能量将与一个小型发电站所产生的电能相当。这种能源上的消耗,不能被人们忽视。随着能耗的上升,散热问题同样令人堪忧,毕竟高密度的集群方式,需要的散热条件非常严格,一旦散热出现问题,直接影响整个计算机集群的稳定性。   此外,专家还认为高性能计算集群技术的构架是以IA架构为基础。英特尔IA架构本身是从PC电脑发展起来的,因此它的稳定性与传统UNIX服务器或是超级计算机相比,不是在同一个数量级上进行比较,IA架构的稳定性要低的很多。节点上千,故障一旦发生如何迅速处理也是一个难题。   “书呆子的想法,有时候听上去确实有些道理,但是毛主席说的话似乎被他们忘记了”。这就是那些深入一线做科学研究的学者们对这些专家的回应。其实高性能计算集群所面对的耗能、散热并非是一个新问题。在IA架构集群尚未出现的时候,传统的超级计算机和现在的UNIX服务器同样要面对散热、耗能等问题。甚至早先高性能计算对耗能和散热的要求要比目前计算机集群还要苛刻。   “在油田地质勘探计算中,研究单位不但要供电充足,同时还要做到两到三路同时供电,以防备突然掉电的事故发生。”在气象、地质勘探行业,其IT基础投资例如机房、供电、空调等设备已经结束,而且硬环境比其它行业要求更高。从事石油行业工作的人员甚至认为,像石油、天然气、矿藏、气象分析这些体现国家实力的领域,如果仅仅从耗能多少去考虑显得有些鼠目寸光。   “如果有人质疑IA架构的高性能集群体系,我想问问他,壳牌石油公司为什么早在3、4年前就采用了1万个节点的HPCC?”李幼铭认为性能的稳定是需要通过实践来考核的,不能因噎废食。   当然IA架构的计算机集群确实在稳定性上有问题,但关键在于如何分析和看待这些问题。复旦大学车静光教授指出,“有专家曾经做过统计,即便是MPP传统超级计算机,每天也会至少有一个节点出现故障。”而实际上IA架构组成的计算机集群的无故障时间与MPP接近。   个别节点的故障对于整个系统来说并不是致命的。每台电脑操作系统的内核是完全独立的,一个节点的故障并不影响整个集群的计算。此外计算机集群的检错、故障转移、恢复技术可以在软件层面进行解决,此外由于成本低廉,为了保险起见,用户还可以建立几个冗余节点以防不测。   HPCC的发展确实遇到一些挑战,但与以往的解决方案相比,它在成本、性能上的强势远大于一些专家所指出的劣势

No comments:

Post a Comment