| 中国 各地网站 |
![]() |
![]() |
|
Sun 公司将生产就绪 HPC 引入主流企业 长久以来,高性能计算 (HPC) 已成为教育和研究机构获得成功的关键因素,但随着各个行业对复杂计算的需求不断增加,越来越多的机构正在考虑将 HPC 作为一个核心工具。例如:
您如何知晓自己是否已准备好在生产环境中使用 HPC?Sun 公司如何帮助您达成目标? Sun Inner Circle 对 Sun 公司 HPC 和集成化系统总监 Bjorn Andersson 进行了访谈,了解 Sun 公司如何使企业数据中心能够使用 HPC,以及最近发布的 Sun 群星系统,该系统今年六月在德国举行的国际超级计算机 (ISC) 大会上展出,是世界上首个开放的千万亿次量级体系架构。 INNER CIRCLE:Sun 公司的生产就绪 HPC 是什么意思? ANDERSSON: 生产就绪 HPC 是我们为客户提供超级计算能力的一种方式,此类计算能力过去只有学术和科学研究人员才能享有,它们有助于缩减运行这些复杂系统所需的人力和财力。它意味着可在 HPC 体系架构中提供 Sun 客户所期望的可用性、可靠性和安全性。 其目标是使 HPC 更简单、更低廉、更易于在各行业的企业中部署,而其体系架构可以从单个机架扩展到具有令人难以置信的计算速度的特大型超级计算机。 IC:该体系架构由哪些部分组成? ANDERSSON: ANDERSSON:我们的方法是将整个群集视为一个系统,也就是说,以单个服务器或使用的软件为例,它们都是该大型系统的组件。我们的 HPC 体系架构的关键组件包括 Sun x64 服务器和存储器、新的 Sun InfiniBand 交换机、Solaris 10 操作系统以及对整个群集的工作负载进行管理的 Sun 网格引擎。此外,我们还举办 HPC 快速启动服务 优惠活动,并且具有出厂前配置和提供直接可以运行的解决方案的能力,它们可以最大程序地缩减使 HPC 环境安装就绪并正常运行的成本和时间。
Sun 公司保持有中端 HPC 安装的最高记录:在密西西比州州立大学,从运输车到达,到 512 节点的群集投入生产,只用了不到两天的时间。
IC:一台 Sun HPC 系统需要花多长时间才能开始正常运行? ANDERSSON: 对于高端 HPC 系统,行业标准是需要花费几个月时间才能逐渐进入生产模式。就中端客户而言,进行完整的安装通常需要好几周的时间。但 Sun 公司不断挑战这些平均水平,以创记录时间交付生产就绪 HPC。 在高端方面,大约一年前,Sun 公司在东京工业大学安装了一个特大型群集,为 10,000 多名学生提供服务,该群集在一个月的时间内就安装就绪并开始正常运行。在中端客户中,密西西比州州立大学就是一个绝好的例子,Sun 公司在那里保持了一项 HPC 安装的最高记录,从运输车到达,到 512 节点的群集投入生产,只用了不到两天的时间。 IC:企业准备好使用 HPC 的标志是什么?这种计算是不是真的只适用于教育和研究领域? ANDERSSON: 归根到底,商业需求推动 HPC 的发展。建模和解决越来越复杂的问题是许多机构开展业务活动的一部分工作。我发现一个有趣的现象,多数人认为不可能使用 HPC 的领域 (如汽车、能源和制药业) 现在也在考查HPC。金融服务业和保险业越来越倾向使用 HPC 来进行复杂的风险和股票投资组合分析。娱乐业也在考虑使用 HPC 生成动画片。而且,对于每个纵向领域的公司,HPC 都提供了一个可扩展平台以优化其业务流程。 一旦形成商业需求,企业需要研究 HPC 如何应对数据中心列出的问题清单,其中的项目包括成本、可扩展性和易管理性,以及能源和空间要求等。 在过去,要想使用 HPC,往往是困难重重。但是,使用基于标准的新 HPC 系统,各行各业的公司都可以随时轻而易举地使用 HPC。由于 HPC 使产品面市速度加快,因而有助于公司取得竞争优势。HPC 正在快速成为他们业务、设计和分析流程中的重要组成部分。HPC 对于公司运营的作用就如同焊接机器人对于汽车制造商一样重要。
IC:Sun 目前在 HPC 方面提供何种计算能力? ANDERSSON: 这取决于具体情况。我们可以进行小型安装,而且我们可以突破实际上可以突破的极限。目前,奥斯丁得克萨斯州大学的得克萨斯高级计算中心 (TACC) 正在部署一个群集,该群集包含用于超过 500 TeraFLOP 能力 (每秒运行 500 万亿次计算) 的新型 Sun 群星系统 和Sun 标准组件。 一个较有可能用于商用数据中心的候选方案可能是 TACC 正在使用的单机架或双机架服务器,或者是 Sun Fire X4600 M2 服务器,后者在一个紧凑的 4U 空间里容纳四分之一 TB 的内存。两种实施方法都基于标准的组件和开放的接口,这样就可以从一个小的机架一直扩展到千万亿次量级超级计算机性能。 IC:这种性能如何满足多数企业对于 HPC 所寄予的性能要求? ANDERSSON: 可扩展性是 Sun 客户所期望满足的要求 — 而他们可在 HPC 中满足同样的要求。重要的是,需要明白 HPC 在教育和研究领域正在超越其最初的期望值。在这些系统中进行投资的多数公司希望以低成本获得高性能和可扩展性,同时需要可以快速安装的系统,而且像其它IT投资一样尽快产生回报。所幸的是,Sun 公司在这些领域拥有几十年的经验。 IC:将 Sun 服务器用作 HPC 系统的中枢具有节能和散热优势吗? ANDERSSON: Sun x64 和刀片系统由于具有有助于确保不需要减缓CPU速度即可满足温度极限要求的设计特性,因而能效非常高,这样 Sun 公司客户就能够实现速度与能效兼得的结果。此外,我们的叶片服务器比起大多数机架式系统来说,能够提供更高水平的能效。对于 HPC 环境来说,Sun 公司提供一种每机架 48 个叶片的配置,这一优势与Sun 网格引擎 (Sun Grid Engine) 工作负载管理功能结合在一起,可将 CPU 利用率提高高达 98%。 IC:Sun 公司还在其它哪些方面降低在传统数据中心内运行 HPC 环境的复杂性? ANDERSSON: Sun Grid Engine 6.1 通过在多台机器和 HPC 网格之间分配工作负载,帮助减少管理 HPC 的时间和成本。实际上,网格引擎在要完成的工作与可用计算资源之间实现一种平衡,这样项目执行起来就非常快,而不会使机器闲置或过载。 至于可配置性,Sun 网格引擎允许根据用户需要插入脚本和撤销行为,因为它具有一种分布式资源管理器 (DRM) 。此 DRM 就是 TACC 选用 Sun 网格引擎管理其 HPC 基础设施的原因之一。此外,用于作业提交、监测和控制的 API 是与语言无关的,因而开发人员可以编写与超级计算网格集成并可在其它 DRM API 之间移植的应用程序。 IC:Sun 网格引擎如何管理多个群集? ANDERSSON: 由于机构往往最终会需要更高计算能力,因此,假如随着一个群集的扩展,易管理性变得越来越成问题,那么给数据中心添加 HPC 是没有多大意义的。网格引擎使所有群集都可以接受单个主策略的指导,这在机器之间画出虚拟界限。这还有助于确保随着机构内对于 HPC 的需要增大最重要的项目持续获得优先考虑。 IC:Sun 网格引擎与市场上的竞争性产品相比情况如何? ANDERSSON: 这是一个支持和成本的问题。根本没有其它可比的产品化开放源代码,那些专有的竞争产品功能少,成本却比 Sun 网格引擎高出数倍。网格引擎已向大量 CPU 颁发了许可证,而专有的竞争产品只是按核心销售其产品。而且,网格引擎中的某些对于企业和实用计算至关重要的功能是竞争产品中根本没有的。这些功能包括通过 SQL 数据库提供会计信息以及凭借简单的查询概述网格活动。 IC: Solaris OS 在哪些方面适应 Sun HPC 体系架构? ANDERSSON: 现在, 我们提供许多使用 Linux 的教育和研究 HPC 环境,而 Solaris 更适合于生产环境。Solaris 用来管理诸如超级计算环境中的节点复杂性和时间延迟。当您需要支持包含四个处理器的叶片,而且其中每个处理器都有四个核心时,管理全部 16 个核心的复杂性就会增加。 如果只需要关注两个 CPU,就会有 50% 的可能性能够把内存给予执行某项任务的恰当CPU,这通常会产生良好的性能。但对于多个处理器和核心,缺点非常明显。凭借其内存分配优化功能,Solaris 可确保恰当的处理器负责恰当的作业,而且可 提高 HPC 效率同时减少时间延迟。 IC:就在 HPC 环境中的可扩展性而言,Solaris 与 Linux 相比情况如何? ANDERSSON: Solaris 经过千锤百炼,多年来在高端多处理器系统中展示出非凡的扩展能力,这在新型多核系统中确实很有优势。在 HPC 中,非常重要的是,重视带宽与浮点运算之比,以使处理器获得数据并尽可能减少开销。例如,凭借其虚拟内存功能,Solaris 还支持高达 1 GB 的页面大小,而 Linux 仅限于支持 8 MB的页面大小。这使 Solaris 能够更加高效地处理 HPC 应用程序所期望的数据量。在像 TACC 这样的安装中,操作系统控制 InfiniBand 交换结构管理器、计算节点以及存储。Sun HPC 体系架构可容易地运行 Linux,而 Solaris 10 的所有先进功能均可免费获得 OpenSolaris.org 。 IC:存储是任何超级计算群集的一个关键组成部分。Sun HPC 体系架构在这个方面的情况如何? ANDERSSON: HPC 存储的一个独特选项就是 Sun 公司数据服务器。配置有 1TB 磁盘的 Sun Fire X4500 服务器 单个机架内可提供将近半个 PB 的存储 — 而且在 TACC 安装中,此服务器将用来提供高达 1.7 PB 的存储。这一存储量还会被突破。欧洲核研究组织 (EONR) 正在使用 100 多台 Sun Fire X4500 服务器存储超过 2.5 PB 的数据。许多企业只需拥有一两台这样的服务器就会感到心满意足,因为每台这样的服务器可在一个 4U 机架空间内存储 24 到 48 TB 的数据。此外,Sun 公司提供一个全面的存储解决方案,从特高性能的群集连接存储器,到企业数据和安全磁带存档解决方案。 我还应该补充的是,Solaris 作为适用于存储的操作系统发挥巨大作用,因为在这些巨大环境中,把 1 PB 甚至更多数据放在一个存储区域网络上并不是一件容易的事。例如,TACC 能够把存储器直接放在将 Solaris 用作运行其存储服务器的平台的 InfiniBand 网络上。 IC:Sun 如何展望其 HPC 体系架构在高端领域的可扩展性? ANDERSSON: 目前而言,根据前 500 强名单,有些最大的超级计算机构建有许多相当慢的处理器、每个节点的内存极小,而且采用专用互连接。将此与 Sun 星群系统 (Sun Constellation System) 相比,我们在其中使用的是现今最快的行业标准处理器,而且拥有行业领先的每节点内存容量。此外,我们还使用行业标准的高带宽和低时延互连接。 这使我们能够充分利用全行业的投资,并降低商品组件的成本,同时还为我们的客户提供更多选择余地。我们正在通过 Sun 群星系统给市场带来系统级创新。这些创新把整个群集视为设计点并注重从一 TeraFLOP 或低至一 PetaFLOP 以上的单个机架进行的真正扩展,其扩展系数比可比体系架构高 1000 倍以上。 IC:企业为何会对千万亿次量级 HPC 感兴趣? ANDERSSON: 千万亿次量级计算可满足现今多数公司的最高要求,但再过几年,这不可避免地会成为平常之事。建模和解决较复杂问题的需要是许多机构经营活动的组成部分,而且我很难看到这一趋势有任何减缓的迹象。相反,公司之间的竞争压力将会加快这一趋势。我坚信拥有一条提高计算能力的可扩展路径未来会对许多企业至关重要。 |
| ||||||||||||||||||||||||||