06月19日消息:在上一篇文章《IBM Platform HPC應用及組件解析》中,詳細介紹了Platform HPC在單一產(chǎn)品中提供完整的高性能計算(HPC)管理解決方案,在本文中將更為詳細的解讀Platform HPC的運行模式、集群節(jié)點、管理節(jié)點、計算節(jié)點、可視化節(jié)點、登陸節(jié)點、集群網(wǎng)絡、公共網(wǎng)絡、配置網(wǎng)絡、管理網(wǎng)絡、應用網(wǎng)絡。
運作模式
圖中示例的高可用環(huán)境是用于顯示如何設計一個Platform HPC集群部署,這只是幾種可能配置之一。在我們的示例中,有4個網(wǎng)絡(公共網(wǎng)絡、配置網(wǎng)絡、管理網(wǎng)絡和應用網(wǎng)絡)以及一個共享的集群存儲,外加一個雙節(jié)點GPFS集群。
圖:在物理硬件上部署Platform HPC集群
集群節(jié)點
管理節(jié)點、計算節(jié)點和可視化節(jié)點可以用于Platform HPC集群中,每個節(jié)點都有自己的作用。
管理節(jié)點
管理節(jié)點是第一個安裝在集群中的節(jié)點,每個集群都需要一個管理節(jié)點。它控制集群中的其他節(jié)點。在PHPC的早期版本中,這個節(jié)點也被稱為頭節(jié)點或者主節(jié)點。管理節(jié)點的角色是一個在用戶站點的部署節(jié)點,包含在集群中運行應用所需的所有軟件組件。在管理節(jié)點連接到一個集群節(jié)點之后,它為計算節(jié)點配置和部署客戶端軟件。安裝在管理節(jié)點上的軟件提供以下功能:
- 行政、管理和監(jiān)控集群
- 安裝計算節(jié)點
- 無狀態(tài)和有狀態(tài)的管理
- 資源庫管理和更新
- 集群配置管理
- HPC套件管理
- 配置模板管理
- 應用模板管理
- 使用Platform MPI套件加速并行應用處理和應用擴展
- 使用Platform LSF套件進行工作負載管理、監(jiān)控和報告
- 用戶登錄、編制和提交作業(yè)到集群
- 充當防火墻把集群與外部節(jié)點和網(wǎng)絡阻隔開
- 充當服務器面向多個服務,例如DHCP、TFTP、HTTP以及可選的DNS、LDAP、NFS以及NTP
計算節(jié)點
計算節(jié)點是專為計算密集型應用設計,以滿足計劃用例的功能要求。計算機節(jié)點是通過管理節(jié)點配置和更新的,在集群中執(zhí)行計算任務。工作負載管理系統(tǒng)(Platform LSF)在計算節(jié)點上設置作業(yè)位置數(shù)和CPU核心數(shù)。
在計算節(jié)點配置好之后,會安裝操作系統(tǒng)(OS)分布、Platform LSF套件(工作負載管理代理、監(jiān)控和資源管理代理)、Platform MPI套件以及其他定制軟件(用戶定義)。這個計算節(jié)點中可以有一些本地磁盤用于操作系統(tǒng)和臨時存儲運行應用。也可以配置操作系統(tǒng)在無盤系統(tǒng)上啟動,以提高I/O性能(使用無狀態(tài)配置)。
計算節(jié)點還加載NFS,或者可以配置GPFS實現(xiàn)共享存儲。這些計算節(jié)點可以協(xié)同工作使用MPI解決問題。這是由連接到高速互連網(wǎng)絡實現(xiàn)的。一些應用在模擬過程中不要求每個計算節(jié)點上必須有大磁盤存儲空間。不過,大型模型可能不適合可用的內(nèi)存空間,必須在核心外解決,然后從強大的本地存儲中受益。