當OpenStack遇見頂尖學府
CTI論壇(ctiforum)10月28日消息(記者 李文杰):OpenStack正在全球范圍掀起應用熱潮,僅在科研領域,便有歐洲核子研究組織CERN借助OpenStack去探求宇宙起源,NASA借助OpenStack去尋找地外人類家園。日前,頂尖學府清華大學交叉信息研究院成功構建國內最大規(guī)模的OpenStack科研云平臺,單個集群規(guī)模達到6000個Core,16TB內存,540TB存儲的規(guī)模,幫助清華大學在生物醫(yī)療、基因測序、社交網絡、自然語言分析等新興學科領域進行了卓有成效的探索。這一項目同時讓清華大學交叉信息研究院的數據中心采購成本降低60%,例行IT管理任務所花時間減少33%,能源成本降低80%。
清華大學交叉信息研究院
清華大學交叉信息研究院成立于2010年12月30日,由世界著名計算機學家、2000年計算機科學最高獎圖靈獎得主、美國科學院院士、美國藝術與科學學院院士、中國科學院外籍院士姚期智院士領導,是國內首個致力于交叉信息科學研究的教學科研單位,致力于在計算機科學與技術和物理學兩大學科方向上開展交叉建設,也是國內在量子信息研究最前沿的科研機構。
新科研需求與院校云平臺選型
隨著越來越多科研項目的需要借助計算機集群,原有的使用單一HPC集群處理單一科研項目的“好日子”一去不復返了。舊的IT架構讓科學家們在面臨科學研究時,已經不能將注意力放在科研本身了。
“不應讓科學家們去要求IT具備靈活性,而是IT系統(tǒng)隨時都可以按需而動。”著名生物學家John Boyle在Nature的論文《生物學需要發(fā)展自身的大數據系統(tǒng)》這樣對IT系統(tǒng)的靈活性提出了強烈的需求。
“這該死的I/O!”加州大學圣克魯茲分銷的David Haussler教授更直接的對IT系統(tǒng)中的性能優(yōu)化十分懊惱。
如今,讓院校IT運維人員頭疼的是各種科研需求均需要使用計算機集群來進行計算分析,清華大學交叉信息研究院目前就需要對科學影像處理、冷凍電鏡與蛋白質結構、在線教育數據分析、社交網絡分析、自然語言處理、基因組測序分析等一系列項目進行支持。盡管擁有超過200臺x86服務器,但不同項目對計算資源的不同需求、系統(tǒng)配置讓清華大學交叉信息研究院的IT運維難堪重負。
200臺物理服務器,超過2PB的存儲空間,10TB的固態(tài)存儲、光纖+軟交換的IT架構已經讓包括清華大學交叉信息研究院助理院長的徐葳在內也僅有兩名的IT運維人員捉襟見肘,就更不要說原本希望自己嘗試解決IT系統(tǒng)靈活性的OpenStack+Ceph+Hadoop\Spark\Matlab\SAP HANA的云計算嘗試了。
為了更好的利用原有的硬件資源,同時構建起國內最大規(guī)模的產學研一體化OpenStack云平臺。尋找一家值得信賴的長期戰(zhàn)略合作伙伴,提供企業(yè)級可靠、開放、高性能的方案和專業(yè)服務至關重要。由于對EasyStack專業(yè)性的認可,清華大學交叉信息研究院選擇了與其共建OpenStack產學研云平臺。
需求與方案設計
清華交叉學院的數據中心,根據現(xiàn)有服務器硬件基礎上,設計合理的云平臺方案,配備網卡/SSD/SATA盤等,達到OpenStack的硬件配置要求,利用暑假的一周停機時間,完成OpenStack產學研云平臺的部署上線。
-- HA
OpenStack作為清華大學內部的公有云平臺,首期規(guī)模為125個物理節(jié)點,綜合集群規(guī)模和訪問負載情況,控制節(jié)點采用5節(jié)點高可用方案。未來根據使用情況,可隨時增擴。通過使用集群/主備/負載均衡等HA方式,對MySQL/Message Queue/API服務/Web訪問等服務配置全方位高可用方案。
-- 存儲
通過對OpenStack各服務的改進增強,Nova/Glance/Cinder統(tǒng)一使用Ceph RBD作為后端存儲,實現(xiàn)云主機/快照/云硬盤等云資源的秒級獲取。Ceph存儲集群設置三副本,保證數據的高可用性。為充分利用物理機資源,在計算節(jié)點增加SSD/SATA盤和萬兆網卡,采用存儲與計算融合方式,并通過Cgroup/taskset等手段對計算和存儲進程進行資源隔離,保證計算和存儲性能穩(wěn)定可靠,互不干擾。
-- 網絡
使用VLAN+OVS方式配置網絡,合理分配不同網絡平面的流量,并為生產網絡預留足夠的VLAN ID范圍,方便眾多老師和學生搭建自己的私有網絡。L3 agent將負載均分到五個控制節(jié)點上,在單個L3失效的情況下,其上的配置會自動reschedule到其他節(jié)點,最大程度減少網絡中斷,并可根據需要對南北向和東西向網絡流量進行合理限速。
-- 賬號管理
OpenStack集群部署完畢之后,通過對Keystone配置文件的調整來對接LDAP,LDAP所有用戶將呈現(xiàn)在OpenStack的用戶列表中。再通過對現(xiàn)有LDAP用戶權限的調整,用戶登錄后將呈現(xiàn)所在權限級別的訪問界面。新創(chuàng)建的LDAP用戶將通過OpenStack聯(lián)動腳本,帳號創(chuàng)建完畢即可登錄云平臺訪問。在LDAP中通過分組來區(qū)分不同的院系,每個院系將指定一位“企業(yè)”管理員,管理他所在院系的用戶/項目/計費等。
-- 計費
通過對Ceilometer的增強,計費系統(tǒng)實現(xiàn)對云資源的秒級精確計費。配合分級帳號管理系統(tǒng),每個院系作為一個單獨的計費單位進行收費。計費價格可以由云管理員隨時調整,并在指定的日期生效。通過支付寶等在線支付方式可以隨時為本院系充值。
-- 節(jié)點部署方案
清華大學遇見OpenStack
通過合理分配網絡平面的流量,將不同網絡的訪問進行隔離,保證網絡訪問通暢。其中,計算與存儲融合的節(jié)點上,兩個萬兆網口做Load Balance綁定,提升網絡吞吐量,保證Ceph副本的快速寫入。
部署
-- 虛擬機備份/恢復
在實施之前,通過Ansible自動化工具,在現(xiàn)有集群的物理節(jié)點上將虛擬機并行備份。利用本地磁盤作為虛擬機備份的快速周轉空間,并在遠端保留副本。新集群部署完畢之后,再將虛擬機恢復到對應的用戶賬號下。通過自動化腳本批量將虛擬機鏡像直接傳入Ceph集群中,極大縮短導入時間,再將權限屬性匹配原有賬戶,用戶登陸后即可使用虛擬機鏡像恢復原有的云主機了。
-- 磁盤分布
將SSD盤作為大容量SATA盤的Ceph OSD日志盤,大幅提升Ceph集群的IO性能,支撐Hadoop/Spark等應用對高性能的要求。
-- 網絡
按照網絡規(guī)劃,在交換機上設置VLAN以對應不同網絡平面。同時,在路由器和防火墻上設置網絡地址映射,對外公開OpenStack集群的Web訪問。 Ceph cluster網絡使用Load Balance方式,綁定兩個萬兆網卡,實現(xiàn)Ceph副本數據的快速傳輸。
-- 資源管理
大規(guī)模集群的部署涉及到資產管理的問題,所有物理機機器均已登記在冊,并在機架的固定位置標號。EasyStack的安裝工具Roller為指定MAC地址分配IP,保證新集群部署完畢之后與現(xiàn)有資產表保持完全一致。后期運維同樣可以使用Roller靈活擴展集群規(guī)模。
-- 權限管理
OpenStack實現(xiàn)三層分級賬戶權限管理, ESCloud為不同權限級別的用戶呈現(xiàn)不同的導航界面,admin云管理員管理整個OpenStack集群,每個學院將有各自獨立的“企業(yè)”管理員管理自己學院的老師/學生對云資源的申請及日常運維工作,普通用戶申請云平臺的各項云資源。
運維
-- 監(jiān)控
為集群定制監(jiān)控項目,通過直觀的Web dashboard,查看集群各項指標的當前及歷史運行狀態(tài)。設置異常告警閾值,即時通知管理員,修復異常狀況。通過各項數據的規(guī)律提前判斷是否需要擴容等。
-- 帳號
ESCloud除支持本地創(chuàng)建用戶之外,全面支持與AD/LDAP的對接。在清華項目中,OpenStack對接LDAP帳號管理系統(tǒng),并與OpenStack聯(lián)動。創(chuàng)建LDAP賬戶時,自動為賬戶創(chuàng)建OpenStack項目和網絡,新建的LDAP賬戶可以即刻登陸集群使用云服務。
-- Log集中管理
集群各物理節(jié)點中的日志數據通過rsyslog遠程集中存儲,方便日志分析。
-- 公告欄
云系統(tǒng)管理員具有權限發(fā)布公告,公告內容將發(fā)布在云平臺登陸首頁,方便對所有用戶廣播消息。
-- QoS
根據使用情況對云主機/云硬盤進行訪問限速,合理分配集群資源。對南北/東西向網絡流量合理配置帶寬限制。
-- 對集群中的MySQL/Message Queue跟蹤
所有對集群的MySQL數據的操作都將出發(fā)新建一個數據項目,并在RabbitMQ添加跟蹤項目,通過對這些收集的數據進行整理分析,可以通過圖形化的方式展現(xiàn)現(xiàn)有集群的狀態(tài),并動態(tài)檢測/定位集群出現(xiàn)的問題。
項目特點
-- 高可用
通過HA以及EasyStack ESCloud云平臺的高可靠設計等方案的實施使之區(qū)別并領先于其它OpenStack發(fā)行版,可用于承載核心業(yè)務的中大規(guī)模云計算環(huán)境,輕松應對業(yè)務挑戰(zhàn)。
-- 開放兼容利舊
ESCloud云管理平臺具有極高的開放性,屏蔽底層不同品牌,讓學院擁有大量舊有基礎設施,能夠充分的利用起來。
-- 性能優(yōu)化
EasyStack的ESCloud平臺深入優(yōu)化計算、存儲以及網絡性能,從KVM、OVS、CEPH等最底層技術開始源代碼級優(yōu)化,最終提供接近物理硬件能力的計算、存儲和網絡性能,為該項目的Hadoop、Spark、Docker、入侵檢測等研究課題提供高性能服務,勝任科研需求。
-- 多層權限管理
運維上,ESCloud提供了三層權限管理,各個課題項目組或者其它院系可以按照實際需求再行分配和管理資源,配合精細化計費功能,大大降低了學院的運維成本。
最終,清華大學交叉信息研究院的OpenStack產學研云平臺項目的單個集群規(guī)模達到6000個Core,16TB存儲,540TB存儲的規(guī)模,是國內最大規(guī)模的產學研一體化OpenStack云平臺。
同時,這一項目讓清華大學交叉信息研究院的數據中心采購成本降低60%,例行IT管理任務所花時間減少33%,能源成本降低80%。
結語
“EasyStack幫助學院采用ESCloud全開源云計算解決方案搭建了國內高校最大規(guī)模的產學研一體化OpenStack云環(huán)境,投產后主要用于大數據分析、分布式系統(tǒng)的教學科研,以及為其他院系提供付費云服務,不僅降低了采購和運維成本,更讓學校內有限的人員力量投入到更有價值的科研項目之中!” 清華大學交叉信息研究院助理院長徐葳表示。