亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當前的位置是:  首頁 > 新聞 > 國內 >
 首頁 > 新聞 > 國內 >

OpenStack虛擬云桌面在攜程呼叫中心的應用

2016-09-06 15:59:22   作者:   來源:CSDN云計算   評論:0  點擊:


  OpenStack是當前最主流、最熱門的云平臺,攜程OpenStack環(huán)境除了應用在攜程網站,還廣泛應用于攜程呼叫中心的桌面云系統(tǒng)。作為業(yè)界最領先的呼叫中心之一,攜程服務聯(lián)絡中心幾萬員工365x24小時提供全球化服務,讓說走就走的親們毫無后顧之憂。
  桌面云極大地提升了IT運維效率,顯著降低了用戶故障率,是未來IT的一大發(fā)展趨勢。那么攜程是如何把這兩者高效結合部署于攜程呼叫中心的?
  本文將主要分享攜程呼叫中心廣泛使用的桌面云系統(tǒng),介紹這套基于OpenStack的云桌面系統(tǒng)架構以及在開發(fā)過程中碰到的一些OpenStack相關問題,并分享云桌面系統(tǒng)運維、監(jiān)控、自動化測試等。
  一、為什么要使用虛擬云桌面
  1、背景
  攜程呼叫中心,即服務聯(lián)絡中心,是攜程的核心部門之一,現(xiàn)有幾萬員工。他們全年7x24小時為全球攜程用戶提供服務。以前呼叫中心桌面使用臺式PC,隨著業(yè)務規(guī)模擴大,PC維護量倍增,需要投入大量人力、物力、財力來報障系統(tǒng)穩(wěn)定運行。為此,攜程正式引入虛擬云桌面。
\
  虛擬云桌面是什么?如圖所示,用戶桌面PC機換成了一個云桌面瘦客戶端(ThinClient,TC)。所有的CPU、內存、硬盤都在云端。云端跑滿虛擬機,用戶桌面通過瘦客戶端連入虛擬機使用Windows。其中,虛擬機采用QEMU加KVM實現(xiàn),云環(huán)境用OpenStack進行管理,遠程桌面協(xié)議是第三方高度定制、修改過的spice協(xié)議。
  2、云桌面的優(yōu)勢
  第一,運維成本。PC部署以及系統(tǒng)軟件安裝耗時較長,云桌面后臺5分鐘一臺自動交付可供用戶使用的虛擬機;PC擴大部署投入巨大,云桌面只需要購買少量服務器接入云系統(tǒng),快速擴大部署。
  第二,故障處理效率。PC有問題,有可能需技術人員到用戶現(xiàn)場開箱檢查,故障排查耗時較長,嚴重點的硬件問題如需更換配件,等待周期更長。云桌面故障標準是5分鐘處理完畢。對于5分鐘無法解決的問題,只需后臺更換虛擬機解決。
  第三,運維管理。PC分散在用戶桌面,運維需要用戶配合(比如保持開機)。云桌面提供了運維系統(tǒng),只需設定好時間、安裝任務參數,系統(tǒng)會全自動進行安裝維護。同時,瘦客戶端輕量,無任何用戶數據,對用戶也帶來極大便利。典型的如用戶位置遷移,云桌面無需搬移,只需用戶到新位置登錄即可。
  最后,云桌面整體低碳、環(huán)保。瘦客戶端功率跟普通節(jié)能燈相近,比PC低一個數量級。
  3、攜程云桌面現(xiàn)狀
  攜程云桌面現(xiàn)已部署上海、南通、如皋、合肥、信陽、穆棱六個呼叫中心。幾百臺計算節(jié)點、近萬坐席,而且規(guī)模還在不斷擴大中,新的呼叫中心也在計劃中。
  同時,云桌面平臺故障率、瘦客戶端故障率也遠低于PC故障率。下圖是攜程運維部門的故障率統(tǒng)計圖。
OpenStack虛擬云桌面在攜程呼叫中心的應用
  二、如何實現(xiàn)虛擬云桌面
  1、云桌面原架構
OpenStack虛擬云桌面在攜程呼叫中心的應用
  攜程云桌面后臺云平臺在實踐中進行了多次迭代,原有架構如上圖所示。該架構特點是,直接在OpenStack Nova進行定制開發(fā),添加了分配虛擬的接口,實現(xiàn)瘦客戶端直接訪問OpenStack獲取虛擬機信息。
  這個架構下,云桌面平臺可以直接訪問全部的虛擬機信息,直接進行全部的虛擬機操作,數據也集中存在OpenStack數據庫,部署方便。用戶權限通過OpenStack Keystone直接管控,管理界面使用OpenStack Horizon并添加云桌面管理頁面。
OpenStack虛擬云桌面在攜程呼叫中心的應用
  典型的分配虛擬機用例中,瘦客戶端通過OpenStack Keystone進行認證、獲取Token,然后訪問Nova請求虛擬機。如上圖所示,瘦客戶端會通過Keystone進行認證,Keystone確認用戶存在后向域LDAP進行密碼校驗,確認用戶合法后返回Token;瘦客戶端再通過Token向Nova申請?zhí)摂M機。
  Nova根據瘦客戶端設置的坐席信息,首先查找這個坐席是否已分配虛擬機。如有直接返回對應虛擬機。如無,從后臺空閑虛擬機中進行分配并更新數據庫分配,返回遠程桌面協(xié)議連接信息。
  2、原架構局限性
  隨著業(yè)務增長,原架構出現(xiàn)一些局限性,首先,業(yè)務與OpenStack呈強綁定關系,導致OpenStack升級涉及業(yè)務重寫;修改業(yè)務邏輯需要對整個云平臺做回歸測試。
  其次,用戶必須要是Keystone用戶,用戶管理必須使用Keystone模型。導致Keystone與LDAP之間要定期同步進行,有時還需手工同步特殊用戶。
  管理層面,因為Horizon的面向云資源管理的,但業(yè)務主要面向運維的。這部分差異,導致我們開發(fā)新的Portal來彌補,管理人員需要通過兩套系統(tǒng)來進行運維。
  整體方案上,云桌面遠程桌面協(xié)議由第三方提供,如果第三方方案不支持OpenStack,就無法在攜程云桌面系統(tǒng)使用。
  最后,用戶部門有各種需求,直接在OpenStack內進行開發(fā)難度大,上線時間長,開發(fā)人員很難實現(xiàn)技術引領業(yè)務發(fā)展。
  3、新架構
  經過架構調整,新架構實現(xiàn)了OpenStack與我們的業(yè)務解耦,同時適應用戶部門的業(yè)務發(fā)展方向,方便功能快速迭代上線。
OpenStack虛擬云桌面在攜程呼叫中心的應用
  從圖中可以看出,云桌面業(yè)務邏輯從OpenStack中獨立出來,成為了VMPool,Allocator;管理層獨立開發(fā)一套面向IT運維的Portal系統(tǒng),取代Horizon;云平臺可直接原生的OpenStack。
  其中VMPool負責維護某種規(guī)格虛擬機的可用數量,避免需要的時候沒有虛擬機可用,讓用戶等待。Allocator滿足符合條件的用戶請求,返回用戶對應的虛擬機或者從VMPool分配虛擬機分配用戶。
OpenStack虛擬云桌面在攜程呼叫中心的應用
  對于用戶分配虛擬機的典型用例,與原有架構改動較大。首先,業(yè)務層瘦客戶端將直接訪問業(yè)務層的API。API層會直接通過LDAP進行用戶認證,并獲取用戶OU、組別等信息。
  接著,業(yè)務層將進行用戶規(guī)則匹配。每個Allocator通過用戶組、OU、tag等進行規(guī)則匹配,以確定該用戶是否由自己進行服務。如不滿足Allocator所定義的規(guī)則,將按Allocator的優(yōu)先等級,繼續(xù)選取下一個Allocator進行匹配,直到匹配或者默認規(guī)則為止。
  匹配后,如果是有綁定關系的分配規(guī)則,比如用戶綁定或者坐席綁定、TC綁定,那Allocator將直接從數據庫返回已有的綁定;如果無綁定關系,Allocator就會從對應的VMPool分配一臺虛擬給,返回給用戶。
  最后,對用戶部門來說,看到的是用戶屬于一個組,這個組對應特定的虛擬機。只需調整用戶屬性,即可實現(xiàn)用戶分配特定的虛擬機,充分滿足他們的各種需求。
  三、大規(guī)模部署中遇到各種坎
  1、軟件版本選取
  在搭建OpenStack前,必須進行需求分析,確定所需的需求。然后根據需求選取滿足條件的OpenStack及相關組件的版本,以避免后期出現(xiàn)各種系統(tǒng)及虛擬機問題。
  我們根據攜程呼叫中心的業(yè)務需要,選好了幾個版本的KVM、QEMU,以及OpenVSwitch,在選取能適配它們的幾個可用kernel、Libvirt版本,并剔除了不穩(wěn)定版本或者有已知問題的版本,將這些組件組成合理的組合,進行7x24小時用戶模擬自動測試,找到最穩(wěn)定、合適的并滿足需求的,作生產上線使用。
  2、資源超分
  超分與應用場景強關聯(lián)。一定要首先確定需求,是CPU密集、內存密集、IO密集還是存儲密集。在做了充足的用戶調查后,我們準備了大量用戶模擬自動化腳本,進行自動化測試,以選取最合理超分值。
  從我們的測試結果看,瓶頸主要是內存。內存超分過度會導致主機直接OOM(Out Of Memory)宕機。Windows及Windows應用吃內存比較嚴重,特別是像Chrome這些程序,優(yōu)先占用內存先。雖然我們使用KSM(Kernel Samepage Merging,相同內存頁合并功能),省了一些內存,但最終上線也只能達到1:1.2的超分。
  對于IO,在Windows啟動階段比較明顯。大量Windows同時啟動時會造成啟動風暴情,在我們的極端條件測試中出現(xiàn)過啟動Windows需要40分鐘,硬盤IO100%使用,每個讀寫請求平均0.2秒響應。所以,在大規(guī)模部署時,對虛擬機并發(fā)開機數一定要有一定限制。同時,硬盤一定要多塊做RAID,以提供更高的IO吞吐量。
  最后是CPU。CPU過度超分會嚴重影響用戶體驗。但是一般不會造成宿主機宕機。在我們的測試條件下,超分到1:2用戶體驗開始下降,所以實際上線超分不多。
  最終我們現(xiàn)在生產環(huán)境,是以內存為標準進行超分,硬盤、CPU控制在可接受范圍。
  3、網絡細節(jié)
  多DNSMasq實例問題
  我們虛擬機的IP地址通過DHCP獲取。DHCP服務端我們使用的DNSMasq比較老,只是簡單的實現(xiàn)了多實例運行,但并未真正實現(xiàn)綁定到虛擬接口。
  在生產環(huán)境,我們觀察到VM都能獲取IP,但是在續(xù)租IP的時候大量失敗。經抓包分析,虛擬機在第一次請求IP時,由于自身無IP地址,使用的是廣播方式進行DHCP請求;在續(xù)租時,由于本身有IP地址,也已明確DHCP服務端地址,所以采用IP點對點單播請求。
  服務端,多個DNSMasq實例運行的情況下,如果是廣播包,所有DNSMasq都收到消息,所有廣播請求能正確回復。在單播情況下,只有最后啟動的DNSMasq能收到請求,最終導致虛擬機得不到正確的DHCP續(xù)租響應。最終我們通過升級DNSMasq解決。
  宿主機重啟導致虛擬機網絡不通
  在物理機重啟后,有時會出現(xiàn)VM網絡不通。經過調查,我們分析出根本原因是libvirt,ovs的啟動、關閉順序。
  在正常情況下,libvrit退出時會刪除它管理的OpenVSwitch Port以及它創(chuàng)建的對應的Tap虛擬網卡。libvirt啟動時會創(chuàng)建需要的Tap網卡,并請求OpenVSwitch創(chuàng)建對應的Port建立虛擬連接。
  邏輯上,OpenVSwitch Port相當于交換機網口。Tap網卡,相當于PC的網卡。他們之間需要連線網絡才能正常通信。
  如果關機時,OpenVSwitch比Libvirt先停止,Libvirt將不能成功刪除它管理的OpenVSwitch Port;開機時,如果OpenVSwitch先啟動,它將建試圖重建之前存在的port。但因為Libvirt還未啟動,OpenVSwitch Port對應的Tap網卡還未創(chuàng)建(即虛擬網口對應的虛擬網卡不存在),OpenVSwitch重建Port最終失敗并且Port將被銷毀。
  由于Port信息對OpenVSwitch來說是用戶配置信息,OpenVSwitch并不會從數據庫中清理掉對應的Port記錄。所以等到Libvirt啟動調用OpenVSwitch創(chuàng)建Port時,OpenVSwitch發(fā)現(xiàn)數據庫里面已經存在這些Port,所以并未真正觸發(fā)Port重建,最后造成VM網絡不通。
  最終我們通過開、關機順序調整實現(xiàn)問題修復。
  RabbitMQ長連接
  RabbitMQ是OpenStack使用的一種消息交交互組件。OpenStack在某些時候,會出現(xiàn)無法創(chuàng)建虛擬機的情況。通過日志分析我們發(fā)現(xiàn)計算節(jié)點沒有收到對應的創(chuàng)建請求消息。然后抓包分析進一步發(fā)現(xiàn),TCP數據包被防火墻攔截、丟棄。原來防火墻對TCP會話有數量限制,會定期丟棄長久無數據交互的TCP會話。
  在了解根本原因后,一方面通過定期自動冒煙測試保證網絡不空閑,一方面想解決方案。從應用層面上,我們調研到RabbitMQ已經有心跳機制,但要升級。由于升級影響范圍太廣,最終沒有進行。
  接著我們對網絡層面進行了調查,發(fā)現(xiàn)TCP本身有Keepalive;顧C制,同時RabbitMQ代碼本身也有TCP;睿J不開啟。最后我們通過啟用RabbitMQTCP;顧C制,設置一個合理的;铋g隔解決問題。
  四、系統(tǒng)穩(wěn)定背后的黑科技
  1、運維工具
  運維是云桌面的一大難題,為此我們專門設計了運維系統(tǒng),通過兩套SaltStack系統(tǒng)實現(xiàn)了對瘦客戶端與虛擬機的管理;通過Portal系統(tǒng)實現(xiàn)對整個系統(tǒng)的管理。
  具體功能上,運維上,實現(xiàn)了對虛擬機、宿主機的可視化監(jiān)控、管理,并能對虛擬機實現(xiàn)遠程管理;對IT管理人員,實現(xiàn)了自動化的軟件安裝、文件下發(fā)、密碼修改、數據找回,、發(fā)送通知等功能;對資產管理員,實現(xiàn)了TC狀態(tài)監(jiān)控,TC異常情況及時發(fā)現(xiàn)。還有其它大量工作仍在開發(fā)進行中。
  2、監(jiān)控告警
  監(jiān)控方面,除了常規(guī)的服務器、操作系統(tǒng)層面的監(jiān)控,我們實現(xiàn)了大量業(yè)務層監(jiān)控。比如通過監(jiān)控已經連接云桌面的瘦客戶端用戶輸入事件,實現(xiàn)實時活躍用戶監(jiān)控,使得我們能實時監(jiān)控系統(tǒng)負載、用戶數量。通過對比部門排班,第一時間發(fā)現(xiàn)用戶數異常。
  同時,對OpenStack的各種告警、ERROR的也添加了監(jiān)控,確保云平臺的穩(wěn)定。對虛擬機網絡、CPU等也進行了相應監(jiān)控,確保虛擬機對于用戶的高可用性。
  3、自動化測試
  通過在瘦客戶端實現(xiàn)用戶輸入輸出模擬,我們實現(xiàn)了全自動的測試環(huán)境。我們搭建了專門的云桌面測試實驗室,數十臺盒子進行7x24小時自動測試,全力驗證系統(tǒng)各項變更,支持業(yè)務各種研究探索,保障系統(tǒng)穩(wěn)定性。
  同時,通過傳統(tǒng)的CI框架,我們搭建了代碼的單元測試、集成測試環(huán)境,已經大量的線上測試用例,不僅有力的保障了軟件質量,還能定期對線上系統(tǒng)進行體檢,第一時間發(fā)現(xiàn)系統(tǒng)異常。

專題

读书| 马尔康县| 河曲县| 阿勒泰市| 沂水县| 霞浦县| 瑞昌市| 兴城市| 禄劝| 福建省| 汶上县| 兰坪| 和硕县| 黑山县| 襄樊市| 慈利县| 德州市| 阳谷县| 凌云县| 乐都县| 两当县| 新泰市| 新余市| 丽江市| 左云县| 云浮市| 宜春市| 青岛市| 竹山县| 常宁市| 舟山市| 苏尼特左旗| 邳州市| 青铜峡市| 永春县| 兴国县| 中卫市| 老河口市| 称多县| 沅江市| 金乡县|