亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當(dāng)前的位置是:  首頁 > 資訊 > 國內(nèi) >
 首頁 > 資訊 > 國內(nèi) >

Habana Gaudi 加速器首次運(yùn)用于Amazon EC2云

2021-11-22 09:53:35   作者:   來源:CTI論壇   評論:0  點擊:


  近日AWS宣布將推出采用Habana Gaudi AI加速器的Amazon EC2 DL1.24xlarge實例。這是AWS首個不基于GPU的AI訓(xùn)練實例。
  AWS首席執(zhí)行官Andy Jassy在2020 re:Invent和AWS最近宣布實例應(yīng)用的活動上,介紹了創(chuàng)建這一新型訓(xùn)練實例類的初衷:“為終端客戶提供比目前這一代基于GPU的實例性價比提升40%的新實例。”
  以下詳述Gaudi在常用計算機(jī)視覺和自然語言處理工作量方面具備的成本效益。
  AWS針對EC2 DL1實例以及基于GPU的p4d、p3dn和p3實例發(fā)布了DL1按需每小時定價,終端用戶可以通過一種簡單的方法來自行評估性價比。采用Nvidia在NGC上以及Habana在軟件Vault中提供的最新TensorFlow Docker容器,并分別在不同實例上運(yùn)行這些容器,可比較訓(xùn)練吞吐量和每小時定價。
  不同的模型提供的結(jié)果不同,而且Gaudi上目前也并非支持所有模型。在本次評估中,我們考慮的是兩種常用模型:ResNet-50和BERT-Large。
  以下表格例舉在各種實例類型上訓(xùn)練TensorFlow ResNet-50的訓(xùn)練吞吐量、每小時定價和計算出的吞吐量/美元(即百萬張圖像/美元)。以p4d.24xlarge實例上設(shè)置的性價比為基準(zhǔn),我們可計算出對于此工作量,其他每種實例類型的相對值,以及DL1為目前使用基于GPU實例的EC2終端客戶所節(jié)省的相應(yīng)成本百分比。
  
  根據(jù)Habana對各種EC2實例的測試結(jié)果以及Amazon發(fā)布的定價,相比p4d實例,DL1能節(jié)省44%的ResNet-50訓(xùn)練成本。對于p3dn最終用戶,ResNet-50的訓(xùn)練成本可節(jié)省69%。
  Habana認(rèn)識到MLPerf性能基準(zhǔn)測試的重要性,用戶可以查找在6月份發(fā)布的針對8個基于Gaudi的系統(tǒng)進(jìn)行基準(zhǔn)測試的1.0提交結(jié)果 - 與DL1.24xlarge非常類似。在此次MLPerf提交結(jié)果中,Habana并沒有應(yīng)用數(shù)據(jù)封裝或?qū)尤诤系阮~外的軟件優(yōu)化功能來提高性能。我們的目標(biāo)是提交的結(jié)果與參考代碼最接近,并能代表客戶使用目前的SynapseAI TensorFlow軟件可以獲得的即時可用性能。因此,客戶能輕松對模型進(jìn)行小幅調(diào)整(更改數(shù)據(jù)、切換層等),同時保持性能相差無幾。在TensorFlow上測得的MLPerf TTT結(jié)果與早期客戶現(xiàn)在看到的訓(xùn)練吞吐量相似。
  雖然每個實例的絕對吞吐量有所下降,但基于Gaudi的EC2 DL1定價遠(yuǎn)低于p4d。這是怎么做到的呢?盡管基于16nm和HBM2的Gaudi封裝的晶體管數(shù)量不如基于7nm和HBM2e的A100 GPU那么多,但Gaudi的架構(gòu)以效率為宗旨進(jìn)行了全新設(shè)計,相較于GPU架構(gòu),Gaudi架構(gòu)的資源利用率更高,包含的系統(tǒng)組件更少。結(jié)果,系統(tǒng)成本下降,從而為最終用戶提供更低價格。
  在語言模型中,Gaudi與GPU的性價比提升幅度不如視覺模型,相比p4d,成本節(jié)省了10%,相比p3dn,成本節(jié)省了54%。BERT-Large是目前常用的一種模型,使用第1階段中的吞吐量來代表用戶可以自行測量的性能。下面是在實際EC2實例上使用Nvidia的NGC中以及Habana的Vault和GitHub中發(fā)布的最新即時可用容器和模型超參數(shù)針對TensorFlow所測得的結(jié)果。
 
  Habana提交的MLPerf BERT結(jié)果代表了客戶通過目前的SynapseAI? TensorFlow軟件可獲得的即時可用性能。因此,客戶可能輕松對模型進(jìn)行小幅調(diào)整,同時保持性能相差無幾。
  NVIDIA在MLPerf BERT提交結(jié)果中采用了一系列優(yōu)化功能,這些功能在其已發(fā)布的軟件中未提供,也很難用于一般用途。例如,他們將整個multi-head attention block融合到單一內(nèi)核中。如果客戶希望對長序列使用不同的attention,他們將不得不更改內(nèi)核,否則會導(dǎo)致性能下降。NVIDIA還使用了在其標(biāo)準(zhǔn)軟件分發(fā)中未提供的自定義數(shù)據(jù)加載技術(shù)。
  將A100與DL1在NGC提供的最新Tensorflow AMI(基于21.06-tf1-py3 NGC Docker容器)上的BERT性能進(jìn)行對比,從中可以看出就算是對于BERT也能節(jié)省成本。Habana計劃下個月向MLPerf提交對BERT實施軟件優(yōu)化后的結(jié)果,其中將證明相比5月份的提交結(jié)果,性能有顯著提高。
  Gaudi的價值主張立足于性價比和易用性。Habana提供的架構(gòu)選項旨在提升效率,不會讓終端用戶遷移到Gaudi的工作產(chǎn)生困難。
  如果您有興趣了解提前獲得Gaudi訪問權(quán)限的開發(fā)人員對Gaudi和DL1的看法,請參閱Habana專題介紹Amazon EC2 DL1實例的產(chǎn)品頁面,其中引述了Seagate、Riskfuel、Leidos 等公司相關(guān)人員的想法。
  “我們預(yù)計,搭載Habana Gaudi加速器的Amazon EC2 DL1實例所具備的顯著性價比優(yōu)勢,在未來很可能會成為AWS計算集群的有力補(bǔ)充,”Seagate高級分析部運(yùn)營與技術(shù)高級分析工程總監(jiān)Darrell Louder表示:“隨著Habana Labs的不斷發(fā)展,支持的運(yùn)營商覆蓋范圍越來越大,有潛力擴(kuò)展來支持更多的企業(yè)用例,從而進(jìn)一步節(jié)省成本。”
  “AI和深度學(xué)習(xí)是我們機(jī)器視覺能力的核心,有助于客戶在我們服務(wù)的各個行業(yè)中做出更好的決策。為了提高準(zhǔn)確性,數(shù)據(jù)集變得越來越大,越來越復(fù)雜,因此需要更大、更復(fù)雜的模型。這就推動了提高計算性價比的需求,”Fractal集團(tuán)首席執(zhí)行官Srikanth Velamakanni說:“與基于GPU的EC2實例相比,新的Amazon EC2 DL1實例承諾能顯著降低訓(xùn)練成本。我們預(yù)計,對于廣泛的客戶來說,這一優(yōu)點將使云端的AI模型訓(xùn)練無論在成本競爭力還是可訪問性方面都較以往有大幅提升。”
  Leidos衛(wèi)生與公共服務(wù)部首席技術(shù)官Chetan Paul表示:“目前我們支持推動醫(yī)療保健進(jìn)步的眾多技術(shù)中,其中一項技術(shù)是使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)基于醫(yī)學(xué)成像數(shù)據(jù)對疾病進(jìn)行診斷。我們的海量數(shù)據(jù)集需要及時、高效的訓(xùn)練,為苦心鉆研一些最亟待解決的醫(yī)學(xué)謎題的研究人員提供幫助。由于Leidos及其客戶需要對深度學(xué)習(xí)模型進(jìn)行快速簡單而又經(jīng)濟(jì)高效的訓(xùn)練,我們很高興與英特爾和AWS攜手,共同踏上基于Habana Gaudi AI處理器的Amazon EC2 DL1實例的發(fā)展之旅。使用DL1實例后,我們預(yù)計模型訓(xùn)練速度和效率都會有所提升,進(jìn)而降低研發(fā)風(fēng)險和成本。”
  Riskfuel首席執(zhí)行官Ryan Ferguson表示:“有兩個因素吸引我們采用基于Habana Gaudi AI加速器的Amazon EC2 DL1實例。一是我們希望確保銀行和保險業(yè)客戶可以運(yùn)行利用了最新硬件的Riskfuel模型。幸運(yùn)的是,我們發(fā)現(xiàn)將模型遷移到DL1實例非常簡單 — 實際上,只需更改幾行代碼即可。二是訓(xùn)練成本在我們的支出中占主要部分,高達(dá)40%的性價比提升承諾對我們的利潤有著潛在的實質(zhì)性好處。”
  如今,我們的參考模型存儲庫中有20種高需求模型,我們已經(jīng)制定了路線圖,計劃對這些模型以及軟件功能進(jìn)行擴(kuò)展。您也可以在Habana的GitHub上查看對所有人開放的該路線圖。
  開發(fā)者之旅始于SynapseAI SDK。SDK的詳細(xì)信息在此不再贅述;如果您想了解SDK的更多信息,請查看我們的文檔頁面。SynapseAI?軟件產(chǎn)品組合旨在促進(jìn)基于Habana Gaudi加速器的高性能深度學(xué)習(xí)訓(xùn)練。它包括Habana圖形編譯器和運(yùn)行時、TPC內(nèi)核庫、固件和驅(qū)動程序以及開發(fā)人員工具,如用于自定義內(nèi)核開發(fā)的Habana分析器和TPC SDK。
  SynapseAI與TensorFlow和PyTorch框架相集成。與Gaudi PyTorch集成相比,TensorFlow集成更加成熟,因為后者的開發(fā)時間比前者晚了半年。
  因此,相較于Habana在TensorFlow模型的表現(xiàn),Habana 在PyTorch模型上的性能略低(吞吐量和訓(xùn)練時間)。在SynapseAI用戶指南中以及GitHub上的參考模型中記錄了已知限制。此外,還在Habana開發(fā)人員網(wǎng)站上發(fā)布了參考模型的性能結(jié)果。Habana團(tuán)隊致力于在后續(xù)發(fā)行版中不斷提升易用性和性能。
  我們十分清楚,在進(jìn)一步開發(fā)軟件和模型覆蓋范圍方面還有很多工作要做,將依靠數(shù)據(jù)研究人員和開發(fā)人員來探索Gaudi,并向我們提供相應(yīng)的反饋和請求。期待通過開發(fā)人員站點和GitHub,對于云端(通過 Amazon EC2 DL1 實例)和本地使用Gaudi的問題與DL社區(qū)進(jìn)行互動。
  下一步,在軟件方面還有很多工作要做,與此同時 — Habana 正在開發(fā)下一代Gaudi2 AI處理器,新一代處理器將Gaudi架構(gòu)從16nm提升到7nm,進(jìn)一步提高了性價比,造福于終端客戶,同時保持相同的架構(gòu),并充分利用Gaudi構(gòu)建的相同SynapseAI軟件和生態(tài)系統(tǒng)。
  目前,Habana團(tuán)隊對通過基于Gaudi的Amazon EC2 DL1實例,為AI提供AWS云中最具成本效益的訓(xùn)練感到滿意。
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)

长治市| 铜鼓县| 白朗县| 马尔康县| 安福县| 江陵县| 湖州市| 英山县| 苍梧县| 沁水县| 高密市| 治多县| 沙田区| 东辽县| 嘉兴市| 横山县| 金堂县| 杭州市| 临洮县| 龙川县| 山阴县| 三台县| 凤台县| 双流县| 姜堰市| 莎车县| 大兴区| 五寨县| 北安市| 绍兴市| 平武县| 竹山县| 仁寿县| 昆山市| 平和县| 浏阳市| 科尔| 新和县| 莱州市| 吐鲁番市| 侯马市|