英特爾第三代至強處理器解決AI難題
公布時間間隔:2021-05-27 17:13:52
如何消除智能化鴻溝?
企業在AI應用開發和使用各階段可能遇到的挑戰,雖然不全,但已足夠“挑戰”
意外!CPU成AI云服務熱門選擇
有趣的是,CPU作為通用處理器,在AI云服務的搶眼程度,并不亞于專用的AI加速芯片。通過實際應用分析,我們不難發現,如果不是專注于AI算法模型訓練和開發的企業,大多數企業使用AI時其實更偏推理型的應用。對他們來說,基于CPU平臺的云服務,特別是集成了可加速AI應用的AVX-512技術和深度學習加速技術的英特爾® 至強® 平臺的(de)AI云服(fu)務(wu),其實(shi)在很多(duo)應用場景中(zhong)都(dou)足以應對實(shi)戰需求(qiu),且不論對于他們,還是云服(fu)務(wu)提(ti)供商(shang)而言,部署都(dou)更(geng)快、更(geng)便捷,上手(shou)門檻也低。
就這樣,可能與大家的印象相悖,CPU成為了很多云服務提供商輸出,以及企業采用AI云服務時的熱門選擇,這使得以CPU為基礎設施的AI云服務異軍突起。
用CPU做AI云服務,集成AI加速是前提
作為老牌CPU廠商的英特爾,早在2017年就于第一代英特爾® 至強® 可擴展處理器上導入了可以加速浮點運算(涵蓋AI運算)的AVX-512技術;而后又在2019年推出的第二代英特爾® 至強® 可擴展處理器上集成了可以加速INT8的英特爾® 深度學習加速技術,專攻推理優化;2020年和今年,分別面向多路和單、雙路服務器的第三代英特爾® 至強® 可擴展(zhan)處理器依次亮(liang)相,后者靠INT8加速主攻(gong)推(tui)理,前者則通過同(tong)時支持INT8和BF16加速,兼顧了CPU上的AI訓練和推(tui)理任務(wu)。
2021年面向單路和雙路服務器的全新第三代英特爾® 至強® 可擴展處理器的主要優勢,包括再次提升AI推理性能
CPU AI云服務第一式,軟硬打包上手快
得益于英特爾提供的全面AI加速軟硬件組合,多數云服務提供商無需做更多調整和優化,就可迅速打造出針對AI的基礎設施即服務或AI云主機產品。簡單來說,就是將集成AI加速能力的英特爾® 至強® 可擴展(zhan)平臺(tai)與我們提到的(de)軟件(jian)工(gong)具,例如oneDNN或(huo)面向英(ying)特(te)爾架(jia)構優化(hua)的(de)AI框(kuang)架(jia)軟硬打包,就(jiu)可快(kuai)速形(xing)成(cheng)易(yi)于部署和擴展(zhan)的(de)AI云主機鏡像。
國內有云服務提供商早在2017年就進行了類似的嘗試,通過使用英特爾優化軟件,它激活了英特爾® 至強® 平臺的(de)AI加(jia)速潛(qian)能,并(bing)在部分(fen)應(ying)用場景實現了可與(yu)GPU相(xiang)媲美的(de)推理(li)性能。
如果僅有性能優化還不夠,還需要更快的模型部署能力,那就可以像CDS首云一樣導入OpenVINO?。它通過英特爾® 至強® 可(ke)擴(kuo)展(zhan)平(ping)臺(tai)、高性(xing)能(neng) K8S 容器平(ping)臺(tai)和OpenVINO Model Server這(zhe)三者的(de)組合(he)大幅簡(jian)化了AI模型的(de)部署(shu)、維護和擴(kuo)展(zhan)。性(xing)能(neng)實測(ce)結果也表明,OpenVINO?不僅在用戶(hu)并發接入能(neng)力上優(you)于首(shou)云此前采用的(de)AI框架,在推理應用的(de)時延等(deng)關鍵性(xing)能(neng)指標(biao)上也有良好表現。
CDS首云AI云服務方案架構
CPU AI云服務第二式,深度優化收益多
僅僅是導入英特爾已經就緒的AI軟硬件組合,就已能輸出令人滿足的AI云服務了,那么如果是和英特爾在AI云服務的算法及模型上進行更深入的優化,又會有什么(me)驚(jing)喜(xi)呢?像阿里云(yun)這樣的頭部云(yun)服務提供(gong)商就(jiu)通過實戰(zhan)給出了答案(an)。
以阿里云為例,其機器學習平臺PAI在與英特爾的合作中,利用了第三代英特爾® 至強® 可擴展處理器支持的bfloat16加速,來主攻PAI之上BERT性能的調優,具體來說就是以經過優化的Float32 Bert模型為基準,利用BF16加速能力優化了該模型的MatMul算子,以降低延遲。測試結果表明:與優化后的FP32 Bert模型相比,英特爾® 至強® 平(ping)臺BF16加速(su)能(neng)力能(neng)在不降低準確率的情況下,將BERT模型推理性能(neng)提升達1.83倍。
阿里云PAI BERT 模型優化方案
CPU AI云服務第三式,扎根框架打根基
為這個問題輸出答案的是百度,它的開源深度學習平臺“飛槳”先后結合第二代和第三代英特爾® 至強® 可擴展處理器在(zai)計(ji)算(suan)、內存(cun)、架構和通信等多層面進行了(le)基礎性(xing)的(de)(de)(de)優化。其(qi)結果也是普惠性(xing)的(de)(de)(de)——優化后的(de)(de)(de)飛槳(jiang)框架能夠充分調(diao)動深(shen)度(du)學習加速技術,可將眾多AI模(mo)(mo)型,特別(bie)是圖(tu)像分類(lei)、語(yu)音(yin)識(shi)別(bie)、語(yu)音(yin)翻譯、對象(xiang)檢(jian)測(ce)類(lei)的(de)(de)(de)模(mo)(mo)型從FP32瘦(shou)身到INT8,在(zai)不影響(xiang)準(zhun)確度(du)的(de)(de)(de)情況(kuang)下(xia),大(da)幅(fu)提升它們(men)的(de)(de)(de)推理速度(du)。
英特爾深度學習加速技術可通過1條指令執行8位乘法和32位累加,INT8 OP理論算力峰值增益為FP32 OP的4倍
例如在圖像分類模型ResNet50的測試中,飛槳搭配英特爾今年發布的全新第三代英特爾® 至強® 可(ke)(ke)擴展處(chu)理器對其(qi)進行INT8量化后(hou),其(qi)推理吞吐量可(ke)(ke)達FP32的3.56倍之多。
如此性能增幅,再加上CPU易于獲取、利用和開發部署的優勢,讓飛槳的開發者們可借助AI框架層面的優化,更加快速、便捷地創建自己可用CPU加速的深度學習應用。而為了給企業開發者們提供更多便利,百度還推出了EasyDL和BML(Baidu Machine Learning)全功能AI開發平臺,通過飛槳基于全新第三代英特爾® 至強® 可擴(kuo)展處理器的優(you)化加速,來為企(qi)業(ye)提(ti)供一站(zhan)式AI開發服務。
百度飛槳開源深度學習平臺與飛槳企業版
展望未來,跨越智能化鴻溝不僅靠算力
好消息是,國內的云服務提供商也早已和英特爾就此展開了前瞻創新,例如百度智能云早在2019年就推出了ABC(AI、Big Data、Cloud)高性能對象存儲解決方案,能利用英特爾® 傲(ao)騰? 固態盤(pan)的高(gao)性能(neng)、低(di)時延和高(gao)穩(wen)定(ding)來滿足(zu)AI訓練對(dui)數據的高(gao)并發迭代(dai)吞吐(tu)需求(qiu)。
值得一提的是,英特爾在今年發布全新第三代英特爾® 至強® 可擴展處理器時,也帶來了與其搭檔的英特爾® 傲騰? 持久內存200系列和英特爾® 傲騰? 固態(tai)盤(pan)P5800X。
與全新第三代英特爾® 至強® 可擴展處理器搭配使用的英特爾® 傲騰? 持久內存和英特爾® 傲騰? 固態盤新品