【中國(guó)傳動(dòng)網(wǎng) 新品新聞】 NVIDIA于今年10月10日的GPU技術(shù)大會(huì)上發(fā)布了一款針對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的GPU加速平臺(tái)---RAPIDS。
作為科技行業(yè)的熱點(diǎn),人工智能(AI)與機(jī)器學(xué)習(xí)正持續(xù)受到業(yè)界的關(guān)注。調(diào)研機(jī)構(gòu)Gartner表示人工智能和先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)是被廣泛關(guān)注的新興技術(shù),將在企業(yè)甚至整個(gè)行業(yè)中掀起革命浪潮。它們能夠大幅度降低勞動(dòng)力成本,產(chǎn)生意想不到的新見(jiàn)解,從原始數(shù)據(jù)中發(fā)現(xiàn)新模式,并建立預(yù)測(cè)模型。據(jù)分析師估計(jì),面向數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的服務(wù)器市場(chǎng)每年價(jià)值約為200億美元,加上科學(xué)分析和深度學(xué)習(xí)市場(chǎng),高性能計(jì)算市場(chǎng)總價(jià)值大約為360億美元。
“數(shù)據(jù)分析和機(jī)器學(xué)習(xí)是高性能計(jì)算市場(chǎng)中最大的細(xì)分市場(chǎng),不過(guò)目前尚未實(shí)現(xiàn)加速。”NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛在GPU技術(shù)大會(huì)主旨演講中表示,“全球最大的行業(yè)均在海量服務(wù)器上運(yùn)行機(jī)器學(xué)習(xí)算法,目的在于了解所在市場(chǎng)和環(huán)境中的復(fù)雜模式,同時(shí)迅速、精準(zhǔn)地做出將直接影響其基礎(chǔ)的預(yù)測(cè)。”
在這種趨勢(shì)下,NVIDIA于今年10月10日的GPU技術(shù)大會(huì)上發(fā)布了一款針對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的GPU加速平臺(tái)---RAPIDS。日前,NVIDIA在京召開(kāi)了媒體溝通會(huì),系統(tǒng)講解了RAPIDS的應(yīng)用場(chǎng)景、平臺(tái)性能和生態(tài)策略。在NVIDIA亞太區(qū)解決方案架構(gòu)高級(jí)總監(jiān)趙立威看來(lái),RAPIDS能夠幫助超大規(guī)模公司以前所未有的速度分析海量數(shù)據(jù)并進(jìn)行精準(zhǔn)的業(yè)務(wù)預(yù)測(cè),顯著提升端到端預(yù)測(cè)數(shù)據(jù)分析能力。
圖NVIDIA亞太區(qū)解決方案架構(gòu)高級(jí)總監(jiān)趙立威
后摩爾時(shí)代下的GPU加速需求
眾所周知,機(jī)器學(xué)習(xí)包含了數(shù)據(jù)、特征以及算法。趙立威介紹對(duì)于數(shù)據(jù)科學(xué)家而言,一個(gè)標(biāo)準(zhǔn)的系統(tǒng)流程是數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)訓(xùn)練與可視化呈現(xiàn)三個(gè)步驟,其中數(shù)據(jù)準(zhǔn)備主要進(jìn)行數(shù)據(jù)特征的提取、數(shù)據(jù)的合并以及降維等;數(shù)據(jù)訓(xùn)練則是一個(gè)不斷循環(huán)的過(guò)程,通過(guò)參數(shù)調(diào)整、優(yōu)化使精度更高;最后進(jìn)行上線展示,從而進(jìn)一步運(yùn)營(yíng)。
圖數(shù)據(jù)科學(xué)通用流程
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,不管是在數(shù)據(jù)處理還是訓(xùn)練的過(guò)程,都需要大量的計(jì)算力,而在后摩爾時(shí)代,數(shù)據(jù)的增長(zhǎng)量遠(yuǎn)遠(yuǎn)超過(guò)了計(jì)算力,基于Hadoop、SPARK的分布式節(jié)點(diǎn)加速會(huì)越來(lái)越困難。趙立威表示雖然市場(chǎng)出現(xiàn)了GPUDatabase技術(shù),但并沒(méi)有把數(shù)據(jù)的準(zhǔn)備、操作、ETL過(guò)程和機(jī)器學(xué)習(xí)訓(xùn)練整合成一個(gè)pipeline。對(duì)于GPU加速深度學(xué)習(xí)而言,它本質(zhì)是加速了計(jì)算的應(yīng)用,而數(shù)據(jù)分析和機(jī)器學(xué)習(xí)目前是最大的HPC應(yīng)用分支,伴隨著未來(lái)高速增長(zhǎng),它對(duì)計(jì)算力有著巨大的需求。對(duì)此,NVIDIA推出GPU加速平臺(tái)RAPIDS,該平臺(tái)已與全球最流行的數(shù)據(jù)科學(xué)庫(kù)及工作流無(wú)縫整合,可加速機(jī)器學(xué)習(xí),如包括Anaconda、BlazingDB、Graphistry、NERSC、PyData、INRIA和UrsaLabs在內(nèi)的主要開(kāi)源貢獻(xiàn)者,都在RAPIDS推出后立即給予了其廣泛的生態(tài)系統(tǒng)支持。
這里,趙立威展示了一個(gè)形象的例子,在過(guò)去數(shù)據(jù)工程師每天的大部分時(shí)間都在喝咖啡中度過(guò),因?yàn)閿?shù)據(jù)處理的過(guò)程中涉及到大量等待時(shí)間。應(yīng)用RAPIDS后,相較于下圖左邊的等待時(shí)間,右圖的效率得到了大大的提高,數(shù)據(jù)科學(xué)家可與更加專(zhuān)注與建模、測(cè)試與進(jìn)行數(shù)據(jù)分析工作。RAPIDS為數(shù)據(jù)科學(xué)家提供了他們需要用來(lái)在GPU上運(yùn)行整個(gè)數(shù)據(jù)科學(xué)管線的工具。最初的RAPIDS基準(zhǔn)分析利用了XGBoost機(jī)器學(xué)習(xí)算法在NVIDIADGX-2?系統(tǒng)上進(jìn)行訓(xùn)練,結(jié)果表明,與僅有CPU的系統(tǒng)相比,其速度能加快50倍。這可以幫助數(shù)據(jù)科學(xué)家將典型訓(xùn)練時(shí)間從數(shù)天減少到數(shù)小時(shí),或者從數(shù)小時(shí)減少到數(shù)分鐘,具體取決于其數(shù)據(jù)集的規(guī)模。
圖數(shù)據(jù)科學(xué)家應(yīng)用RAPIDS的日常對(duì)比
開(kāi)源生態(tài)提升數(shù)據(jù)分析能力
趙立威介紹RAPIDS構(gòu)建于ApacheArrow、pandas和scikit-learn等流行的開(kāi)源項(xiàng)目之上,為最流行的Python數(shù)據(jù)科學(xué)工具鏈帶來(lái)了GPU提速。為了將更多的機(jī)器學(xué)習(xí)庫(kù)和功能引入RAPIDS,NVIDIA廣泛地與開(kāi)源生態(tài)系統(tǒng)貢獻(xiàn)者展開(kāi)合作,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、UrsaLabs負(fù)責(zé)人兼ApacheArrow締造者WesMcKinney以及迅速增長(zhǎng)的Python數(shù)據(jù)科學(xué)庫(kù)pandas等等。
從硬件的角度,除了NVIDIA的DGX-2、DGX-1、DGXstation外,RAPIDS還包括一系列合作伙伴基于HGX-1、HGX-2兩種架構(gòu)提供的硬件產(chǎn)品。此外,NVIDIA也在跟下游的ODM、OEM廠商合作,進(jìn)一步拓展RAPIDS的運(yùn)行和使用。
目前,趙立威介紹包括HPE、IBM、Oracle、開(kāi)源社區(qū)、創(chuàng)業(yè)公司等都在積極采用RAPIDS,顯著提升端到端預(yù)測(cè)數(shù)據(jù)分析能力。例如沃爾瑪已經(jīng)采用RAPIDS實(shí)現(xiàn)了復(fù)雜模式大規(guī)模地運(yùn)行,同時(shí)進(jìn)行更加精準(zhǔn)的預(yù)測(cè)。最后,他總結(jié)RAPIDS包含以下特點(diǎn):
無(wú)憂一體化:只需要使用最少的代碼加速Python數(shù)據(jù)科學(xué)工具鏈,不需要重新編碼或者使用新工具;
在任何GPU上擴(kuò)展:從GPU工作站到多GPU服務(wù)器的無(wú)縫擴(kuò)展多節(jié)點(diǎn)集群;
頂級(jí)模型精度:通過(guò)更快地迭代模型來(lái)提高機(jī)器學(xué)習(xí)模型的準(zhǔn)確性,并更迅捷地實(shí)現(xiàn)部署;
減少培訓(xùn)時(shí)間:通過(guò)交互數(shù)據(jù)科學(xué)大幅提高工作效率;
開(kāi)源可定制,可擴(kuò)展,可互操作:這里趙立威特別強(qiáng)調(diào)開(kāi)源一方面是指NVIDIA支持并基于ApacheArrow構(gòu)建,與PYTHON、SPARK、DASK等所有開(kāi)源社區(qū)保持緊密合作;另一方面,因?yàn)镽APIDS本身的開(kāi)源特性,未來(lái)也希望有跟多的開(kāi)發(fā)者能夠貢獻(xiàn)代碼,不斷的完善平臺(tái)、豐富它的基礎(chǔ)特性、服務(wù)于更多的應(yīng)用場(chǎng)景。