-->
第三課:通用AI集群應(yīng)該怎么搭建?
小欣:這節(jié)課,于洋老師會為我們講解通用AI集群應(yīng)該怎么搭建。
于洋:專用集群其實是更常見的一種集群配置模式。比如說我們公司有存儲的需求,我就配置一個Hadoop集群去使用HDFS,有線下處理的需求,我再用Hadoop的Map-Reduce集群去做線下處理。
對于網(wǎng)站的話,網(wǎng)站前端大家會配置一個nginx集群,再使用kalfka將網(wǎng)站的一些日志收集下來,再給AI處理。
專用集群的架構(gòu)就是把幾個事情分別部署在不同的機器里,這些機器是相互隔離,不能互相訪問的。這樣做的好處其實是顯而易見的,因為不同應(yīng)用分別跑在不同的物理機里,可以避免不同應(yīng)用之間的相互影響,但是壞處也很明顯,就是成本會很高,每個集群其實物理硬件的利用率是不夠的。
下面我以一個語音識別服務(wù)舉例,說明一個通用AI集群應(yīng)該怎么搭建。
下圖是一個通用集群的簡單示意圖,這個集群里有很多GPU的服務(wù)器,也有很多CPU的服務(wù)器,他們都部署在一個集群里。在這個集群的機器之上運行著Kubernetes。
Kubernetes是一個谷歌開源的分布式的操作系統(tǒng)。在2007年的時候,谷歌就使用集群操作系統(tǒng)Borg,通過混合部署各種來源的各種任務(wù),將CPU的利用率一直維持在75%到80%左右。
這對企業(yè)的成本是一個極大的降低。之前我們說過普遍專用集群的資源利用率大概在20%左右,如果我們使用一個集群操作系統(tǒng)去管理集群的任務(wù),那么硬件利用率可以提升到75%到80%左右,這樣一個通用集群就相當于普通的四個左右的專用集群。
通用集群數(shù)據(jù)還是存儲在HDFS上,在HDFS上有一些有標簽的數(shù)據(jù),這些數(shù)據(jù)送給PaddlePaddle做線下訓練。在這個系統(tǒng)的前端就是一個語音識別的服務(wù),用戶去提交自己的語音后返回一段文字。
在這個前端語音識別API里用戶實時提交的語音數(shù)據(jù)就形成了一個實時的日志,這個日志就會被其他的進程收集下來,比如使用Kalfka進行收集,再去做一些線上的預處理,進而將這些數(shù)據(jù)繼續(xù)傳遞給PaddlePaddle做訓練。這樣PaddlePaddle既可以支持線下的大批量的數(shù)據(jù)訓練,也可以支持線上的實時的數(shù)據(jù)訓練。
在目前眾多的深度學習平臺里似乎沒有一個平臺再去考慮如何在通用集群里更好地進行訓練。這是因為大部分的深度學習平臺都是大企業(yè)開發(fā)的,在大企業(yè)中,通用集群的訓練對他們來講并不重要,但這對初創(chuàng)企業(yè)是至關(guān)重要的。
小欣:下節(jié)課,于洋老師會為我們講解通用集群對深度學習系統(tǒng)的挑戰(zhàn)。
【版權(quán)歸鈦媒體所有,未經(jīng)許可不得轉(zhuǎn)載】

賬號合并
經(jīng)檢測,你是“鈦媒體”和“商業(yè)價值”的注冊用戶?,F(xiàn)在,我們對兩個產(chǎn)品因進行整合,需要您選擇一個賬號用來登錄。無論您選擇哪個賬號,兩個賬號的原有信息都會合并在一起。對于給您造成的不便,我們深感歉意。
Oh! no
您是否確認要刪除該條評論嗎?