-->
請(qǐng)您遵循相關(guān)法律法規(guī),避免再次出現(xiàn)類似問題
如有任何疑問,請(qǐng)聯(lián)系support@tmtpost.com
關(guān)閉
第四課:通用集群對(duì)深度學(xué)習(xí)系統(tǒng)的挑戰(zhàn)
小欣:本期課程的最后一節(jié),于洋老師會(huì)為我們講解通用集群對(duì)于深度學(xué)習(xí)系統(tǒng)的挑戰(zhàn)。
于洋:通用集群對(duì)深度學(xué)習(xí)是一個(gè)全新的挑戰(zhàn),它包括以下幾個(gè)方面:
通用集群首先會(huì)將任進(jìn)程成很多的組,每組構(gòu)成一個(gè)Job,這些作業(yè)中有的是Web 服務(wù)、有的是流式數(shù)據(jù)處理作業(yè)還有深度學(xué)習(xí)作業(yè)。
這個(gè)集群需要做到服務(wù)隔離、多用戶。因?yàn)檫@個(gè)集群上跑了眾多的任務(wù),一個(gè)任務(wù)掛掉不可以讓其他的任務(wù)有任何的問題并且由于這個(gè)集群是直接的線上集群,所以它的穩(wěn)定性要求還是非常高的。
這個(gè)集群需要有一定的優(yōu)先級(jí)調(diào)度的能力。比如他首先需要保證線上任務(wù)的穩(wěn)定性,但是也需要在機(jī)器空余的時(shí)候可以去做低優(yōu)先級(jí)的任務(wù)比如實(shí)驗(yàn)性質(zhì)的任務(wù)。
在這種集群里可以對(duì)硬件進(jìn)行高效的利用。比如說HDFS可能更需要的是磁盤的IO或帶寬。但是對(duì)于深度學(xué)習(xí)任務(wù)來講可能更多需要CPU的計(jì)算能力和GPU的計(jì)算能力,他們就可以調(diào)度到同一個(gè)物理節(jié)點(diǎn)上。
這個(gè)集群還需要有自動(dòng)伸縮的功能。比如在白天活躍用戶眾多,集群會(huì)用盡量少的節(jié)點(diǎn)做深度學(xué)習(xí)的訓(xùn)練而用更多的節(jié)點(diǎn)去做深度學(xué)習(xí)的預(yù)測(cè)或者是一個(gè)web服務(wù)進(jìn)程。
但是在晚上我們的用戶又比較少,閑置的機(jī)器就可以去做更多的機(jī)器學(xué)習(xí)的訓(xùn)練任務(wù)讓模型變得越來越好。
深度學(xué)習(xí)系統(tǒng)必須有一定的錯(cuò)誤容忍能力。也就是說在運(yùn)行過程中我們可以殺死任意多的訓(xùn)練節(jié)點(diǎn),將機(jī)器騰出來保證其他的任務(wù)運(yùn)行。
小欣:非常感謝于洋老師的講解,這期課程就到這里了。如果您喜歡這期課程就請(qǐng)大力點(diǎn)贊收藏或轉(zhuǎn)發(fā)~還可以在下方評(píng)論中留下您想要交流的想法和對(duì)本課程的建議~當(dāng)然也歡迎嘉賓推薦或自薦,咱們下期再見!
【版權(quán)歸鈦媒體所有,未經(jīng)許可不得轉(zhuǎn)載】

注冊(cè)郵箱未驗(yàn)證
我們已向下方郵箱發(fā)送了驗(yàn)證郵件,請(qǐng)查收并按提示驗(yàn)證您的郵箱。
如果您沒有收到郵件,請(qǐng)留意垃圾郵件箱。
賬號(hào)合并
經(jīng)檢測(cè),你是“鈦媒體”和“商業(yè)價(jià)值”的注冊(cè)用戶?,F(xiàn)在,我們對(duì)兩個(gè)產(chǎn)品因進(jìn)行整合,需要您選擇一個(gè)賬號(hào)用來登錄。無論您選擇哪個(gè)賬號(hào),兩個(gè)賬號(hào)的原有信息都會(huì)合并在一起。對(duì)于給您造成的不便,我們深感歉意。
Oh! no
您是否確認(rèn)要?jiǎng)h除該條評(píng)論嗎?