蘋果CEO喬布斯在患癌癥時,花費了10萬美元對自己的腫瘤及全基因譜進行了測序。著名好萊塢安吉麗娜?朱莉也曾在媒體前透露,通過基因檢測選擇了切除乳腺手術(shù),將患乳腺癌風險從87%降到了5%。強大的明星效應(yīng)引領(lǐng)起了基因檢測的熱潮,也把這個神奇的技術(shù)推向流行之巔。
在未來,基因檢測術(shù)將會成為醫(yī)療不可或缺的一部分。越來越多的人會進行基因測序來了解自己的生命體征和健康狀況。國內(nèi)最大的基因檢測機構(gòu)——華大基因,也正在抓住機會,用信息技術(shù)提升基因檢測技術(shù),致力于提供更好的基因服務(wù)。
華大基因成立于1999年,目前已經(jīng)完成國際人類基因組計劃“中國部分”(1%,承擔其中絕大部分工作)、國際人類單體型圖計劃(10%)、第一個亞洲人基因組圖譜(“炎黃一號”)等多項具有國際先進水平的基因組研究工作。世界領(lǐng)先的測序能力和生物信息分析能力,奠定了中國在基因組學研究領(lǐng)域中的國際領(lǐng)先地位。
基因,這個被我們熟悉卻又十分陌生的詞匯開始頻繁出現(xiàn)。然而基因檢測海量、復(fù)雜、多變的數(shù)據(jù)計算需求一直是華大基因前進道路上的鴻溝。解決數(shù)據(jù)分析和計算成了必須要克服的問題。
目前,華大基因已在深圳、香港、北京和武漢等地建立多個大型生物信息超級計算中心,總峰值計算能力達到200T flops,總內(nèi)存容量達到35TB,總存儲能力達到16PB。這為海量生物信息學數(shù)據(jù)的存儲、處理和分析提供了穩(wěn)定而高效的保障。其中位于深圳和香港的兩個中心,是目前中國最大的兩個生物信息超級計算中心。
當帕金森遇上大數(shù)據(jù)
2014年8月13日,邁克爾?J???怂古两鹕习Y研究基金會(MJFF)和英特爾公司對外宣布了一項合作,促進帕金森氏癥的研究和治療——帕金森氏癥是一種全球范圍的、患病率僅次于阿茲海默氏癥的神經(jīng)退行性腦部疾病。這項合作將利用全新的大數(shù)據(jù)分析平臺進行多階段研究——利用可穿戴技術(shù)監(jiān)測患者癥狀,并用收集得來的數(shù)據(jù)探索相關(guān)模型。
可穿戴設(shè)備能夠24×7全天候地在后臺實時收集和傳輸相關(guān)客觀數(shù)據(jù)。通過這種方法,研究人員能以每秒數(shù)百讀數(shù)的速度分析來自成千上萬患者的數(shù)據(jù),同時獲得海量數(shù)據(jù)以用于探索模型和獲取新發(fā)現(xiàn),再也不必受限于零星收集得來的少量數(shù)據(jù)信息和繁雜的書面患者日志。
所有這些,都可進一步幫助實現(xiàn)針對帕金森氏癥本質(zhì)的洞察,從而幫助科學家們衡量新藥品的功效,以及協(xié)助醫(yī)生制定預(yù)后方案。
英特爾公司高級副總裁兼數(shù)據(jù)中心事業(yè)部總經(jīng)理柏安娜表示,“帕金森氏癥癥狀的多樣性給疾病檢測的進展帶來了巨大挑戰(zhàn)。新興的技術(shù)不僅可以創(chuàng)建一個測量帕金森氏癥的全新范例,還能為醫(yī)學界提供更多數(shù)據(jù),以便找出目前尚未明確的疾病特征,從而開拓全新的研究領(lǐng)域?!?/p>
大數(shù)據(jù)和云計算給醫(yī)療界帶來了新的光明,利用它們來解決基因測序帶來的問題是大勢所趨。
解決信息技術(shù)瓶頸
“只有以科學發(fā)展,以大技術(shù)、大平臺、大數(shù)據(jù)支撐下的基因產(chǎn)業(yè),才是無窮無盡的,永遠沒有冬天?!比A大基因總裁、深圳華大基因研究院院長汪建先生如是說。這也最終促成了華大基因與英特爾的合作。
華大基因在基因測序計算中應(yīng)用的BWA(Burrows-Wheeler Aligner),是基因研究中一款十分優(yōu)秀并且被廣泛使用的序列比對軟件。由于BWA軟件代碼分支多,并且有很多隨機訪問,起初大家都不看好BWA的移植效果。但實際測試性能卻已經(jīng)完全出乎專家預(yù)期。
BWA包括6種優(yōu)化方法。第一,使用OpenMP代替Pthreads, 使用schedule實現(xiàn)負載均衡、使用KMP_AFFINITY=balanced, granularity=thread實現(xiàn)線程綁定。第二,使用雙緩存,同時進行數(shù)據(jù)讀取和計算。第三,使用TBB的內(nèi)存分配代理取代glibc的內(nèi)存分配。第四,使用多緩存進一步減少IO瓶頸。第五,簡化耗時函數(shù)中的循環(huán)。第六,在Xeon Phi上增加任務(wù)級并行按照輸入文件進行任務(wù)劃分,每個任務(wù)處理一部分輸入數(shù)據(jù),避免OpenMP的Map-Reduce并行模式帶來的負載不均衡的開銷。在嘗試了6種優(yōu)化方法之后,BWA獲得的最好加速比已經(jīng)達到2.19。
而不得不說的是微異構(gòu)代碼遷移和優(yōu)化為基因測序帶來了非常大的優(yōu)勢。華大基因的王丙強博士說:“代碼的修改工作量不大,只需要對源代碼進行很小幅度的修改,是添加一些輔助編譯指示,就能在微異構(gòu)上運行的相當好?!?/p>
臨床應(yīng)用中,借助英特爾的產(chǎn)品技術(shù),計算效率能大大提高。以測序為例,以前傳統(tǒng)的方式需要幾個星期時間,而現(xiàn)在8個小時就可以完成。這是非常大的突破。
這一重大突破的背后,則是英特爾至強融核協(xié)處理器(Xeon Phi)。這是英特爾面向高度并行的高性能計算(HPC)應(yīng)用所推出的協(xié)處理器,能夠提供多達61個內(nèi)核、244個線程和1.2萬億次浮點運算性能。此外,英特爾至強處理器架構(gòu)使用同樣的編程語言、并行模式、技術(shù)和開發(fā)人員工具,具有遷移便捷編程可移植等優(yōu)勢。
其編碼的簡單可移植性,正是基因測序相關(guān)程序中的重要需求。而其強大的計算能力為提高基因測序速度提供源動力,標準的編程模型也為基因測序向至強融核上的移植提供了便利。
在測試基于英特爾微異構(gòu)的高性能計算平臺的同時,華大基因也正在執(zhí)行3M百萬基因組計劃,即百萬動植物基因組計劃、百萬人基因組計劃、百萬微生態(tài)基因組計劃。該項目將聯(lián)合全球科學家,通過上百萬樣本的測序構(gòu)建遺傳信息的數(shù)據(jù)庫,進一步推動基因組測序和生物信息分析技術(shù)在糧食安全、醫(yī)學應(yīng)用、生態(tài)保護等重大發(fā)展問題的應(yīng)用。
而面對如此大規(guī)模的數(shù)據(jù)項目,華大基因的計算能力稍顯不足。在不斷擴充自身計算能力的同時,華大基因還在考慮借助天河二號這樣的超級計算機的計算能力來進行數(shù)據(jù)的計算和分析。
現(xiàn)代生命科學和醫(yī)療健康正轉(zhuǎn)變?yōu)橛纱髷?shù)據(jù)和大計算推動。在這個技術(shù)為王的時代,任何獨立的高端技術(shù)都將面臨寒潮。只有相互協(xié)作,共同探索開發(fā),才能真正的造福于人類。(祁秀菲|整理)






快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論
基因科技會出現(xiàn)變種人么
肯定有一部分人選擇不理不管!
科技有一天也會害人
歡迎
會出現(xiàn)克隆人嗎?
科技
科技是把雙刃劍,用好了造福人類。
黃種人基因信息收錄太少,全基因測序仍需走十年才得平價
大數(shù)據(jù)的實際應(yīng)用
在這個技術(shù)為王的時代,任何獨立的高端技術(shù)都將面臨寒潮。強強聯(lián)手打造新技術(shù)