伴隨著科技的發展,醫療行業也進入了嶄新的智能化時代。春江水暖鴨先知,市場的規模動向,直接反映行業的發展起伏。近兩年,由基因測序領導的精準醫療產業發展迅猛,從事二代測序基因檢測的公司數目增速迅猛,其他傳統IVD檢測公司也開始相繼涉足。可以看到,產業鏈上下游的公司都從各個角度開始切入精準醫療領域。
人和未來生物科技有限公司(Genetalks,以下簡稱“人和未來”)是業內領先的生物科技公司,是一家依托基因和信息技術,為健康和醫療行業提供解決方案的高科技生物公司,業務包括遺傳疾病和腫瘤篩查、精準健康管理、基因和健康信息技術解決方案等。
在今年11月舉行的第11屆國際基因組學大會(ICG)——基因組云計算技術開發者大會(GCTA)上,人和未來在“數據壓縮”和“計算加速”兩個項目上,獲得此次GCTA大會的冠軍。刷新世界紀錄的同時,保持了最低的計算成本。之所以取得如此傲人的成績,人和未來首席技術官宋卓認為,一方面是基于人和未來多年來在基因測序領域所做的行業積累,另一方面就是科技進步為人類醫學發展帶來的福音,而此次科技助力的直接引擎,就是云計算。
“數據壓縮”與“計算加速”的項目意義
眾所周知,由于測序價格的降低,基因信息數據量近年來一直呈現遠超摩爾定律的指數增長。基因測序往往產生大量數據,對于用戶來說,如何讓大量數據快速、穩定地上傳至云端,并在更快、成本更低地進行并行化彈性計算,成為行業用戶普遍面臨的技術挑戰。
為了解決行業性的根本問題,作為世界范圍內權威的基因組學術大會,ICG設置了云技術開發者專場,將數據的存儲壓縮與加速計算設置為比賽項目,讓行業內的科技團隊一起參與,提出最優的解決方案,共同解決行業內的根本問題。
宋卓介紹,此次比賽共有全球300多家IT機構和團隊參加,在高手云集的激烈角逐中,人和未來脫穎而出,靠的不是運氣,而是跨學科跨領域的創新。“全基因組分析挑戰是生物信息信與IT團隊協同創新的結果。”
BT(生物技術)與IT結合達成創新
據了解,在計算加速項目上,去年已知最好的分布式計算成績是1小時50分鐘。而人和未來今年取得的成績是18分鐘,并且成本極低。用宋卓的話來說,這是一個數量級上的提升,一個質的變化。
具體來說,人和未來采用了亞馬遜AWS上的300臺虛擬機,將分析時間從單臺服務器的30個小時,縮短為18分鐘,以機時費$16的超低價格,將全基因組計算費用帶入百元時代。通過人和未來的方案,對比單臺標準服務器,基因測序數據分析的速度提高了90倍,并可節約75%的云計算機時費用。
當被問及如此低的機時費是如何做到的?宋卓表示,通常,“快速”與“低成本”是相互矛盾的。幸運的是,亞馬遜AWS提供了非常靈活的競價定價方式以及相應的特殊計算資源使用模式即AWSSPOTInstance競價服務,使人和未來有機會同時追求“快速”與“低成本”成為可能。
當然,雖然這種被稱為SPOTInstance的競價服務,是AWS面向公眾提供的大眾服務,
但并非所有團隊都能享有該服務所帶來的紅利。原因在于,AmazonEC2競價型實例是讓用戶能夠對空閑AmazonEC2計算容量進行競價,其定價完全由使用者出示的競價價格來實時確定。在競拍人少的情況下,這些機器的價格都非常低,大致是按需付費機器價格的10%左右。但天下沒有免費的午餐,購買此類機器的使用者必須承擔一定風險——即當實時價格高過你所出示的最高競拍價格后,你的機器將被收回。因此,如果要使用如此低廉價格的機器,就必須有足夠好的技術和系統設計來對抗機器隨時可能被收回的風險。由于這樣的風險和高技術門檻的因素存在,造成大量使用這類機器的用戶通常并不多。
做過高性能計算的人都知道,對單個計算規模很大的計算任務進行加速,絕不是簡單的擴充機器就能完成的,分布式系統的IO通信會顯著消耗系統性能,當系統規模達到一定程度后,IO處理不好,甚至會給全系統帶來負加速。“為了克服IO墻,我們利用自主研發的高性能數據存儲引擎作為基礎塊數據存儲設施,通過精細地控制數據的分發與收集,以及平衡的帶寬設計,成功繞過了IO墻問題,使得全系統性能在1000節點以內,近乎線性提升。”
另外,在數據壓縮領域,人和未來也做到了自己的技術創新。了解行業的人都知道,FASTQ文件無損壓縮率的最好成績是2015年LFQZ的14%,但速度過慢不適合大數據壓縮;全基因組分析方向,利用分布式計算達到的最快紀錄是2015年Churchill系統的1小時50分鐘。
為了克服壓縮率難題,人和未來團隊對壓縮編碼領域的幾乎所有算法和理論都進行了系統地梳理和探索。“從最簡單的Haffman編碼、游程編碼、LZ77到普通算數編碼、范圍編碼、高階算數編碼,還深入探索了ContextModel+算數編碼技術以及PPM模型,以及其他壓縮輔助技術,如BWT、MTF等。”宋卓表示。
在研發攻堅戰中,人和未來技術團隊從大規模和高強度的研究中獲益良多,最終在ContextModel的預測模型上狠下功夫,通過對fastq不同數據行進行調優,達到了極高的壓縮能力。團隊在實現系統原型后,進行了大量CPU體系結構級別的性能優化。最后,成功地實現了比gzip高4倍的壓縮率,壓縮時間僅僅是gzip的1/6的壓縮作品。
AWS帶來的價值
對于參與此次大賽,人和未來前期在公有云選型的時候下了一番功夫,通過對比發現,AWS的優勢在于資源彈性擴展,可以提供豐富的周邊服務,并且網絡的穩定性強。所以最終決定采用AWS公有云服務來支撐本次參賽過程,這次使用的開發平臺和最終的使用平臺都是在AWS上完成。
人和未來采用了AWSEC2計算節點與S3存儲等基礎設施,并在其上對其功能進行優化,由優秀的IO平衡設計來彌補云計算節點間的通信延遲與寬帶劣勢。“我們在AWS上又構建了自己的數據存儲體系,以及所有這些任務的調度、數據分發和收集,這是我們自主開發的專利技術。別的團隊可能也會采用AWS服務,但是由于我們的強項是在于將對生物信息的理解融入云計算中,在架構設計上做到了創新,從而贏得比賽。”宋卓表示。
實際上,人和未來早在兩年前就開始在此領域做投入。在做這件事情的過程中,也獲得了很多AWS的支持。宋卓認為,首先AWS有很好的技術支持,一些簡單的問題,通過技術文檔都能夠找到相應的解決方案和答案。但隨著系統規模在以不同數量級提升時,每上一個層次,都會遇到一些特定系統規模才會觸發的各種問題。在此過程中,AWS都給人和未來提供了有效的支持。“所以,取得這樣的成績,跟平臺本身也是密切相關的。盡管我們的技術解決方案不依賴于云平臺,但用戶如果想達到跟我們完全同等的效果,仍然需要使用AWS云平臺。現階段,人和未來正在積極尋求數據壓縮和高性能計算方向的合作伙伴,希望通過技術創新,為用戶帶來更多實際價值。”宋卓介紹。
標簽:
相關資訊