服務熱線400-065-1811
當前位置:斗破苍穹之唯我独尊 > 科學研究 > 新聞動態
最強升級!NovelBrain云平臺更新至V4.0版本,做最懂科研的生信云平臺! 時間:2019-04-08


烈冰NovelBrain®云平臺自上線以來,接受了眾多科研團隊的全方位、多層次的平臺功能和安全測試,同時也在烈冰內部的真實工作環境中不斷經受考驗,期間經過兩次慎重的系統更新,平臺成功V1.0升級到V3.0,在網絡圖繪制、彈性結果報告和人重分析加速等各方面給用戶帶來驚喜體驗。同時,我們也在更嚴苛的壓力測試中不斷對系統進行改進,做最懂科研的生信云平臺。

為進一步提升平臺的用戶體驗,打造行業一流的生信自動化大數據分析系統,烈冰隆重推出NovelBrain®云平臺的全新升級版本V4.0,升級內容包括分析工具更新和pipeline優化、系統底層架構的優化、組學研究的全面加速、生物數據的壓縮存儲以及數據庫的完備和管理升級,全方位保證您的數據安全和分析效率,助力您的科學研究。

1、分析工具豐富和pipeline優化

NovelBrain云計算系統可以幫助快速準確地進行各組學分析,包括人類重測序、基因組測序、全轉錄組測序、miRNA測序、表觀遺傳測序、微生物測序等幾乎全部二代測序類型。事實上如果出現新的測序技術或工具,烈冰會第一時間將其添加至NovelBrain平臺,進行分析測試并用于實際生產。

豐富的分析工具和標準流程化的pipeline是進行數據分析的“物質基礎”,NovelBrain V4.0對最新分析工具進行了整合,并進一步優化了多組學分析流程:

1)分析工具全新整合

NovelBrain在作為烈冰唯一生產系統的過程中,不斷地上線并積累各類數據分析工具,截止V4.0版本已包含400多個分析工具,其中很多分析工具譬如RnaSeqMap,一個工具就包含了hisat2、star、mapsplice、tophat這4個分析軟件。因此實際整合軟件數量1000+,不僅包含二代測序分析軟件,還覆蓋GWAS相關、motif預測、基因注釋等多個生物信息領域。

NovelBrain本次升級新增了Diamond、fq2fa、fa2fq、seqSample、seq2tab、multiBamSummary、gff2tab、sedBy2List、tsv2csv、csv2tsv、SpeciesIndex_miRNA、sRNADetect、sRNATarget、cuffqaunt_cuffnorm、map_stat等最新分析工具,極大地拓展了數據分析的可能性,滿足不同需求層次生信分析人員的要求,高效實現自助式數據分析,輕松探索發現數據意義。

隨著生物信息的發展,烈冰也在不斷向系統添加更多的工具。而已上線的工具,在使用過程中也對某些參數的使用場景理解更為深刻,從而不斷得到優化。

2)pipeline優化

豐富的工具只是保證數據分析可進行的第一步,想要漂亮的分析數據,還需要完善pipeline支持。譬如DnaSeqMap、FastqFilter這兩個工具,其在人類重測序分析和在miRNA分析中的參數設置都是不一樣的,因此NovelBrain V4.0不僅對不同Pipeline中工具的參數都針對性地進行了優化,對不同的分析流程還加入了經過實際生產甚至實驗驗證的調優。

例如在有參轉錄組分析的pipeline中添加了lncRNA檢測和分析,從而獲得更豐富的轉錄組數據,便于后續的聯合分析,對數據進行深度挖掘:

LncRNA的基因富集分析和靶向分析

Liu et al., Nat Commun, 2016/ Miao X et al., Sci Rep, 2016

同時,NovelBrain V4.0還在無參轉錄組pipeline中添加了基因預測和序列分步聚類,使各樣品中表達豐度較低的轉錄本組裝得更完整,準確發現潛在的功能基因,為下一步研究提供方向。

另外,V4.0針對性地對人類全基因組/外顯子組 pipeline中的GATK-Best-Practice部分工具參數進行了調整,增加了FreeBayes對最后結果的校正,使流程化分析更智能,全方位保證數據質量。

圖片來源:GitHub

(https://github.com/chapmanb/bcbb/blob/master/posts/cancer_validation.org)

2、系統底層架構優化

云計算系統是一個復雜的分布式系統,新上線的系統在設計編碼之初很難完整地覆蓋到各種異常場景。因此在長時間高負載運行時,總是會出現各種各樣的異常錯誤,從而影響數據的安全和分析結果的準確度。

NovelBrain云計算系統一方面在編碼上有嚴格的規范,要求測試代碼的覆蓋度超過70%,同時烈冰也從2013年起,就將NovelBrain作為自己的唯一生產系統實際用于二代測序數據的分析,目前日均分析500GB,峰值數TB以上的測序數據,系統自然地處于長期的壓力環境下,很多問題會及時暴露并得到修正。

在長期的生產環境壓力運行狀態下,我們解決和優化了大量的問題,如:

1)任務異常crash自動重跑

很多工具在運行時會異常crash,包括jvm虛擬機崩潰、系統異常崩潰、機器宕機等多種情況,這些情況不僅會導致數據丟失,對數據安全造成威脅,同時還需要人工檢查crash的原因,增加運行成本。針對這種情況,NovelBrain技術團隊在 V4.0版本新增運行任務實時監控功能,如果偵測到異常crash,則會將任務重新投遞并運行,節省時間和人力。同時,對于因參數設置原因導致的任務出錯,系統會將其與異常crash有效區分,記錄至數據庫并供生信工程師查閱,及時發現錯誤并糾正。

2)運行內存超出預設引起的crash

部分工具在運行時,請求的內存大小會超過虛擬機預設的內存。根據一般的linux機制,系統會將這種超出內存使用范圍的進程殺死,而這會引起結果異常并很難判斷哪個步驟出現問題,因此在NovelBrain V4.0中我們關閉了這個設定,并重新配置了虛擬機,不允許進程使用超過虛擬機設置的內存,從而避免進程被殺死。

3)Hadoop-Yarn容器數量計數問題

一般一個任務投遞時會啟動多個容器并行計算,而Hadoop-Yarn無法保證每個容器能順利跑上,同時由于反饋機制的缺失,任務投遞者只有在項目運行結束后,才知道某些樣本并沒有得到處理,從而浪費了很多時間來進行“掃尾”。NovelBrain V4.0中,系統可自行定義計數器來對成功運行的容器進行計數,實時顯示成功運行的樣本個數,保證不會漏掉分析樣本。

4)任務監控修正

實時監控分析任務的cpu/內存使用是一個非常重要的內容。分析任務的時長從數分鐘到數天不等,因此監控的時間間隔則很有考究,頻率過低則無法有效監控到短時間任務的信息,頻率過高則長時間任務會獲取太多無意義的信息,白白浪費數據庫空間。NovelBrain V4.0采用了冪次降低策略,隨著時間增加,降低采樣頻率。同時還配合拐點采樣策略,即如果監控到cpu/內存的異常變化,則會將該時間點的信息存入數據庫。在保證數據量合適的同時,也不會漏掉異常點。

以上列舉了部分在長時間的高負載生產環境中出現的問題,以及NovelBrain V4.0的修正策略。正是這些持續不斷的修正,才是NovelBrain可以真正應用于生產,可以穩定運行的關鍵保證。

3、全組學研究分布式加速

NovelBrain是一個天然的分布式系統,在NovelBrain上投遞的task/pipeline,總是會自動分配到多臺低負載的機器上進行并行計算,大幅度縮短數據分析的時間。同時系統還可以設定某個工具的總并發數,保證多個大型項目同時在集群上分析時,不會互相搶資源。如一個100臺服務器的集群,兩個用戶均投遞了300個樣本的基因組分析,那么每個用戶可以將并發數限制為40,這樣雙方不會互相搶占資源,系統甚至還可以預留足夠資源用于其他用戶的分析。

之前的V3.0版本NovelBrain針對性地對人類重測序進行了優化和加速,4小時即可完成單樣本的分析,打破了人重分析的瓶頸。V4.0更是將該該技術應用于所有組學研究,實現全組學的測序分析加速,最大幅度地提升數據分析效率。

此外,對于并行計算的任務,NovelBrain也有完善的監控系統對每一個容器的cpu內存進行監控,同時將運行的命令和日志自動存檔,方便未來給第三方機構重現結果。


4、數據壓縮存儲

隨著二代測序數據量的上升,數據壓縮刻不容緩。以公有云為例,傳統壓縮和計算的費用比約為7:1-8:1,也就是說每1萬的計算費用需要7-8萬的數據存儲費用。目前對于數據壓縮有很多方法,如對fastq進行壓縮,使用磁帶機或公有云進行冷備等。NovelBrain認為數據壓縮存儲是一個系統化工程,需要多個方案協同配合才能獲得最佳的存儲效果。

因此NovelBrain V4.0提出了數據壓縮存儲的一體化解決方案,包含以下四個方面:

1)原始數據fastq文件的高效壓縮

數據上傳完畢后,NovelBrain V4.0即自動使用開源軟件對fastq文件進行壓縮,可以獲得比fastq.gz小非常多的無損原始數據,分析時自動解壓縮并進行分析。

2)數據歸檔化存儲

NovelBrain V4.0在數據分析完畢之后,即可自動對原始數據進行歸檔存儲,大幅度降低存儲的費用。

3)中間分析結果批量刪除

二代測序分析過程中會產生大量的中間結果,如GATK-Best-Practice會產生Realign,Remove PCR duplicate等多個bam文件,這些中間結果非常占存儲空間。NovelBrain V4.0中的所有分析結果都在數據庫中存檔,因此可以細粒度的進行中間結果的刪除。

4)結果文件可重現

經?;嵊鋅突Щ?/span>reviewer詢問或查詢中間結果,因此只有結果文件可重現,我們才能放心的刪除中間結果。NovelBrain V4.0對線上的工具做了一些調整,包括工具參數的增減或修改,軟件版本的更新,和運行腳本的調整等,對分析工具進行版本控制,保證分析結果可重現。

結合以上多個步驟,NovelBrain可以大幅度降低數據存儲的成本,真正做到數據存儲的高效和成本控制。

5、完備數據庫和可擴展的物種管理

對于分析使用到多個物種的大型實驗室和公司,在做比對或注釋分析時總是個麻煩事情,一方面需要對不同物種、不同版本的索引進行管理,另一方面在分析時還需要指定冗長的物種文件夾路徑。

早在2013年,NovelBrain就開始使用數據庫來記錄物種版本、Annotation、GO、Pathway等信息,在數據庫管理方面經驗豐富;2014年,NovelBrain即開發了完備的物種管理系統,并對其不斷優化;2016年開發了新版的物種管理系統。當前的NovelBrainV4.0更是對物種管理系統進行了全面升級,包括自定義的索引工具,可以自由上線包括bwa、bowtie在內的多種對染色體建索引的工具,也支持一鍵對新上傳的物種建索引。同時V4.0也支持上傳自定義的miRNA文件、GO/Pathway、Blast文件等,方便用戶導入自己的注釋信息。在數據分析時,分析工程師僅需要簡單選擇物種、版本、數據庫這三項,系統會自動將數據庫中的索引路徑、注釋信息等對接到分析工具中,快速簡單的進行數據分析。

經過此次升級,NovelBrain®云平臺V4.0成為國際上更懂用戶、更適合科研、更便捷、更高效的生物醫療云平臺之一,實現了NovelBrain的里程碑式飛躍。本次V4.0版本升級,會第一時間更新到老用戶的平臺上,歡迎各位老師進行壓力測試,并向我們提出寶貴的意見和建議。烈冰安全穩定可靠的運維體系,為NovelBrain的熱愛者保駕護航,讓每一個普通人都可以自己分析自己的數據,輕松了解自己數據的價值,并賦予數據生物學意義。


烈冰于2010年成立至今,身經百戰,數百篇文獻支持。9年間歷經海量數據檢驗,已為600+國內外機構服務5000+項目,業務領域覆蓋科研機構,大型藥廠,醫院,檢驗機構等。從國內首篇circRNA研究文章Sci Rep. 2016 Mar 2;6:22572.)到首個人類血液外泌體長鏈RNA數據庫exoRBase(www.exoRBase.org),從基于Ion Proton測序儀的第一篇轉錄組文獻(BMC Med Genomics. 2014 Aug 9;7:49)到第一篇高分轉錄組文獻(Nature. 2016 Feb 4;530(7588):98-102),NovelBrain云計算平臺身經百戰,不懼考驗,最懂科研!