中國科學(xué)家設(shè)計(jì)出二代測(cè)序自動(dòng)化軟件處理流程

時(shí)間:2014-07-02

來源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語:二代測(cè)序技術(shù)(Next-generation sequencing)大幅度降低了測(cè)序的時(shí)間和成本,使得大規(guī)模測(cè)序逐漸成為常規(guī)的實(shí)驗(yàn)室研究和臨床檢測(cè)手段。

二代測(cè)序技術(shù)的發(fā)展對(duì)測(cè)序數(shù)據(jù)的處理分析提出了很高的要求。目前二代測(cè)序數(shù)據(jù)分析軟件很多,但是絕大多數(shù)軟件僅能完成單一的分析功能(例如:僅進(jìn)行序列比對(duì)或變異讀取或功能注釋等),如何能正確高效地選擇整合這些軟件已成為迫切需求。

來自中國醫(yī)學(xué)科學(xué)院,北京協(xié)和醫(yī)學(xué)院等處的研究人員設(shè)計(jì)了一套基于perl語言和SGE資源管理的自動(dòng)化處理流程來分析Illumina平臺(tái)基因組測(cè)序數(shù)據(jù)。該流程通過自動(dòng)化并行腳本控制流程的高效運(yùn)行,一站式輸出分析結(jié)果和報(bào)告,簡(jiǎn)化了數(shù)據(jù)分析過程中的人工操作,大大提高了運(yùn)行效率。相關(guān)文章公布在《遺傳》雜志上。

二代測(cè)序技術(shù)(Next-generationsequencing)大幅度降低了測(cè)序的時(shí)間和成本,使得大規(guī)模測(cè)序逐漸成為常規(guī)的實(shí)驗(yàn)室研究和臨床檢測(cè)手段。測(cè)序產(chǎn)生的數(shù)據(jù)量急劇增加,如何高效地分析這些數(shù)據(jù),已成為迫切需要解決的問題。目前,分析序列信息的生物信息學(xué)軟件紛繁復(fù)雜,但基本上每個(gè)軟件只能完成單一的分析功能,實(shí)現(xiàn)一個(gè)完整的分析流程則需要對(duì)眾多軟件進(jìn)行整合,而手動(dòng)串聯(lián)的效率往往不盡人意;同時(shí),這些軟件需要在Linux工作環(huán)境下以命令行運(yùn)行,要求用戶具備較好的計(jì)算機(jī)背景;另外,即便一些實(shí)驗(yàn)室完成了分析流程的構(gòu)建,他們往往不會(huì)公開許多細(xì)節(jié),新用戶仍然要從頭建起。

針對(duì)這一問題,研究人員希望能通過構(gòu)建經(jīng)典的二代測(cè)序數(shù)據(jù)分析流程,并實(shí)現(xiàn)各個(gè)環(huán)節(jié)的高效自動(dòng)化管理和分析,減輕研究者前期的工作負(fù)擔(dān),促進(jìn)相關(guān)領(lǐng)域進(jìn)一步對(duì)基因組測(cè)序研究項(xiàng)目的順利開展。

研究人員為此設(shè)計(jì)了一套基于perl語言和SGE資源管理的自動(dòng)化處理流程來分析Illumina平臺(tái)基因組測(cè)序數(shù)據(jù)。該流程以測(cè)序原始序列數(shù)據(jù)作為輸入,調(diào)用業(yè)界標(biāo)準(zhǔn)的數(shù)據(jù)處理軟件(如:BWA,Samtools,GATK,ANNOVAR等),最終生成帶有相應(yīng)功能注釋、便于研究者進(jìn)一步分析的變異位點(diǎn)列表。

這一流程通過自動(dòng)化并行腳本控制流程的高效運(yùn)行,一站式輸出分析結(jié)果和報(bào)告,簡(jiǎn)化了數(shù)據(jù)分析過程中的人工操作,大大提高了運(yùn)行效率。用戶只需填寫配置文件或使用圖形界面輸入即可完成全部操作,為廣大研究者分析二代測(cè)序數(shù)據(jù)提供了便利的途徑。

目前測(cè)序數(shù)據(jù)處理軟件很多,研究人員綜合考慮了適用性和效率,整合出了一套標(biāo)準(zhǔn)的數(shù)據(jù)處理流程。具體來說,獲得FASTQ格式的原始測(cè)序數(shù)據(jù)后,需要數(shù)據(jù)進(jìn)行以下處理:(1)使用BWA軟件把這些短序列和參考基因組進(jìn)行對(duì)比,確定短序列在基因組上的位置,把短序列組裝成完整的人類參考基因組;(2)使用Samtools軟件把這些短序列調(diào)整成按一定順序(1-22,X,Y,其他)排列的序列,并進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換;(3)使用Picard軟件把測(cè)序產(chǎn)生的冗余信息和噪聲去掉;(4)使用GATK尋找樣本測(cè)序數(shù)據(jù)與參考基因組的差異,列出這些差異點(diǎn);(5)使用Annovar對(duì)這些變異位點(diǎn)進(jìn)行功能注釋,得到一個(gè)易于理解的變異位點(diǎn)列表。

這一項(xiàng)目成功整合了一系列二代測(cè)序數(shù)據(jù)分析軟件,形成了一套經(jīng)典的數(shù)據(jù)分析流程。這一流程通過并行化設(shè)計(jì)和自動(dòng)化處理,一方面簡(jiǎn)化了操作成本、縮短了數(shù)據(jù)分析周期,另一方面也使本流程可以引入更完善的數(shù)據(jù)校驗(yàn)步驟,增強(qiáng)結(jié)果的可信度。

流程針對(duì)Illumina平臺(tái)雙端測(cè)序數(shù)據(jù)開發(fā),滿足了大部分處理需求,并對(duì)其他用戶提供了一個(gè)很好的參考,后續(xù)研究人員還將根據(jù)用戶需求對(duì)該自動(dòng)化流程進(jìn)行持續(xù)維護(hù)。

隨著二代測(cè)序技術(shù)的逐步發(fā)展,二代測(cè)序已經(jīng)廣泛應(yīng)用于科研和臨床研究。這一流程提高了二代測(cè)序數(shù)據(jù)分析的入門和運(yùn)轉(zhuǎn)效率,其必將在二代測(cè)序相關(guān)基因組學(xué)研究中,促進(jìn)廣大科研人員工作的高效進(jìn)行。

更多資訊請(qǐng)關(guān)注自動(dòng)化軟件頻道

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.wangxinlc.cn)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

最新新聞
查看更多資訊

娓娓工業(yè)

廣州金升陽科技有限公司

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0