成功開發(fā)基因融合檢測算法SOAPfuse
華大基因成功開發(fā)出一種基因融合檢測算法SOAPfuse。該算法具有準(zhǔn)確率高、敏感性強、精度高、資源消耗少等優(yōu)點,主要采用局部窮舉算法和一系列精細(xì)的過濾策略,來對基因融合進行快速、的檢測。SOAPfuse的研究結(jié)果已于2013年2月14日在《基因生物學(xué)》(Genome Biology)雜志上在線發(fā)表。
基因融合是指染色體上兩個異位的基因嵌合在一起,形成一個嵌合基因的現(xiàn)象。這種現(xiàn)象一般是由于染色體發(fā)生易位、缺失或者倒置造成的,它們在癌癥的發(fā)生上扮演著重要的角色,并且可以作為診斷和治療癌癥的靶標(biāo)?;蛉诤犀F(xiàn)象zui早在血液系統(tǒng)惡性腫瘤中被發(fā)現(xiàn),其中以慢性粒細(xì)胞白血病中 BCR-ABL基因融合zui為經(jīng)典。隨著對基因融合的深入研究,科研人員發(fā)現(xiàn),除血液系統(tǒng)腫瘤外,在實體瘤中也存在著基因融合現(xiàn)象,例如新近發(fā)現(xiàn)的前列腺癌中的TMPRSS2-ERG、小細(xì)胞肺癌中的EML4-ALK、結(jié)直腸癌中的VTI1A-TCF7L2等基因融合。
傳統(tǒng)基因融合研究方法主要基于PCR和熒光原位雜交(FISH)技術(shù),這兩種技術(shù)具有通量低、操作復(fù)雜、不便于大規(guī)模樣品篩查的缺點。而高通量RNA測序技術(shù)(RNA-Seq)的出現(xiàn)大大加快了基因融合研究的進展。RNA-Seq具有通量高、成本低、檢測精度高和檢測范圍廣的優(yōu)點,其與全基因組測序相比,不僅能找到由于重排導(dǎo)致的基因融合,還能找到更多轉(zhuǎn)錄水平上的融合。
目前,已有一些通過RNA-Seq技術(shù)尋找基因融合的軟件,但是這些軟件或多或少存在各種不足,例如計算資源消耗嚴(yán)重,檢測率低,準(zhǔn)確度低等。為了克服這一系列問題,華大科技經(jīng)過深入研究,開發(fā)出一種新的算法—SOAPfuse。該算法首先通過比對到基因組和轉(zhuǎn)錄本中雙末端(pair end)關(guān)系的序列尋找候選的基因融合,然后采用局部窮舉算法和一系列精細(xì)的過濾策略,在盡量保留真實融合的情況下過濾掉其中假陽性的基因融合。模擬數(shù)據(jù)和真實驗證數(shù)據(jù)的綜合測評表明,SOAPfuse與其他方法相比具有更高的靈敏度和特異性,并且可以大大減少資源消耗。此外,該算法還具有融合斷點預(yù)測和可視化功能。這些功能能夠極大提高基因融合的檢測效率,大力推動疾病尤其是腫瘤的研究,這對臨床分子分型和腫瘤新藥的開發(fā)具有重要意義。