來源: 騰訊網(wǎng) 時間:2021-12-08
DNA甲基化是基因轉錄調控中一個基本的表觀遺傳修飾過程。一些DNA修飾,例如5-甲基胞嘧啶(5mC)及其氧化衍生物,即5-羥甲基胞嘧啶(5hmC)、5-甲?;奏ぃ?fC)和5-羧基胞嘧啶(5caC)等廣泛分布在基因組中,在基因組印記、染色質結構調節(jié)、轉座子失活、干細胞多能性和分化、炎癥及轉錄抑制調節(jié)中發(fā)揮著重要作用。通常,DNA甲基化檢測依賴于亞硫酸氫鹽轉化(可損害DNA)和NGS(僅檢測短期甲基化模式)相結合的方式。
Pacific Biosciences(PacBio)的單分子實時(SMRT)測序、Oxford Nanopore Technologies(ONT)的納米孔測序第三代測序技術已經(jīng)克服了讀長的限制,實現(xiàn)了全基因組水平的超長讀取、單堿基檢測。SMRT測序可以基于聚合酶動力學在250x覆蓋率下檢測5mC修飾,但該方法無法在單分子分辨率下直接檢測5mC。納米孔測序能夠通過未修飾堿基和修飾堿基的納米孔reads產(chǎn)生的電流強度差異來檢測DNA修飾,實現(xiàn)快速、長讀長測序和單堿基單分子靈敏度。目前,研究人員已開發(fā)出越來越多的分析工具從納米孔測序reads中檢測DNA甲基化,但在人類全表觀基因組范圍內(nèi),納米孔甲基化測序工具仍缺乏公開的指南和系統(tǒng)評估。
為填補這一空白,美國Jackson實驗室李盛聯(lián)合團隊建立了第一個用于人類全表觀基因組規(guī)模的納米孔測序DNA 5mC檢測的系統(tǒng)基準,評估了CpG甲基化預測在不同基因組環(huán)境、CpG位點覆蓋范圍和每個工具消耗的計算資源上的每次讀取和每個位點的性能。研究團隊提供了一個在線DNA甲基化數(shù)據(jù)庫(https://nanome.jax.org),以顯示通過納米孔測序和亞硫酸氫鹽測序(BS-seq)數(shù)據(jù)在不同基因組環(huán)境中檢測到的DNA甲基化水平。該研究已發(fā)表在Genome Biology上,文章題為“DNA methylation-calling tools for Oxford Nanopore sequencing: a survey and human epigenome-wide evaluation”。
文章發(fā)表于Genome Biology期刊
目前,已有12種分析工具來利用使用ONT測序直接檢測DNA甲基化,其中10種工具與R9.4系列流動槽兼容,9種工具可以預測5mC。研究人員比較了在不同CpG環(huán)境下針對5mCs的7種最先進甲基化識別工具的性能,這7種工具都與ONT流動槽版本(R9.4和R9.4.1)兼容:Nanopolish、Megalodon、DeepSignal、Guppy、Tombo、 DeepMod和METEORE。其中,Tombo是基于統(tǒng)計,其他6個工具是基于模型(圖1)。研究人員選擇Megalodon和DeepSignal結合的METEORE RF模型,為基準測試開發(fā)了三步標準化工作流程:堿基判讀技術和質量控制、基因組組裝和打磨、甲基化識別和評估。利用四個人類納米孔測序數(shù)據(jù)集(NA19240、NA12878、K562、APL)進行基準測試。
圖1.納米孔測序5mC的工作流程 來源:Genome Biology
納米孔測序可以檢測單個分子的胞嘧啶甲基化狀態(tài)。在單例和非單例中,研究團隊評估了7種DNA甲基化檢測工具在單分子、單堿基分辨率上的單讀長性能。將BS-seq作為基準,比較完全甲基化或完全未甲基化CpG上的甲基化檢測性能。結果顯示,Nanopolish、Megalodon、DeepSignal和Guppy在F1-score、準確率和AUC指標上都優(yōu)于其他三種工具。
不同的基因組背景顯示出不同的CpG密度和DNA甲基化水平,研究人員從啟動子、外顯子、內(nèi)含子、基因間區(qū)域、CpG島、不同CG密度的區(qū)域以及不同類型的重復區(qū)域方面評估了與生物學相關的基因組背景對5mC預測的影響。結果顯示,所有7個工具在基因間區(qū)域的F1得分均低于其他任何基因區(qū)域或CpG島;在所有CG密度區(qū)域,尤其是低CG密度區(qū)域,Tombo和METEORE都存在預測精度低的問題。與其他工具相比,Nanopolish、Megalodon、DeepSignal和Guppy在所有數(shù)據(jù)集、基因和基因間區(qū)域、重復區(qū)域和不同CG密度區(qū)域的CpG位點上始終表現(xiàn)出更高的F1總分,因此,這四種工具在全基因組5mC預測的單讀長性能上優(yōu)于其它工具(圖2)。
圖2. 5mC預測在不同基因組背景下的單讀長性能。來源:Genome Biology
為評估這7種工具在全基因組范圍甲基化水平CpG位點上的性能,研究人員評估了單堿基分辨率下,納米孔測序和相應BS-seq數(shù)據(jù)的DNA甲基化百分比之間的Pearson相關系數(shù)。結果顯示,Nanopolish、Megalodon、DeepSignal和Guppy預測的5mC百分比與對應的BS-seq數(shù)據(jù)集高度相關,DNA甲基化均呈現(xiàn)雙峰分布(圖3)。在NA19240數(shù)據(jù)中,BS-seq與DeepMod之間的Pearson相關性接近于零,證實DeepMod無法有效預測人類全基因組水平上的甲基化分布,而Nanopolish、Megalodon、DeepSignal和Guppy在NA19240數(shù)據(jù)的所有基因和基因間區(qū)域、CG密度區(qū)域和重復區(qū)域的相關系數(shù)始終最高。此外,研究發(fā)現(xiàn)納米孔測序的CpG甲基化工具之間的相關性大于BS-seq與納米孔測序數(shù)據(jù)之間的相關性,這主要是因為通過納米孔測序可區(qū)分5hmC和5mC,實現(xiàn)5mC的精確檢測,但BS-seq無法區(qū)分。
進一步地,研究人員評估了CpG甲基化百分比與到轉錄起始點或CTCF結合峰中心的距離之間的關系。與預期一致,轉錄起始點附近的CpG位點趨向于未甲基化,甲基化水平隨著與轉錄起始點距離的增加而增加;DNA甲基化百分比在CTCF結合峰的中心最低。總體而言,Nanopolish、Megalodon、DeepSignal和Guppy與BS-seq的相關性較高,在全基因組水平上密切跟蹤了BS-seq的甲基化模式。
圖3. 5mC預測的單堿基性能。來源:Genome Biology
雖然在堿基識別和校準步驟之后所有工具的CpG位點都相同,但預測的CpG位點數(shù)量不同,因為每個甲基化識別工具都有自己的標準來進行可靠的甲基化預測。研究結果顯示,與其他5個工具相比,Megalodon和DeepSignal在所有四個數(shù)據(jù)集上預測的CpG位點數(shù)量最多。通過分析每個工具的運行時間和峰值內(nèi)存使用情況,發(fā)現(xiàn)Guppy和Nanopolish需要的CPU時間最少,峰值內(nèi)存使用量也最低;DeepSignal和Tombo占用的CPU時間較多,但峰值內(nèi)存較低;Megalodon占用的峰值內(nèi)存較大,但CPU時間較短;METEORE和DeepMod都需要最高峰值內(nèi)存和CPU運行時間。
基于上述結果,研究人員對比了7個工具各自的優(yōu)缺點(圖4):
第一,甲基化識別工具的選擇會嚴重影響不同基因組區(qū)域的F1分數(shù)、準確性和AUC分數(shù)的水平。總體而言,表現(xiàn)最好的是Megalodon、Nanopolish、DeepSignal和Guppy。
第二,在DNA甲基化模式不一致區(qū)域、基因間區(qū)域、低CG密度區(qū)域和重復區(qū)域(即 SINE 和 LTR)檢測5mCs顯示所有工具都有改進的空間。
第三,Guppy和Nanopolish的內(nèi)存使用率最低,對于計算資源有限的用戶,推薦使用Guppy和Nanopolish進行甲基化分析;對于有權訪問HPC資源或云計算資源預算較大的用戶,Megalodon是最佳選擇,考慮到其在更具挑戰(zhàn)性的領域(包括重復區(qū)域和不一致的非單例)的性能,與Nanopolish和Guppy相比,它可以預測更多的CpG位點。
在不同基因組背景下對DNA甲基化的穩(wěn)健預測將有助于我們更好地理解許多生物過程背后基因調控的表觀遺傳機制。
圖4.7種工具在不同評價體系中的表現(xiàn)。來源:Genome Biology
綜上所述,該研究發(fā)布了納米孔測序中檢測哺乳動物全基因組DNA修飾算法的第一個系統(tǒng)基準,為利用納米孔測序進行基因組表觀遺傳修飾檢測提供了分析工具評估的研究思路,并為跨平臺的標準化提供了廣泛基礎。
參考文獻:
Liu Y, Rosikiewicz W, Pan Z, Jillette N, Wang P, Taghbalout A, Foox J, Mason C, Carroll M, Cheng A, Li S. DNA methylation-calling tools for Oxford Nanopore sequencing: a survey and human epigenome-wide evaluation. Genome Biol. 2021 Oct 18;22(1):295. doi: 10.1186/s13059-021-02510-z. PMID: 34663425; PMCID: PMC8524990.
· END ·
【來源:騰訊網(wǎng)】
聲明:轉載此文是出于傳遞更多信息之目的。若有來源標注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。 郵箱地址:xlg@xhpr.net