石建濤組合作建立首個(gè)DNA甲基化單體數(shù)據(jù)庫

文章來源:分子細(xì)胞科學(xué)卓越創(chuàng)新中心  |  發(fā)布時(shí)間:2023-10-23  |  【打印】 【關(guān)閉

  

  10月13日,國際學(xué)術(shù)期刊Nucleic Acid Research在線發(fā)表了中國科學(xué)院分子細(xì)胞科學(xué)卓越創(chuàng)新中心(生物化學(xué)與細(xì)胞生物學(xué)研究所)石建濤研究組與上海交通大學(xué)合作的最新研究成果“mHapBrowser: a comprehensive database for visualization and analysis of DNA methylation haplotypes”。這項(xiàng)研究工作構(gòu)建了一個(gè)全新的、開源的、易于科研數(shù)據(jù)共享的DNA甲基化單體數(shù)據(jù)庫— mHapBrowser (http://mhap.sibcb.ac.cn),并且能夠支持在線運(yùn)算和可視化。 

  DNA甲基化是一種重要的表觀遺傳修飾,在基因調(diào)控、基因組穩(wěn)定性、細(xì)胞分化和疾病發(fā)生中起關(guān)鍵作用。在人類基因組中,DNA甲基化的動態(tài)變化主要發(fā)生在CpG位點(diǎn)上。基于亞硫酸鹽測序的方法,如WGBS、RRBS和靶向BS-seq,能夠在單核苷酸分辨率檢測DNA甲基化。深入挖掘DNA甲基化的功能需要數(shù)據(jù)庫和相關(guān)分析工具的支持。目前已經(jīng)存在一些DNA甲基化相關(guān)數(shù)據(jù)庫,如MethDB、MethBase、DNMIVD、NGSmethDB和Meth-Bank,但這些數(shù)據(jù)庫主要關(guān)注每個(gè)CpG位點(diǎn)的平均甲基化水平,而忽略了同一條染色體上的甲基化模式(DNA甲基化單體)。

  在前期工作中,石建濤研究組定義了一種新的數(shù)據(jù)格式mHap來存儲DNA甲基化單體信息,該格式相比BAM文件實(shí)現(xiàn)了40-150倍的存儲壓縮,同時(shí)完整保留了CpG位點(diǎn)的甲基化信息?;趍Hap格式,該團(tuán)隊(duì)還合作開發(fā)了DNA甲基化單體分析工具mHapTk,可以方便計(jì)算多個(gè)mHap的統(tǒng)計(jì)量如PDR、CHALM、MCR、MHL等以描述DNA甲基化特征。甲基化單體存儲格式和分析工具的開發(fā)為后續(xù)數(shù)據(jù)庫的構(gòu)建奠定了基礎(chǔ)。

  mHapBrowser數(shù)據(jù)庫收錄了人類、小鼠和大鼠三個(gè)物種的數(shù)據(jù),分別為5808個(gè)人類樣本、490個(gè)小鼠樣本和69個(gè)大鼠樣本。每個(gè)樣本都包含豐富的元數(shù)據(jù)信息,如GEO/SRX編號、組織來源、疾病狀態(tài)、比對率、覆蓋度和平均甲基化等,方便用戶篩選數(shù)據(jù)。數(shù)據(jù)庫集成了WashU Epigenome瀏覽器,可以直接展示每個(gè)樣本在全基因組尺度上的mHap統(tǒng)計(jì)量,包括平均甲基化、PDR、CHALM、MCR、MBS、MHL、Entropy和連鎖不平衡系數(shù)R2。數(shù)據(jù)庫還提供在線分析服務(wù),可以方便地比較不同樣本之間的mHap特征。

  分子細(xì)胞卓越中心研究生洪毓陽、研究助理劉磊琴、研究生豐琰以及上海交通大學(xué)博士生張志強(qiáng)為本研究的共同第一作者。分子細(xì)胞卓越中心石建濤研究員和上海交通大學(xué)醫(yī)學(xué)院附屬仁濟(jì)醫(yī)院許瓊主治醫(yī)師為本文的共同通訊作者。該數(shù)據(jù)庫的搭建工作得到分子細(xì)胞卓越中心高性能計(jì)算平臺的大力協(xié)助。該項(xiàng)目由國家自然科學(xué)基金資助。

  文章鏈接:https://doi.org/10.1093/nar/gkad881