本发明属于生物技术领域,涉及一种产前检测子代基因型的方法及应用。
背景技术:
耳聋是听觉系统和听觉传导通路中的听神经和各级中枢神经发生病变而引起的听功能障碍,可以造成不同程度的听力减退。先天性耳聋是最常见的出生缺陷之一,也是最常见的人类感觉系统疾病,发病率为0.1-0.3%。其中,60%的耳聋由遗传因素导致,另外40%与环境因素有关。遗传性耳聋分为综合型耳聋和非综合型耳聋,以耳聋为唯一症状的非综合型耳聋占所有遗传性耳聋的70%,且具有高度遗传异质性,综合型耳聋占30%。
目前,已被报道的与非综合型耳聋相关的基因包括28个常染色体隐性基因、22个常染色体显性基因和1个x连锁基因,其中,常染色体隐性遗传占80%,显性遗传占15%,x连锁遗传占1-3%,线粒体遗传占1%以下,gjb2、slc26a4、gjb3以及线粒体dna(mtdna)12srrna为我国主要非综合型耳聋基因。
虽然新生儿耳聋基因检测技术已经成熟并推向市场,但是检测技术适用于出生的婴儿,是对结果的一种补救措施,仍然会给社会和新生聋儿家庭带来经济和精神负担。依赖羊水穿刺技术可以实现在胎儿期进行准确基因检测,但是羊水穿刺可能导致感染、流产或新生儿呼吸窘迫,存在一定的风险性。
cn107190064a公开了检测22个位点耳聋基因多态性的snapshot试剂盒,有助于及早发现携带耳聋基因突变的患儿,然而该试剂盒仅适用于出生的婴儿,是对结果的一种补救措施,仍然会给社会和新生聋儿家庭带来经济和精神负担,不能实现产前预测。
因此,提供一种安全性高、准确度高的无创产前检测子代基因型的方法,具有重要意义。
技术实现要素:
针对现有技术的不足,本发明提供一种产前检测子代基因型的方法及应用,所述方法是一种高通量、高覆盖率、高准确率、成本低、周期短的无创基因型产前检测方法,可用于耳聋基因基因型的产前检测,有利于实现遗传性耳聋的提前预防。
为达此目的,本发明提供以下技术方案:
第一方面,本发明提供一种产前检测子代基因型的方法,所述方法包括以下步骤:
(1)选取不少于30个基因位点,计算每个基因位点的最小等位基因频率;
(2)对步骤(1)所述最小等位基因频率的集合进行聚类,分为四类,确定每个基因位点的聚类结果;
(3)根据步骤(2)所述基因位点的聚类结果,得到亲代和子代在所述基因位点的基因型组合;
(4)根据亲代在所述基因位点的基因型,得到子代在所述基因位点的基因型。
本发明中,假设子代循环dna(cfdna)在总的cfdna中占比为α,亲代和子代的基因型组合与最小等位基因频率的关系如表1所示:
表1
由此可知,亲代和子代的基因型组合共有7种,包括四种最小等位基因频率,因此,可以通过最小等位基因频率确定亲代和子代的基因型组合,再由亲代的基因型,确定子代的基因型。
本发明中,由于聚类方法都是数字运算中的常见方法,但其并没有运用在生物学中,而发明人将数学中的聚类方法运用于生物学领域,发现通过聚类能够辅助判断子代的基因型,通过确定最小等位基因频率的聚类结果,判断亲代和子代的基因型组合,以及子代的基因型。
优选地,步骤(1)所述基因位点包括耳聋基因位点。
优选地,所述耳聋基因位点包括rs121908362、rs750188782、rs111033220、rs111033204、rs80338939、rs111033313、rs201562855、rs111033305、rs80338943、rs200455203、rs111033318、rs192366176、rs74315319、rs267606619、rs267606617、rs146044344、rs17878444、rs28369942、rs2307959、rs2067235、rs2308292、rs1610937、rs1305056、rs2307652、rs1057516953、rs111033380、rs121908363、rs1611048、rs1611001、rs2308072、rs3081400、rs8190570、rs201771066、rs150042219、rs773528125、rs17238892、rs2308163、rs2307433、rs1610905、rs2307581、rs1305047、rs16438、rs8178524、rs16388、rs6481或rs16363中的任意一种或至少两种的组合。
优选地,步骤(2)所述聚类采用高斯混合模型、层次聚类或k-means聚类中的任意一种或至少两种的组合,优选为采用高斯混合模型。
本发明中,采用数学聚类方法对最小等位基因频率进行聚类,分为四类,从而确定每个基因位点亲代与子代的基因型组合。
优选地,步骤(3)所述基因型组合包括亲代和子代均为纯合子、亲代为纯合子子代为杂合子、亲代为杂合子子代为纯合子或亲代和子代均为杂合子中的任意一种。
本发明中,亲代和子代的基因型组合共有7种,包括亲代和子代均为纯合子(aaaa/aaaa)、亲代为纯合子子代为杂合子(aaaa/aaaa)、亲代为杂合子子代为纯合子(aaaa/aaaa)和亲代和子代均为杂合子(aaaa)。
优选地,在步骤(1)之前还包括:
(1’)从孕妇体液中提取游离dna;
(2’)采用基因位点的引物组对提取的游离dna进行pcr扩增,构建dna文库;
(3’)对所述dna文库进行高通量测序,测序结果进行比对和分析后,得到基因位点的测序结果。
优选地,步骤(1’)所述体液包括外周血、尿液或唾液中的任意一种或至少两种的组合,优选为外周血。
优选地,步骤(1’)所述游离dna的质量为10-50ng,例如可以是10ng、11ng、12ng、13ng、14ng、15ng、16ng、17ng、18ng、19ng、20ng、21ng、22ng、23ng、24ng、25ng、26ng、27ng、28ng、29ng、30ng、31ng、32ng、33ng、34ng、35ng、36ng、37ng、38ng、39ng、40ng、41ng、42ng、43ng、44ng、45ng、46ng、47ng、48ng、49ng或50ng,优选为15-20ng。
优选地,步骤(2’)所述引物组如seqidno.1-46所示。本发明中,基因位点的引物序列如表2所示:
表2
优选地,步骤(3’)所述高通量测序的平均测序深度为1000-3000×,优选为2000×。
作为优选技术方案,本发明提供一种产前检测子代基因型的方法,所述方法包括以下步骤:
(1)从孕妇体液中提取10-50g游离dna,采用如seqidno.1-46所示引物组进行pcr扩增,构建包含15个耳聋基因位点和31个辅助基因位点的dna文库,高通量测序,平均测序深度为1000-3000×,对测序结果进行比对和分析,得到测序结果;
(2)计算每个基因位点的最小等位基因频率;
(3)对步骤(2)所述最小等位基因频率的集合采用高斯混合模型进行聚类,分为四类,确定每个基因位点的聚类结果;
(4)根据步骤(3)所述基因位点的聚类结果,得到亲代和子代在所述基因位点的基因型组合;
(5)根据亲代在所述基因位点的基因型,得到子代在所述基因位点的基因型。
第二方面,本发明提供一种如第一方面所述方法在无创性产前检测遗传性耳聋基因基因型的应用。
本发明中,仅仅检测基因型并不能直接诊断是否具有遗传性耳聋,还需要和其他手段辅助诊断,才能最后确定是否带有遗传性耳聋。
与现有技术相比,本发明具有如下有益效果:
(1)本发明的方法将数学聚类思想运用于生物学领域,通过确定最小等位基因频率的聚类结果,实现了对妊娠期胎儿15个耳聋基因位点和31个辅助位点的基因型的检测;
(2)对比胎儿出生后的检测结果,15个耳聋基因位点的产前检测准确率高达100%,辅助位点的准确率高达93.5%,综合准确率高达95.7%;
(3)本发明的方法无创、安全性高、准确率高、成本低、周期短,对遗传性耳聋的提前预防具有重要意义。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
实施例1基因位点的确定
选择15个热点中国人群耳聋基因位点和31个辅助基因位点进行检测。
遗传性耳聋基因位点:rs121908362、rs750188782、rs111033220、rs111033204、rs80338939、rs111033313、rs201562855、rs111033305、rs80338943、rs200455203、rs111033318、rs192366176、rs74315319、rs267606619、rs267606617;
辅助基因位点:rs146044344、rs17878444、rs28369942、rs2307959、rs2067235、rs2308292、rs1610937、rs1305056、rs2307652、rs1057516953、rs111033380、rs121908363、rs1611048、rs1611001、rs2308072、rs3081400、rs8190570、rs201771066、rs150042219、rs773528125、rs17238892、rs2308163、rs2307433、rs1610905、rs2307581、rs1305047、rs16438、rs8178524、rs16388、rs6481、rs16363.
实施例2孕妇外周血cfdna的提取
在被检者知情同意的情况下,采集孕周为12-24周的孕妇的外周血10ml,分离血浆,采用abi公司magmaxtmcellfreednaisolationkit试剂盒提取游离dna(cfdna),冻存于-20℃备用。
实施例3cfdna特异性文库构建
(1)构建文库特异性引物序列如表2中seqidno.1-46所示,由杭州联川生物合成;
(2)采用一步法pcr构建dna文库,反应体系如表3所示,反应程序如表4所示;
表3
表4
(3)采用纯化磁珠对构建的dna文库进行纯化。
实施例4illumina测序和生物信息学分析
(1)对文库进行定量,使用illuminanextseq500进行高通量测序,测序读长150bp,平均测序深度2000×;
(2)得到测序结果后,采用fastqc软件进行质控,去除接头序列、引物序列和低质量序列,使用bwa将结果与参考基因组进行比对,得到46个基因位点的测序结果,采用gatk进行分析,得到46个基因位点的最小等位基因频率(maf),通过混合高斯模型对46个基因位点的最小等位基因频率进行聚类,分为l1(maf=0~0.1760),l2(maf=0.0563~0.0712),l3(maf=0.4365~0.4508)和l4(maf=0.4608~0.500)。
实施例5胎儿耳聋基因型的判断
根据46个基因位点的最小等位基因频率的聚类结果,预测母亲/胎儿的基因型组合;胎儿出生后,采集足跟血提取dna,进行高通量测序;对测序数据进行质控并分析,结果如表5所示。
表5
结果显示,15个耳聋基因位点的准确率达100%,31个辅助位点的准确率达93.5%,全部46个基因位点的准确率达95.7%。
综上所述,本发明将数学聚类思想运用于生物学领域,通过确定最小等位基因频率的聚类结果,实现了对妊娠期胎儿15个耳聋基因位点和31个辅助位点的基因型的检测,15个耳聋基因位点的产前检测准确率高达100%,辅助位点的准确率高达93.5%,综合准确率高达95.7%;本发明的方法无创、安全性高、准确率高、成本低、周期短,对遗传性耳聋的提前预防具有重要意义。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
序列表
<110>北京爱普益医学检验中心有限公司
<120>一种产前检测子代基因型的方法及应用
<130>20180302
<141>2018-03-08
<160>46
<170>siposequencelisting1.0
<210>1
<211>65
<212>dna
<213>人工合成()
<400>1
ctgccccaacatcgtggactgctacattgcccgacctaccgagaagaaaatcttcaccta60
cttca65
<210>2
<211>65
<212>dna
<213>人工合成()
<400>2
ccaggtcacatcccatcagcttctacaataggaaatgccacccagccccggggcgggaca60
ggtgg65
<210>3
<211>65
<212>dna
<213>人工合成()
<400>3
ctcaccatgcaagatattccttggtaattcagcaacaatctaaaggtaccctttagatcc60
taaac65
<210>4
<211>65
<212>dna
<213>人工合成()
<400>4
acttgtaaagctggagaatggagaacttcagaaaaagtttacttaatattgtatactttc60
atcag65
<210>5
<211>65
<212>dna
<213>人工合成()
<400>5
agtacaattttaaaactgaactatggtctgtgaggctcttagaagaaaaaactcactgga60
ctgat65
<210>6
<211>65
<212>dna
<213>人工合成()
<400>6
aggaccaccattattcccctctgtaagtatgcctctttgcaatatgactttgcagttcct60
cccag65
<210>7
<211>65
<212>dna
<213>人工合成()
<400>7
attttcattagattccaagtaagaatcaaaataatgagaccatgctttatatattcttaa60
aatta65
<210>8
<211>65
<212>dna
<213>人工合成()
<400>8
aggatgtccttctacttccataagtaaaatagagacctcacatttgtttgtctttatttg60
taagc65
<210>9
<211>65
<212>dna
<213>人工合成()
<400>9
agccagttgtaatcctggttgaagactctcaaagaataataccaaactaaagtaaaagtc60
tgcag65
<210>10
<211>65
<212>dna
<213>人工合成()
<400>10
atgtaggccaactattgcaaatgagatttggaggactgtgcatgtggcttgggactcatc60
atttc65
<210>11
<211>65
<212>dna
<213>人工合成()
<400>11
gcaactgctgtcttacctctatacccattctgctgatccattgcttctatcactttccac60
tgatt65
<210>12
<211>65
<212>dna
<213>人工合成()
<400>12
accgagtcaaggaatggctgcttagtgacgtcatttcgggagttagtactgggctagtgg60
ccacg65
<210>13
<211>65
<212>dna
<213>人工合成()
<400>13
agttaatttcaaataaaaattacatccatctatattttacttgtaagttcattacctgta60
taatt65
<210>14
<211>65
<212>dna
<213>人工合成()
<400>14
atgtagttagaaagttcagcattatttggttgacaaacaaggaattattaaaaccaatgg60
agttt65
<210>15
<211>65
<212>dna
<213>人工合成()
<400>15
gcagtggtggccacaaaacaagagaagaatcctgagaagatgttgctgatcccaaaggca60
atgaa65
<210>16
<211>65
<212>dna
<213>人工合成()
<400>16
ctctgagatggatatcataaggctgttgttcctacctgtgtctttcctccagtgctctcc60
tggac65
<210>17
<211>65
<212>dna
<213>人工合成()
<400>17
agaatgaatgaagtctcaaaagaggttagaaaacaaatttctagggataaaatacttact60
gtgga65
<210>18
<211>65
<212>dna
<213>人工合成()
<400>18
cccaaccaaggaaatagagattcaagtggattggaactctgagcttccagtcaaagtgaa60
cgttc65
<210>19
<211>65
<212>dna
<213>人工合成()
<400>19
gtggagctatatctttcctggacgttgttggagtgagatcactgcgggtggtaaggttct60
ggttt65
<210>20
<211>65
<212>dna
<213>人工合成()
<400>20
ccctcttgagatttcacttggttctgtagatagagtatagcatcatggaccgtcaaaaag60
aatgt65
<210>21
<211>65
<212>dna
<213>人工合成()
<400>21
gcacaaatgaacaagggctgcatccttgctgacgaaattgcagtaactacaagtaaggaa60
agtaa65
<210>22
<211>65
<212>dna
<213>人工合成()
<400>22
aggaagttcattctatttcatggaatatatgagactcacactggtccttagaggactgca60
tgaag65
<210>23
<211>65
<212>dna
<213>人工合成()
<400>23
agatgacatgtctgactttgttgctagtttgtcatttgaatatataatgggacaactttc60
agggc65
<210>24
<211>65
<212>dna
<213>人工合成()
<400>24
gtgttggggaggaaggaataacaagtacctcagttcatctttgtggtctttaaaaatatt60
ttttt65
<210>25
<211>65
<212>dna
<213>人工合成()
<400>25
gcatctttcctttacagcatattagtcctggatagccttagaaaatatagtcatttgtcg60
gttta65
<210>26
<211>65
<212>dna
<213>人工合成()
<400>26
gtgtagagatgcatcagccagactggtagcctgaattctgagttctgttttactttgttt60
gtttg65
<210>27
<211>65
<212>dna
<213>人工合成()
<400>27
cttctccatgcagcggctggtgaagtgcaacgcctggccttgtcccaacactgtggactg60
ctttg65
<210>28
<211>65
<212>dna
<213>人工合成()
<400>28
ggttttgatctcctcgatgtccttaaattcactctttatctcccccttgatgaacttcct60
cttct65
<210>29
<211>65
<212>dna
<213>人工合成()
<400>29
cgctggcgtggacacgaagatcagctgcagggcccatagccggatgtgggagatggggaa60
gtagt65
<210>30
<211>65
<212>dna
<213>人工合成()
<400>30
cgtcttttccagagcaaaccgcccagagtagaagatggattggggcacgctgcagacgat60
cctgg65
<210>31
<211>65
<212>dna
<213>人工合成()
<400>31
cggaggttgcggtgaaccaagatagcaccattgcactccagcctgggcaacaagagtgaa60
actcc65
<210>32
<211>65
<212>dna
<213>人工合成()
<400>32
aaaagatatcctttaatcaggaatgggttttgttgtggttcttaataaatgtgttcatat60
tttaa65
<210>33
<211>65
<212>dna
<213>人工合成()
<400>33
gctcaggaacattctgcccaatgttcatcagaactgtcaatatgctgaggggctgggctg60
cccca65
<210>34
<211>65
<212>dna
<213>人工合成()
<400>34
cttcctcaaaaggtctattttcccacactctttgcagggtacctctgagctcatcccagc60
aaaag65
<210>35
<211>65
<212>dna
<213>人工合成()
<400>35
cggaacagcatcgctttagatactaggtaaccatggccagttttaggtctcagcatcacg60
tagag65
<210>36
<211>65
<212>dna
<213>人工合成()
<400>36
atgacagatatgttcactggctaaactatgtgtatcccataacaccatgtaaacctcaaa60
tatac65
<210>37
<211>65
<212>dna
<213>人工合成()
<400>37
acagcccaccagagcactacagccttttattgagtggggcaagtgctgggctgtggtcgt60
gccct65
<210>38
<211>65
<212>dna
<213>人工合成()
<400>38
cttgtgtgctggtccattctcttgtaaccatgtcaggtgaaggaacagccccgaggaaag60
gggcg65
<210>39
<211>65
<212>dna
<213>人工合成()
<400>39
agggtcagggttggctctcgttggcatggccctggcccatccagacctgtatctttgcca60
ttctg65
<210>40
<211>65
<212>dna
<213>人工合成()
<400>40
gttcacgaagccacaagtatttactatctggccctttatagaaaaagctcactgaccctg60
gtcta65
<210>41
<211>65
<212>dna
<213>人工合成()
<400>41
ggctggattgaagtgcatttgaaagcacaacgggttgaatcctgttttgttgtccccatc60
cctga65
<210>42
<211>65
<212>dna
<213>人工合成()
<400>42
aaggtggatttagcagtaaactaagagtagagtgcttagttgaacagggccctgaagcgc60
gtaca65
<210>43
<211>65
<212>dna
<213>人工合成()
<400>43
aaggtggatttagcagtaaactaagagtagagtgcttagttgaacagggccctgaagcgc60
gtaca65
<210>44
<211>64
<212>dna
<213>人工合成()
<400>44
gcgcctccgccgtctgcatcgtactcaccatctgtgagctctgctacctcatctgccaca60
gggt64
<210>45
<211>64
<212>dna
<213>人工合成()
<400>45
aggtggccactaggagagggacaggtggccactaggagaggggcaggggtactagacgag60
aacc64
<210>46
<211>64
<212>dna
<213>人工合成()
<400>46
tgggatttaaaattgttattagatttatgaatgatatgttttcttttgggcaagtaagtc60
aggt64