Sanger双脱氧链终止法是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见DNA碱基序列的一种方法。
一代测序结果图,横轴是电泳时间,纵轴是荧光强度,横轴也是碱基的先后次序。峰越高、越尖,与别的峰交错越少,则这个碱基判读准确性越好。结果肉眼可见,直观而准确。
二代测序:第二代DNA测序技术又称高通量测序技术(High-throughput sequencing, HTS),以低成本、较高的准确度,一次可对几百、几千个样本的几十万至几百万条DNA分子同时进行快速测序分析。这一时期的代表技术有 Roche公司的454(已退市)、Illumina公司的Solexa(已升级到Novaseq,市场份额第一)和ABI公司的SOLID(由ThermoFisher公司收购,已升级到Ion Torrent S5),由于该时期的测序技术十分前沿,因而市场主要被这三家公司所垄断。其测序技术复杂,生成测序文件数据量巨大,后续生物信息处理难度高,因此近5年才逐步进入临床,且多用于肿瘤精准用药的部分。
以illumina为例,我们简单介绍一下其测序流程。
①将目的DNA分子打断成100-200 bp的片段,随机连接到固相基质上,经过Bst聚合酶延伸和甲酸胺变性的桥PCR循环,生成大量的DNA簇(DNA cluster),每个DNA 簇中约有超过1000个相同序列的DNA片段。
②之后的反应与Sanger法类似,加入用4种不同荧光标记并结合了可逆终止剂的dNTP。固相基质上每个孔有八道独立检测的位点,所以一次可以并行八个独立文库,可容纳数百万的模版克隆,可把多个样品混合在一起检测,每个固相基质上一次可读取10亿个碱基。
③DNA簇与单链扩增产物的通用序列杂交,由于终止剂的作用,DNA聚合酶每次循环只延伸一个dNTP。每次延伸所产生的光信号被标准的微阵列光学检测系统分析测序,下一次循环中把终止剂和荧光标记基团裂解掉,然后继续延伸dNTP,实现了边合成边测序技术。
④其主要的缺点是由于光信号衰减和移相的原因使得序列读长较短,可以进行每个DNA测序片段的阅读长度较短,目前主流且成本最低的就是做双端测序150bp(PE150)。我们测全外显子组的策略也是PE150。
二代测序原理,通过簇生成,CCD捕获结合到模板的dNTP发的荧光,确定其DNA序列。
二代测序完成后,由于数据量巨大,复杂和多样,因此,结果是肉眼不可见的,需要专业的算法、流程将原始数据处理为可用的数据。可比喻为,测序只是去菜场买菜,算法则是把菜做成大餐的过程。这个过程需要超级计算机,建立好的优秀算法以及精通生物信息学分析的人员。
二代测序分析流程中,需要将原始测序数据进行质控后生成一系列的中间文件(左图),通过繁琐的生物信息学流程(中图),最后拼接成我们想要的基因。目前全流程多用Python和Perl语言在服务器上实现(右图)。
二代测序由于其原理的一些问题,导致必须同一个位点测多次,才能保证数据的可靠性。一般用于临床的数据,需要同一位点测序后出现200次以上。我们将这样的方案叫做测序深度(>200 X)。二代测序的优势是巨大的,其数据量巨大,可短时间高效率对人类基因组测序,并发现大量未知位点。单个位点成本降低,是个性化医疗和精准用药的基础。
最后,还有一种类似测序的工具,叫做基因芯片。基因芯片的原型是80年代中期提出的。基因芯片的测序原理是杂交测序方法。目前由国内外几家大厂家所垄断。其优点是信息量较大,比一代测序的识别位点极大提升,可批量化生产并有完全标准流水线工作。但其缺点也很明显,成本仍较高,无技术门槛,只检测已选择好的位点,更新位点的时间和经费成本较高。比如illunima公司的ASA芯片,就是在一块芯片上集成了66万个人类基因组位点,检测信息量大约30m左右。
2001年,通过一代测序,耗资37亿美元,耗时13年,获得了人类基因组草图。到了2007年,用二代测序完成第一个完整的人类基因组序列图谱只花费了150万美元,耗时3个月。到了2020年,人类基因组测序只需要不到1万元人民币即可完成测序工作,时间只需要3天。近年来,测序技术突飞猛进,随着测序单价的不断降低,我们必将见证人人都有“基因身份证”的那一天。