建库测序中的若干问题(1)

作者&投稿:蓬萧 (若有异议请与网页底部的电邮联系)
转自 http://www.biodiscover.com/news/research/732481.html

文库结构可分为以下几个部分:插入片段,P5、P7接头,测序引物结合位点及index。

    P5、P7接头位于文库两端,可以与flowcell上的寡核苷酸结合,在簇生成和测序过程中可作为引物或起到固定模板链的作用。

     Index是不同样本的区分依据,当同一条lane中混入多个样本测序时,即可根据index区分来自不同样本的reads。根据建库时使用接头结构不同,又分为单index文库和双index文库。随着测序通量的不断增加,每条lane可以容纳的样本量也越来越多,双index可以变化出更多种组合,且能够降低标签串扰的比例,因此一些对灵敏度要求较高的检测通常会构建双index文库[1]。

    图中黄色和蓝色的部分是测序引物结合位点:index5在NovaSeq 6000和HiSeq X平台的测序方向是不同的。完成Read1、index7测序之后,NovaSeq 6000平台会继续以这条链为模板进行index5的测序,测序引物是flowcell上的P5接头,因此index5的测序方向和Read1、index7是一致的。而HiSeq X平台的index5、Read2测序则是在末端翻转后进行的,因此index5的测序方向与Read2一致,而与Read1、index7相反, 同样的index5在HiSeq X和NovaSeq  6000平台测得的序列是反向互补的,因此在填 写文库信息的时候一定要注意测序平台和序列的对应关系。

        Illumina 测序仪在收集信号时,并不是拍摄一张彩色照片一次完成的,而是分 A、C、G、T 4 个波长,分别拍摄 4 张单色照片,然后通过软件处理把这 4 张图叠加成一张。这是一种权宜之计,目的是减少图片文件的大小,从而降低对于数据存贮空间的要求。但也有缺点,一旦某一张或几张照片的信号强度不够,或者没有信号,则图片的叠加就不能准确完成。 碱基不平衡文库 (即A、G、C、T 四种碱基的含量远远偏离 25%)在测序时会导致某些图片(波长)没有信号或者信号很弱,在碱基识别时准确性降低。常见的碱基不平衡文库有BS甲基化文库、单细胞转录组文库、PCR产物文库等,为了减少碱基不平衡对测序结果的影响,通常会混入一定比例的phix文库。

Phix 文库是校准文库 ,是 illumina 的一种试剂,来源于病毒基因组DNA。其基因序列已精确知晓,GC 比例约为 40%,与人类、哺乳类的基因组的 GC 比例接近。其基因序列又与人类的基因序列相去甚远,且不含有index。在与哺乳类基因组一起测序时,可以通过基因序列比对或数据拆分而将之去除。在测碱基不平衡的文库样本时,可以加入大量的 phix 文库,以部分抵消样本的不平衡性。也可以少量地加入phix文库,以作为 control library 来验证测序质量。

Index可以容纳多少种文库? 以8碱基index为例,单端index文库理论上可以有4^8=65536种index,双端index文库理论上可以有65536^2=4294967296种index,但实际pooling时为了避免因对焦不准造成index读错,造成数据无法拆分,需要使用碱基分布均匀的index。

文库质检的方法: 上机前使用Aglient 2100或LabChip GX Touch生物芯片分析系统检测文库片段大小,并使用StepOnePlusTM Real-Time PCR System,以P5、P7接头作为引物进行 QPCR定量(最准确) 。由于Illumina文库开始测序之前会先以P5、P7接头为引物进行桥式PCR,在flowcell上生成簇,因此这样的上机定量结果是比较准确的。

文库pooling的原则: 1) 去除低质量的reads :reads中质量值Q≤19的碱基占总碱基的50%以上则舍弃该条read,对于双端测序,若一端为低质量reads,则会去掉两端reads;2) 去除接头污染的reads :reads中接头污染的碱基数大于5bp则舍弃该条read,对于双端测序,若一端受到接头污染,则去掉两端的reads;3) 去除含N较多的reads :reads中读N碱基比例大于5%则舍弃该条read,对于双端测序,若一端含N比例大于5%,则会去掉两端reads。

Duplication 是指起始与终止位置完全一致的片段。引起Duplication的主要原因是在测序中有PCR过程,来源于同一个DNA片段PCR的产物被重复测序,就会产生duplication。次要原因是正巧两个插入片段的头和尾的位置完全一致,导致这一现象可能的原因有以下几种:a. 物种基因组小,本身的片段多样性低 ,测定的数据量多,重复的数据多;b. 建库过程中 建库起始量少,片段多样性低 ,在相同的PCR条件下,会造成文库总量低,后期数据的dup率高;c. 片段打断或加接头存在偏好性,文库的多样性较差 。Dup率计算主要有以下2种方法:一种是数据质控时计算,利用 reads 序列来计算dup,要求 read 序列一样才算作duplication,duplicate reads数目除以总 reads数目计算比率;另一种是比对分析时计算,根据read比对上基因组的位置来判断,比对的位置一样就算作duplication,一般会有 2bp的容错。

参考文献

[1] Macconaill L E, Burns R T, NagA, et al. Unique, dual-indexed sequencing adapters with UMIs effectively eliminate index cross-talk and significantly improve sensitivity of massively parallel sequencing[J]. Bmc Genomics , 2018, 19(1):30.

~

Pacbio测序(一)
答:pacbio sequel II升级后单个芯片数据通量是原来的8倍 Pacbio文库构建的模板是哑铃形状,哑铃形状的文库有一个好处,它整个分子实际上是一个圆环。在测序的过程中它可以周而复始地进行测序,这不仅有利于发挥PacBio的长读长的优势,同时有利于多个pass矫正随机错误率。pacbio建库流程如下:DNA链铆钉在即零模...

一代测序,二代测序,三代测序的优点缺点分别是什么,求大神赐教
答:一代测序,二代测序,三代测序的优点缺点分别介绍如下:一代测序优点是读长较长、准确性高。缺点是测序成本高、通量低,使得de novo测序、转录组测序等应用难以普及。二代测序优点是相比一代测序大幅降低了成本,保持了较高准确性,并且大幅降低了测序时间,将一个人类基因组从3年降为1周以内。缺点是...

测序原理:一代二代三代测序原理详解
答:此外,这些ddNTP上连接有放射性同位素或荧光标记基团,因此可以被自动化的仪器或凝胶成像系统所检测到。Roche公司的454技术、illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术标志第二代测序技术诞生。其中Roche公司的454测序系统是第二代测序技术中第一个商业化运营的测序平台。 其中Illumina市场规模占到...

单细胞数据处理小细节汇总
答:22. 单细胞数据做pooling的好处:可以尽量的降低dropout的问题。(dropout就是矩阵中的zero,这些zero实际上并不是0,而是每个液滴里面起始反应量太低了。而一般的反转录效率只能到30%左右,70%的转录本实际上在反转录那一步是被丢掉的,这是单细胞测序一个比较大的问题)。 但是一旦做了pooling,你必须要证明pooling对...

RNA-seq 分析之我见(一)
答:通过上面的分析,接下来面临的问题就是,我怎么分析某一疾病状态下组织或者细胞所有RNA的表达情况,一个一个分析,肯定不现实,而且可能还有很多未被发现但是很重要的分子。怎么办?只有一个办法,转录组测序,即RNA-Seq, 某一条件下所有转录出来的RNA碱基序列,我都给你测出来是什么。那么这涉及6个步骤...

风险建库测序的成功率大吗?
答:成功率大。样本合格,当然可以正常建库测序,无生产问题(样本污染、接头错误等),数据质量一般很好。如果样本质控问题,需要风险建库和风险上机,可以先听听公司的评估和建议,公司根据经验,如果成功率特别低,基本不会同意客户上机的,也是为了避免麻烦的售后。即使公司评估成功率很高,也会在给客户的邮件中...

甲基化测序 (WGBS/RRBS/TBS)的去重(de-duplication)问题
答:关于测序数据去重问题网上有很多大神的分析,我就不滥竽充数了,我挑取了几篇比较好的文章:第二代测序原理的详细解析!高通量测序之duplicated reads 试论NGS数据的Duplication问题 如何去除二代测序数据中的PCR duplication才科学?对于甲基化测序来说,主要根据建库的不同来看是否需要去重:

No.1 第三代测序单分子荧光测序之Pacbio 测序原理
答:分别将四色荧光基团标记在脱氧核苷酸的磷酸基团的末端。当碱基配对完成之后,随着磷酸基团的掉落而掉落,并且不会影响后续的测序过程。在测序微孔中,聚合酶存在于玻璃板的底部,当聚合酶抓住一个dNTP的时候,会停留一段时间,这时激发波长才会激发基团发出荧光,而孔中其他少量的游离dNTP则不会被激发。DNA...

科普讲堂 | RNA样本提取与判读的方法及常见问题分析
答:④ lncRNA和circRNA测序: 影响极大,建库方式决定了如果污染,若不给予处理,数据可能完全没法用,故对该问题需要高度警戒。常见问题分析 得率低:① 样品裂解或匀浆处理不彻底;② RNA沉淀未完全溶解。A260/A280<1.65(RIN<7): ①检测吸光度时,RNA样品没有溶于水,而溶...

完整的单细胞分析流程——数据标化(normalization)
答:对于大量RNA测序数据分析,消除成分偏差是一个经过充分研究的问题。可以使用 DESeq2 包中的 estimateSizeFactorsFromMatrix() 函数或 edgeR 包中的 calcNormFactors() 函数来执行规范化。这些假设大多数基因不是细胞之间的DE。假设两个细胞之间多数非DE基因之间的计数大小的任何系统性差异都代表了偏差,该偏差用于计算适...