用k-mer分析进行基因组调查:(一)基本原理

作者&投稿:休宇 (若有异议请与网页底部的电邮联系)

(全文5058字)

【推荐】用Smudgeplot评估物种倍性后,用组合jellyfish+GenomeScope1.0做二倍体物种的基因组调查,用组合KMC+GenomeScope2.0做多倍体物种的基因组调查。

基因组调查(genome survey)指基因组特征评估,一般指通过k-mer分析二代测序数据,获得基因组大小(genome size),杂合度(heterozygosity),重复序列比例,GC含量等基因组信息的手段。

基因组复杂程序的判断标准包括:基因组大小,倍性,杂合度,重复序列比例,GC含量等。

一般而言,基因组越大,重复序列比例越高; GC含量异常低或异常高,重复序列比例也会很高;多倍体基因组的杂合度高于二倍体。

判断基因组复杂程度可以参考以下经验性标准:

k-mer分析可以用在生物信息学许多方面,这篇博客的k-mer分析特指用于基因组调查的k-mer分析方法。

Figure 1. k-mer示例。图片来源: https://cloud.tencent.com/developer/article/1613847

k-mer分析应用的前提假设是测序的reads是随机分布在基因组上的。

首先定义几个变量,方便解释原理:

在不考虑测序错误、序列重复性和杂合序列的条件下,k-mer的深度分布遵循泊松分布。但实际情况是三者都存在,所以需要计算错误率,重复序列占比和杂合度,并根据计算结果修正对基因组大小的估计。

在实际应用过程中,估计了基因组的错误率、杂合度和重复序列比例后,重新修正基因组大小的估计,从而得到基因组调查的结果。

Figure 2. k-mer分析(软件GenomeScope)结果示例

许多分析都会用到k-mer的处理方法,把测序得到的reads通过截取k-mer后用于分析。

比如评估基因组特征,组装基因组,物种样品污染评估等。评估基因组特征(genome survey)包括评估基因组大小(size),杂合度,重复序列比例等。

k-mer分析分为 k-mer频数统计 基因组特征评估 两步。此外,Smudgeplot还可以用k-mer分析评估物种的倍性。



~

GenomeScope 2.0 评估基因组大小、杂合度和重复序列
答:het 表示杂合度,为1.65%; len 表示基因组大小,为376M左右。输出目录output_p3文件列表如下 通常关注summary.txt, transformed_linear_plot.png这2个文件。内容如下:在该文件中,会给出杂合度,基因组大小,重复片段长度等详细信息。结果分为三列:有疑问,可以对照模型进行检验。K-mer覆盖度-...

【豆科基因组】小豆(红豆)adzuki bean, Vigna angularis基因组2015
答:此外,红豆可以用作模型物种,特别是对于非油籽豆类,由于其生长期短且基因组小的特点。 流式分析基因组大小估计为 612 Mb,高于先前估计的 538 Mb 。22 k-mer 估计基因组大小为 591 Mb。 测序材料是 Gyeongwon,在韩国广泛种植的品种。 多种大小片段文库,ALLPATHS-LG + Newbler组装,3883个scaffold,N50=703kb,...

序列组装算法是什么意思?
答:一般来说,生成良好的组装结果需要结合不同策略,以提高组装效率和准确性。序列组装算法可以被分为两种类型,即重叠图算法和 de Bruijn 图算法。重叠图算法利用碎片化和序列重叠来确定序列之间的关联性,而 de Bruijn 图算法则采用了滑动窗口和 K-mer 分解技术将原始序列进行拆分,再进行组装。在实践中,...

RNA-seq 数据量化
答:在进行量化之前,首先需要对原始测序读段进行质量控制。这通常涉及去除低质量的读段、去除接头序列以及过滤掉污染的读段。2.读段比对(Alignment)或直接量化:传统方法是将读段比对(align)到参考基因组或转录组。这一步骤的目的是确定每个读段在基因组中的确切位置。另一种方法是直接量化,如使用k-me...

请问生物测序中的de novo genome assembly是什么意思?还有coverage?_百 ...
答:楼下回答了一些,我尽自己知道的补充一点。denovo字面意思是全新,专业一点就是从头测序。详细点就是对未知基因组序列进行测序,利用生物信息学分析手段,对序列进行拼接、组装,从而获得其基因组的图谱。另外,你追问的问题,其实有些人会混淆两个概念:测序的覆盖度(coverage)和测序的深度(depth)。对...

RNA-seq从入门到自闭(Kallisto和Salmon)
答:这是RNA-seq上游分析的最后一站,seq数据定量。这一篇文章会介绍基于k-mer定量两软件:kallisto和salmon。其中关于kallisto的部分我会附上TBtools插件的用法。 抱歉又更新晚了,之前一直想尝试selected alignment method来定量RNA-seq数据。电脑不给力,试了好几次都失败了,只好放弃……如果你有兴趣,可...

生信小白学习系列:如何进行基因组组装?(1)
答:简单来说这种算法就是将所有的reads拿出来,相互比对,找到重叠的reads,然后构建长的连续的contigs,最后再将contigs组在一起形成scaffolds。这个过程可以基于下图来进行总结:De Bruijn 图 或者 k-mer 方法 主要的步骤包括:大概的过程如下图:我该选用哪个组装的工具?目前已经开发了很多不同的组装工具,...

每周文献 2021-08-02
答:接着,作者通过ChIP–seq确定检测到小鼠ES细胞中1302个可重复的峰(图1d),对前500个峰的独立k-mer富集分析确定CGCG元件为主要序列(图1e),称之为BANP基序。这些基序主要存在于启动子中,尤其是CGI启动子(图1d,f)。同时作者发现几乎90%的启动子与基序是结合的,有12%的基序位于远端(图1g)。

比对算法总结(一)——基于哈希表结构的比对算法
答:查找短序列在参考基因组中可能的匹配候选位点。基于哈希表索引数据结构的比对算法也可细分为 连续种子序列(contiguous seed)策略和间隔种子序列(spaced sedd)策略 。如下图所示,连续种子序列策略是将短序列分成k-mer长的子序列,通过查询基因组k-mer长的子序列构成的哈希表数据结构进行匹配,如果短...

基因克隆
答:基因克隆(gene cloning)或分子克隆,又称为重组DNA技术,是应用酶学方法,在体外将不同来源的DNA分子通过酶切、连接等操作重新组装成杂合分子,并使之在适当的宿主细胞中进行扩增,形成大量的子代DNA分子的过程。例如,要获得人类基因组中的某个基因,我们就需要借助基因克隆技术,进行目的基因的分离、克隆和扩增。因此,接下...