pca主成分分析结果解释

作者&投稿:察霞 (若有异议请与网页底部的电邮联系)

PCA (Principal component analysis)

在拿到测序公司给的生信分析报告的时候,我们可能会看到一张主成分分析(principal component analysis,PCA)图。

大部分就写成组与组之间存在显著分离,然后就没啦,这样是不是有点过于单薄。

如何才能读懂PCA图的组成部分,并且写出完整的结果描述呢?看完这篇就知道啦。

【概述】

一般来说,研究中涉及一个变量,两个变量以及三个变量时,可以分别绘制成一维,二维,和三维空间图来展示结果。然而,涉及到多个变量时,结果过于复杂,无法准确的展示。这时,用到PCA分析的关键一步,降维。简单来说,通过减少数据中的变量来化简数据;这里的减少指标,并不是随意加减,而是用复杂的数理知识,得到几个“综合指标”来代表整个数据,这个综合指标就是所谓的主成分!

【简单的两组比较】

先观察一下图片中的组成成分,主要包括主成分和样本点。每组的样本都用圆圈进行聚类,每个部分代表的内容如图所示。

图片来源于:PMCID: PMC7011317

【多组处理比较】

图片来源于:PMCID: PMC7585944

【PCA biplot(涉及箭头)】

图片来源于:PMCID: PMC8085102

【其他类型】

两个线条之间的夹角,可理解为两个变量之间的相关性

夹角小于90度,可以认为两个变量正相关

大于90度,可以认为两个变量负相关。

图片来源于:PMCID: PMC8224010

通过某个变量所代表的线条在PC1和PC2上的投影,我们可以看出这个变量对样本分离的贡献度,线条越长,代表投影越大,影响越显著。

图片来源于:PMID: 29723835

【小结】

PCA常见图片的结果解读就到这里啦,从实战中更清晰的了解PCA图。

相信阅读完以后,对于写作会有一定的帮助。

总的来说,描述的时候不仅要考虑样本的重复性,还要观察该结果的生物学意义。

搞清楚原理后,不管遇到什么样的PCA图,都可以应对的游刃有余了。

跟着SCI文献读懂PCA图片的内容和原理,看完这篇就全明白啦! - 云生信学生物信息的文章 - 知乎
https://zhuanlan.zhihu.com/p/498044667





~

数据处理及建立模型
答:(3)第三组,相应产地的投点虽然也有部分分散,但大部分集中在与委内瑞拉Guaniamo产地相近的区域:其特征是各端元含量都居于三个产地之间,这和该组的综合主成分均值也居于所有产地之间结果相吻合。 (4)第四组南非Finsch产地,其特征是平均Fe含量最高,而Ca和Mg含量都相对偏低,与其他组区别明显。 由此可见,不同产地来源...

“宏观网络流量”的定义是什么?有哪些异常检测方法?
答:网络异常的检测和分析对于网络安全应急响应部门非常重要,但是宏观流量异常检测需要从大量高维的富含噪声的数据中提取和解释异常模式,因此变得很困难。文章提出一种分析网络异常的通用方法,该方法运用主成分分析手段将高维空间划分为对应正常和异常网络行为的子空间,并将流量向量影射在正常子空间中,使用基于距离的度量来检测...

地下水污染源解析技术
答:Ouyang等(2006)分析了表面水水质的季节变化,并根据不同季节找到影响水质的重要因子。Zhou F等(2007)结合多元分析方法及地理信息系统(GIS),对香港东部海湾海水污染的时空分布特征进行研究,并进行了污染源识别工作,对数据进行预处理,利用聚类分析以及主成分分析减小了数据测量误差,确定了特征污染物以及各污染物主要来源。

区域地质、自然地理与地球化学
答:现今展现的元素的分布格局乃是元素特性、区域地质背景和自然环境综合作用的结果,若仅对以水系沉积物为标志的区域地球化学特征作定性探讨,难以将各复杂因素之间关系明确地区分开来,但借助于各因素聚合而成的水系沉积物中的元素组合面貌,仍可揭示出区域地球化学的总体特征。不同地区元素间的主成分多变量相关分析结果清楚地...

云南丽江地区土地利用变化的遥感检测与分析
答:摘要:利用1999年2月和2001年4月2幅TM影像资料和其他辅助资料为资料源,对主成分分析处理后的遥感影像进行计算机自动识别,采用人机交互式解译方法获得各种土地利用类型分布信息,并使用地理信息系统的空间分析和数理统计功能分析丽江坝子地区土地利用变化的数量变化,土地利用动态度等特征,以及各类型之间的转化情况。结果表明:...

典型斑岩铜矿床的特征蚀变矿物及分带研究
答:同理,利用TM1、TM4、TM5、TM7等4 个波段进行主成分分析,提取含OH-或CO2-的绿泥石、白云母、方解石、高岭石、明矾石等常见蚀变矿物。克罗斯塔分析法是常见的信息提取方法,也有部分研究人员根据所在地区的具体成矿条件对其进行了改进,如增加参与主成分分析的波段,在不损失矿化信息的前提下利用拉伸或掩膜技术剔除雪等...

PMF常规项来源解析
答:因子载荷矩阵估计方法主要有主成分法、主轴因子分析和极大似然法等,本书采用主成分法提取特征值大于1的因子共3个,累计方差贡献率为84.01%,表明三因子集中反映了影响水质总因素的84.01%的信息量,因子载荷矩阵见表3.13。为使各公共因子的典型代表变量更加突出,便于解释其实际意义,将因子荷载矩阵进行旋转,旋转后各主因子...

急需翻译!!遥感探测专业术语,请帮忙翻译下,感激不尽~~
答:公元自适应Dectors光仪机载可见光/红外成像光谱仪酵自适应相干/余弦估计澳能源约束最小方差电子电路主成分分析恒虚警恒虚警率检测器海关氏距离十分典型相关幼儿椭球等高分布ECDHyT幼儿检测阈值与双曲线ECDPaT幼儿探测器与抛物线阈值GLRT广义似然比检验HYDICE光谱数字图像采集实验空间分辨率的瞬时视场合作社联盟独立...

化学药品的分析纯和化学纯有什么区别?
答:名称 优级纯 分析纯 化学纯 水不溶物 0.003 0.005 0.01 干燥失重 0.05 0.05 氯化物(Cl) 0.001 0.002 0.005 硫酸盐(so4) 0.005 0.01 0.02 钠(Na) 0.02 0.05 0.1 钙(Ca) 0.002 0.002 0.01 铁(Fe) 0.001 0.002 0.005 铜(Cu) 0.001 铅(Pb) 0.005...

成分分析中“烧失量”指的是什么?
答:烧失量是指坯料在烧成过程中所排出的结晶水,碳酸盐分解出的CO2,硫酸盐分解出的SO2,以及有机杂质被排除后物量的损失。烧失量是用来限制石膏和混合材中杂质的,以保证水泥质量。1、水泥:粉状水硬性无机胶凝材料。加水搅拌后成浆体,能在空气中硬化或者在水中更好的硬化,并能把砂、石等材料牢固地...