"探索性因子分析EFA是个啥?"

作者&投稿:水汪 (若有异议请与网页底部的电邮联系)

当我们的变量不独立或不相关的时候,其实就不存在上述栗子中的问题了,那我们也不可能找到影响所有变量的公共因子

因此,在做因子分析前我们需要进行KMO检验和Bartlett检验

KMO检验用于检验变量之间的偏相关性的 ,其取值为[0,1],当KMO统计量越接近于1时,变量之间的偏相关性越强

一般我们要求KMO统计量在0.5以上且越接近于1越好,如果KMO在0.5以下,那就要重新考虑是否要使用因子分析了

Bartlett用于检验变量之间是否独立 ,其原假设是变量之间相互独立,如果检验的P值小于0.05,那么我们就可以在95%的置信水平上拒绝原假设,认为变量间不独立

只要变量不独立,那我们当然可以进行因子分析

经过KMO和Bartlett检验后,我们发现变量确实相关而且不独立,因子分析终于可以大展拳脚了,那这个因子分析到底是怎么个操作方法呢?

万丈高楼平地起,我们还是要先弄清因子分析的模型

既然变量不独立而且相关,那他们肯定会受到一个或者多个潜在变量的影响,我们只要把这个潜在变量找出来,再用潜在的变量表示原来的变量,那我们对原始变量的研究就可以转化为对这个潜在变量的研究。因子分析模型也是这个道理

简单来说,因子分析模型就是用 公共因子 特殊因子 表示原来的变量

假设我们现在对n个样本观察了p个指标,即X1,X2...Xp,公共因子用F表示,特殊因子用epsilon表示,那么因子分析模型就可以用以下数学模型表示

以上的复杂式子,我们可以用 X = AF + e 表示,其模型描述如下:

【模型假设】

整个因子分析最重要的一步,就是要求出loadings,即因子载荷 ,围绕因子载荷,我们还要提一下以下几个重要的性质

因子载荷矩阵有以下几个重要统计性质

因子 a_ij 是第i个变量与第就、个公共因子的 相关系数 ,反映了第i个变量与第j个公共因子的相关重要性

说人话就是,a_ij越大,Xi与Fj的相关性越强呗~

对第i个变量Xi的共同度是指因子载荷矩阵第i行的因子的平方和,也可以理解成 j个共同因子对第i个变量的方差的贡献度

对其两边求方差可以得到

上式可以看出, 所有的公共因子和特殊因子对变量Xi的贡献为1,因子平方和越靠近1,则特殊因子项的方差就会很小,因子分析的效果越好

因子载荷矩阵中 第j列元素的因子平方和 为Fj对所有Xi的方差贡献和,记为gj2,用于衡量Fj的相对重要性

说人话就是,因子载荷矩阵里每一行的因子的平方和代表共同度,每一列的因子的平方和代表方差贡献

那接下来就要讲讲这个因子载荷要咋求出来

2.2.3 因子载荷&因子旋转

估计因子载荷的方法很多,比如主成分分析,最大似然估计等,由于上一篇文章讲了PCA,我们这就用主成分分析法来求因子载荷

由于PCA再主成分分析一文里说的很详细,这里就不再阐述了,大体思路一致,关键在于找到相关系数矩阵对应的特征值和特征向量

主成分分析链接🔗

假设v是最终计算出来的特征值和特征向量,λ是特征值,那么因子载荷a可以由以下公式计算

整个计算方法基本和PCA一致,求出特征值,找出 累计方差贡献大于70% 的前几个λ,然后再计算出对应的特征向量v,然后再计算出因子载荷

得到因子载荷后,我们需要衡量因子是被哪几个指标支配【即不同的F是受哪些X影响】,一般因子载荷 a>0.5 则认为该指标是支配指标

比如,以下表格的数据可以看出F1受到x1,x2支配;而F2受到x3,x4支配

做完因子旋转后,因子载荷的平方值会向0和1两个方向分化,原本值大的因子载荷会更大,原本值小的因子载荷会更小,这样我们就可以把他们区分开

【栗子🌰】

说了辣么多,来个栗子吧,不然看的云里雾里的

假设变量的相关系数矩阵是R如下,求其因子,首先 第一步我们求特征值λ

根据特征值和特征向量公式我们求的λ

计算出特征值后我们要 计算累计方差贡献 ,计算如下

因为λ1和λ2大于1,而且累计方差占比大于70%,因此我们只选取2个因子,接下来就要 计算其特征向量

将λ代回原矩阵计算

上述例子求出了其中一个特征向量,其他特征向量计算方法也类似,求出后 计算对应的因子

由此可得x与公共因子与特殊因子的模型数学表示如下:

其中F1对x的贡献度为1.7454,F2对x的贡献度为1

相信看完案例,大家应该能明白因子载荷矩阵是怎么计算出来的 了~

因子得分其实就是指模型中因子F的取值,前面也说到,因子F是不能直接观察的理论变量,因此其取值只能借助于X来测量,一般F都要由X来线性表示

无意中看到有一篇文章写的是对因子得分的质疑,感觉他说的挺有道理的,而且因子得分好像用的也不多【可能只有我用的不多h】,因此这部分也不打算细讲

大概知道因子得分就是通过一种数学运算,将潜在因子F的值用X算出来了

【总结一下】

其实因子分析也就以下几步

这咋一看,感觉和PCA那么像呢,因为我们使用的是主成分分析法求解的因子载荷,所有确实和PCA有点像,但实际上,EFA与PCA也是有很大区别的

EFA在spss、R、SAS、python等软件都能实现,由于现在喜欢用python的胖友比较多,那就来写下python下如何实现EFA吧~

【注意⚠️】 这里没有进行相关统计检验

码字不易,喜欢的话给个赞和关注吧~😋

相关参考

[1] 对主成分分析中综合得分方法的质疑

[2] EFA的python实现

[3] Abdi, Hervé. "Factor rotations in factor analyses." Encyclopedia for Research Methods for the Social Sciences. Sage: Thousand Oaks, CA (2003): 792-795.



~

"探索性因子分析EFA是个啥?"
答:简单来说,因子分析模型就是用 公共因子 和 特殊因子 表示原来的变量 假设我们现在对n个样本观察了p个指标,即X1,X2...Xp,公共因子用F表示,特殊因子用epsilon表示,那么因子分析模型就可以用以下数学模型表示 以上的复杂式子,我们可以用 X = AF + e 表示,其模型描述如下:【模型假设】整个因子...

什么是探索性因子分析法?有何优缺点?
答:因子分析(探索性因子分析)用于探索分析项(定量数据)应该分成几个因子(变量),比如20个量表题项应该分成几个方面较为合适;用户可自行设置因子个数,如果不设置,系统会以特征根值大于1作为判定标准设定因子个数。因子分析通常有三个步骤;第一步是判断是否适合进行因子分析;第二步是因子与题项对应关系判断;...

SPSS做完因子分析后,结果出来的5个因素,用这5个因素 做了相关分析,但是...
答:你做的是探索性因子分析,既然是探索性的,自然结果不一定会很好 做efa是用预调查数据,如果做的不好再修改问卷再调查 既然你用的是正式调查问卷,那就不要再考虑分组的问题了,应该直接去做cfa验证 data cleaning自然是要在分析之前完成

探索性因子分析(EFA)
答:1. 探索性因子分析基础首先,EFA的基础在于评估数据适配性。MSA值接近1表明适合作为因子分析的材料,如果小于0.5,则可能需要重新考虑。KMO值大于0.8是进行因子分析的黄金标准。1.2 估计因子负荷量选择主成分分析法,这是SPSS中最常用的方法,通过线性组合,衡量变量间的共同变异。主成分法旨在最大化共...

什么是探索性因子分析法?
答:探索性因子分析法(Exploratory Factor Analysis,EFA) 探索性因子分析法(Exploratory Factor Analysis,EFA) 是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。 因而, EFA能够将将具有错综复杂关系的变量综合为少数几个核心因子。

探索性因子分析的特点
答:探索性因子分析(Exploratory Factor Analysis,EFA)的特点主要在于其数据驱动性、降维能力、假设非定向性以及为后续分析提供基础。首先,探索性因子分析是一种数据驱动的技术。这意味着分析过程中,研究者并不事先设定因子(即潜在变量)的数量或性质,而是让数据自身来揭示其潜在结构。通过这种方法,EFA能够...

探索性因子和验证性因子分析的区别和联系
答:探索性因子分析(EFA)与验证性因子分析(CFA),二者的区别在于,验证性因子分析(CFA)用于验证对应关系,探索性因子分析(EFA)用于探索因子与测量项(量表题项)之间的对应关系。如果是成熟的量表,研究者可同时使用验证性因子分析CFA,和探索性因子分析(简称因子分析,EFA)验证量表的效度。如果量表的权威性较...

探索性因子是什么
答:探索性因子分析(EFA)就是将所有测量题目放在SPSS中做因子分析,EFA的目的就是探寻测量题目所应归属的因子或潜变量。一、 探索性因子分析(EFA)1.1做EFA的前提输出的反应象相关矩阵中,取样适切性量数(对角线位置的数据,MSA)越接近1表示越适合进行因子分析,如果<0.5的话,表示不适合因子分析。KMO...

数据挖掘总结之主成分分析与因子分析
答:因子分析概念:探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法。通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。进行EFA需要大量的样本,一般经验认为如何估计因子的数目为N,则需要有5N到10N的样本数目。PCA/EFA 分析流程:(1)数据预处理;PCA和EFA...

efa和cfa分别是检验什么效度
答:EFA是探索性因子分析的英文缩写,CFA是验证性因子分析的英文缩写,此二者都用于检验结构效度,如果对因子结构有事先的假设和理论基础,通常采用CFA;如果没有事先的假设,纯粹依据数据来分析结果,则采用EFA。大部分情况下,为了更好地分析结构效度,研究者会随机选取一半数据做EFA,另一半做CFA ...