正定矩阵因子分解法(PMF) PMF常规项来源解析

作者&投稿:景蓝 (若有异议请与网页底部的电邮联系)

3.2.4.1 方法建立

就全国范围而言,我国地下水质量总体较好,根据国家《地下水质量标准》(GB/T 14848—93),我国63%的地区地下水可直接饮用,17%经适当处理后可供饮用,12%不宜饮用,剩余8%为天然的咸水和盐水,由此可见,不宜饮用的地下水和天然咸水、盐水占到了20%,对于这些地下水型水源地饮用水指标并不一定受到污染而存在超标现象,其水质可能受到地下水形成演化影响更为明显,因此,考虑选择反映地下水形成、演化的地下水水化学类型常规指标,进行影响因素解析。地下水水质指标在取样与分析过程中,由于取样和样品处理、试剂和水纯度、仪器量度和仪器洁净、采用的分析方法、测定过程以及数据处理等过程均会产生测量误差(系统误差,随机误差,过失误差)。从取样到分析结果计算误差都绝对存在,虽然在各个过程中进行质量控制,但无法完全消除不确定性的影响,为确保分析结果的可靠性,采用PMF法对地下水水质指标考虑一定的不确定性误差,使分析数据能够准确地反映实际情况。

PMF(Positive Matrix Factorization)与主成分分析(PCA)、因子分析(FA)都是利用矩阵分解来解决实际问题的分析方法,在这些方法中,原始的大矩阵被近似分解为低秩的V=WH形式。但PMF与PCA和FA不同,PCA、FA方法中因子W和H中的元素可为正或负,即使输入的初始矩阵元素全是正的,传统的秩削减算法也不能保证原始数据的非负性。在数学上,从计算的观点看,分解结果中存在负值是正确的,但负值元素在实际问题中往往是没有意义的。PMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法,在求解过程中对因子载荷和因子得分均做非负约束,避免矩阵分解的结果中出现负值,使得因子载荷和因子得分具有可解释性和明确的物理意义。PMF使用最小二乘方法进行迭代运算,能够同时确定污染源谱和贡献,不需要转换就可以直接与原始数据矩阵作比较,分解矩阵中元素非负,使得分析的结果明确而易于解释,可以利用不确定性对数据质量进行优化,是美国国家环保局(EPA)推荐的源解析工具。

3.2.4.2 技术原理

PMF:模型是一种基于因子分析的方法,具有不需要测量源指纹谱、分解矩阵中元素非负、可以利用数据标准偏差来进行优化等优点。目前PMF模型此方法成功用于大气气溶胶、土壤和沉积物中持久性有毒物质的源解析,已有成熟的应用模型 PMF1.1,PMF2.0,PMF3.0等。PMF模型基本方程为:

Xnm=GnpFpm+E (3.7)

式中:n——取样点数;

m——各取样点测试的成分数量;

p——污染源个数;

Xnm——取样点各成分含量;

Gnp——主要源的贡献率;

Fpm——源指纹图谱。

基本计算过程如下:

1)样品数据无量纲化,无量纲化后的样品数据矩阵用D表示。

2)协方差矩阵求解,为计算特征值和特征向量,可先求得样品数据的协方差矩阵,用D′为D的转置,算法为:

Z=DD′ (3.8)

3)特征值及特征向量求解,用雅各布方法可求得协方差矩阵Z的特征值矩阵E和特征向量矩阵Q,Q′表示Q的转置。这时,协方差矩阵可表示为:

Z=QEQ′ (3.9)

4)主要污染源数求解,为使高维变量空间降维后能尽可能保留原来指标信息,利用累计方差贡献率提取显著性因子,判断条件为:

地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例

式中:n——显著性因子个数;

m——污染物个数;

λ——特征值。

5)因子载荷矩阵求解,提取显著性因子后,利用求解得到的特征值矩阵E和特征向量矩阵Q进一步求得因子载荷矩阵S和因子得分矩阵C,这时,因子载荷矩阵可表示为:

S=QE1/2 (3.11)

因子得分矩阵可表示为:

C=(S′S)-1S′D (3.12)

6)非负约束旋转,由步骤5求得的因子载荷矩阵S和因子得分矩阵C分别对应主要污染源指纹图谱和主要污染源贡献,为解决其值可能为负的现象,需要做非负约束的旋转。

7)首先利用转换矩阵T1对步骤5求得的因子载荷矩阵S和因子得分矩阵C按下式进行旋转:

地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例

C1=T1C (3.14)

式中:S1——旋转后的因子载荷矩阵;

C1——旋转后的因子得分矩阵;

T1——转换矩阵,且T1=(CC′)(CC′)-1(其中:C为把C中的负值替换为零后的因子得分矩阵)。

8)利用步骤7中旋转得到的因子载荷矩阵S1构建转换矩阵T2对步骤5中旋转得到的因子载荷矩阵S1和因子得分矩阵C1继续旋转:

S2=S1T2 (3.15)

地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例

式中:S2——二次旋转后的因子载荷矩阵;

C2——二次旋转后的因子得分矩阵;

T2——二次转换矩阵,且T2=(S′1+S1-1(S′1+

)(其中:

为S1中的负值换为零后的因子载荷矩阵)。

9):重复步骤7、8,直到因子载荷中负值的平方和小于某一设定的误差精度e而终止,最终得到符合要求的因子载荷矩阵S,即主要污染源指纹图谱。

3.2.4.3 方法流程

针对受体采样数据直接进行矩阵分解,得到各污染源组分及其贡献率的统计方法(图3.5)。

图3.5 方法流程图

(1)缺失值处理

正定矩阵因子分析是基于多元统计的分析方法,对数据有效性具有一定的要求,因此在进行分析之前首先对数据进行预处理。根据已有数据的特征结合实际情况主要有以下5种处理方法。

1)采样数据量充足的情况下直接丢弃含缺失数据的记录。

2)存在部分缺失值情况下用全局变量或属性的平均值来代替所有缺失数据。把全局变量或是平均值看作属性的一个新值。

3)先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。

4)采用预测模型来预测每一个缺失数据。用已有数据作为训练样本来建立预测模型,如神经网络模型预测缺失数据。该方法最大限度地利用已知的相关数据,是比较流行的缺失数据处理技术。

5)对低于数据检测限的数据可用数据检测限值或1/2检测限以及更小比例检测限值代替。

(2)不确定性处理

计算数据不确定性。

地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例

式中:s——误差百分数;

c——指标浓度值;

l——因子数据检出限。

(3)数据合理性分析

本研究所用数据在放入模型前以信噪比S/N(Signal to Noise)作为标准进行筛选,信噪比S/N为:

地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例

式中:xij——第i采样点第j个样品的浓度;

sij——第i采样点第j个样品的标准偏差。

信噪比小,说明样品的噪声大,信噪比越大则表示样品检出的可能性越大,越适合模型。

(4)数据输入及因子分析

与其他因子分析方法一样,PMF不能直接确定因子数目。确定因子数目的一般方法是尝试多次运行软件,根据分析结果和误差,Q值以及改变因子数目时Q值的相对变化等来确定合理的因子数目。

3.2.4.4 适用范围

PMF对污染源和贡献施加了非负限制,并考虑了原始数据的不确定性,对数据偏差进行了校正,使结果更具有科学的解释。PMF使用最小二乘方法,得到的污染源不需要转换就可以直接与原始数据矩阵作比较,PMF方法能够同时确定污染源和贡献,而不需要事先知道源成分谱。适用于水文地质条件简单,观测数据量较大,污染源和污染种类相对较少的地区,运用简便,可应用分析软件进行计算。

3.2.4.5 NMF 源解析

NMF在实现上较PMF算法简单易行,非负矩阵分解根据目的的不同大致可以分为两种:一是在保证数据某些性质的基础上,将高维空间的样本点映射到某个低维空间上,除去一些不重要的细节,获得原数据的本质信息;二是在从复杂混乱的系统中得到混合前的独立信息的种类和强度。因此,基于非负矩阵分解过程应用领域的不同,分解过程所受的约束和需要保留的性质都不相同。本书尝试性地将NMF算法应用于水质影响因素的分离计算中(表3.2)。

表3.2 RMF矩阵分解权值表

依照非负矩阵分解理论的数学模型,寻找到一个分解过程V≈WH,使WH和V无限逼近,即尽可能缩小二者的误差。在确保逼近的效果,定义一个相应的衡量标准,这个衡量标准就叫作目标函数。目标函数一般采用欧氏距离和散度偏差来表示。在迭代过程中,采用不同的方法对矩阵W和H进行初始化,得到的结果也会不同,算法的性能主要取决于如何对矩阵W和H进行初始化。传统的非负矩阵算法在对矩阵W和H赋初值时采用随机方法,这样做虽然简单并且容易实现,但实验的可重复性以及算法的收敛速度是无法用随机初始化的方法来控制的,所以这种方法并不理想。许多学者提出改进W和H的初始化方法,并发展出专用性比较强的形式众多的矩阵分解算法,主要有以下几种:局部非负矩阵分解(Local Non-negative Matrix Factorization,LNMF)、加权非负矩阵分解(Weighted Non-negative Matrix Factorization,WNMF)、Fisher非负矩阵分解(Fisher Non-negative Matrix Factorization,FNMF)、稀疏非负矩阵分解(Sparse Non-negative Matrix Factorization,SNMF)、受限非负矩阵分解(Constrained Non-negative Matrix Factorization,CNMF)、非平滑非负矩阵分解(Non-smooth Non-negative Matrix Factorization,NSNMF)、稀疏受限非负矩阵分解(Nonnegative Matrix Factorization with Sparseness Constraints,NMF-SC)等理论方法,这些方法针对某一具体应用领域对NMF算法进行了改进。

本书尝试应用MATLAB工具箱中NNMF程序与改进的稀疏非负矩阵分解(SNMF)对研究区11项指标(同PMF数据)进行分解,得到各元素在综合成分中的得分H,初始W0,H0采用随机法取初值。r为分解的基向量个数,合适的r取值主要根据试算法确定,改变r值观察误差值变化情况,本书利用SMNF算法计算时,r分别取2,3,4,采用均方误差对迭代结果效果进行评价,结果显示当r取2,4时误差值为0.034,取3时误差值为0.016,因此r=3是较合理的基向量个数。采用NNMF算法进行计算时,利用MATLAB工具箱提供的两种计算法分别进行计算,乘性法则(Multiplicative Update Algorithm)计算结果误差项比最小二乘法(Alternating Least-squares Algorithm)计算误差值小且稳定,但总体NNMF计算误差较大,改变初始W0,H0取值和增加迭代次数误差均未明显减小,调整r取值,随着r值的增大误差逐渐减小。

对比SNMF和NNMF算法所得权值结果,两种方法所得权值趋势一致,但得分值有所不同,由于SNMF算法对矩阵进行了稀疏性约束,计算结果中较小的权值更趋近于0,两次结果中在三个基向量上总体权值较大的元素项为T-Hard、

、Mg2+、Ca2+

,从盲源分离的角度来看该几种元素对地下水具有较大的影响,但从地下水水质影响因素来看,该方法对数据的分析偏重于突出局部数据的特征,在各因素相关性较大但含量不高的情况下,容易忽略了关键的影响因素。从权值得分来看,SNMF法解析的第一个基向量上的元素包括EC、T-Hard、NH4—N、

、TDS;第二基向量主要有Na+、Mg2+、Cl-;第三个基向量

、Ca2+,从结果可以看出该方法进行矩阵分解并未得到可合理解释的源项结果,方法有待进一步研究及验证。



pmf 正定矩阵因子分解法怎么做 小木虫~

设m是n阶实系数对称矩阵, 如果对任何非零向量
x=(x_1,...x_n) 都有 xmx^t>0,就称m正定。
正定矩阵在相似变换下可化为标准型, 即单位矩阵

3.5.4.1 指标选取及数据预处理
选取反映地下水水化学类型的11项指标(Cl-、 、 、 、Mg2+、Ca2+、Na+、EC、TDS、T-Hard、NH4—N)进行因子分析(表3.11)。为提高数据集质量,首先对数据缺失值进行处理,采用均值插补法作为组内缺失值的替补值,检测限代替未检出项;多元统计法是基于数据正态或近似正态分布条件下的分析方法,因此采用适用于小样本正态性检验的Shapiro-Wilk法对数据进行分析,分析结果显示大多数指标符合正态性分布,非正态分布数据采用Box-Cox变换转换为正态性数据进行分析,表为所选指标标准化后数据相关性。

表3.11 水化学成分间相关系数表

3.5.4.2 正定矩阵因子分解解析常规项来源
正定矩阵因子分析(PMF)是一种新的因子分析方法,是受体模型的一种,和因子分析、主成分分析过程一致,不同的是PMF法对因子得分进行了非负、非正交限制,保证了每个因子都具有其实际意义,同时考虑了数据由于采样测试方法等原因造成的不确定性。该方法的基本原理为X=GF+E,其中X为n×m的浓度矩阵,m表示变量的数量,n表示样品数;G是一个n×p的源贡献矩阵,p即是主要污染源的数目;F是p×m源廓线矩阵;E为残差矩阵。源廓线体现不同化学成分在各因子中的重要性。正定矩阵因子分解允许同时计算源廓线和源贡献,而不需要事先知道各排放源的源成分谱信息。正定矩阵因子分析对各因子施加非负限制,从而使得G和F矩阵中所有项为非负值。
PMF法将取样数据进行正定矩阵因子分解,选取指标为Cl-、 、
Mg2+、 、Ca2+、电导率、TDS、总硬度、Na+、 、 ,预处理对缺失数据采用均值代替,考虑浓度值15%的数据误差,s为误差百分数;c为指标浓度值;l为因子数据检出限。计算数据不确定性U= 。
本书所用数据在放入模型前以信噪比S/N(Signal to Noise)作为标准进行筛选,信噪比公式为:

地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例

式中:xij——表示第i采样点第j个样品的浓度,sij——表示第i采样点第j个样品的标准偏差;信噪比小,说明样品的噪声大,信噪比越大则表示样品检出的可能性越大,越适合模型。
根据PMF运行结果显示如下(表3.12):用PMF法将数据分析结果归为3个因子,计算结果残差值均在-3.0~3.0之间,可作为迭代收敛与否的参考。图3.20、图3.21、图3.22为因子1上各离子的分布情况,从图中可以看出因子1上氨氮贡献率最大,将该因子归结为污染因子;因子2上各指标分布情况,其中 、Mg2+、Ca2+、Cl-、 相对百分比较高;因子3以电导率、TDS、总硬度、Na+、 为主。不同因子各离子贡献率见表:

表3.12 各离子百分比贡献率


图3.20 各离子在因子1上的浓度及载荷值


图3.21 各离子在因子2上的浓度及载荷值


图3.22 各离子在因子3上的浓度及载荷值

因子F1以氨氮为主, —N是三氮转化过程中的还原态物质,进入土中的 —N在氧化环境中,首先被大量地吸附于土壤,然后在适宜的温度、土壤pH及含水量、包气带岩性的影响下经硝化作用而转化为 ,并进入地下水,能进入地下水的 —N, —N是较少的。当污染物排放强度过大,超过了包气带的自净能力,或者是污水直接进入含水层中时,地下水中以 —N污染为特征,因此,F1反映地下水受到工业或农业污染。
主因子F2中以Cl-、 、Mg2+、 、Ca2+为主,研究区地处银川冲洪积平原南部青铜峡黄河冲积扇粗粒相单一潜水含水层,岩性以细砂,粉砂,卵砾石为主,含水层具有颗粒松散、粒度粗、径流条件好的特征,地下水沿天然坡降向下游径流,由于径流条件好,交替作用强烈,溶滤作用使地下水中阳离子以难溶的Mg2+、Ca2+为主,Cl-、 在区域内广泛分布。
因子F3以电导率、TDS、总硬度、Na+、 为主,由于此处地下水水位埋藏较浅,又属中温干旱带,少雨、蒸发量大,潜水大量以蒸发的形式排泄,随着水分的蒸发,地下水溶液浓缩,矿化度不断增高,溶解性较好的Na+占据统治地位,研究区地下水丰水季节水位埋深为0.87~5.73m,枯水季节埋深1.95~7.52m,地下水潜水受蒸发浓缩作用影响,矿化度为0.5~1.0mg/L时,土壤多呈轻、中度盐渍化,苏打含量增加。
综上所述,根据以上基于多元统计分析的方法进行水质指标及因子的分类,分别受溶滤作用、蒸发浓缩作用以及人为活动影响。
3.5.4.3 利用多元统计法验证
利用因子分析法对PMF法选取的11项指标(Cl-、 、 、 、Mg2+、Ca2+、Na+、EC、TDS、T-Hard、NH4—N)进行分析。数据预处理和成分相关性同PMF法。对数据进行KMO(Kaiser—Meyer—Olkin)检验和Bartlett 球形检验(Bartlett Test of Sphericity),KMO检验值为0.64,Bartlett球形检验在显著性水平为0情况下取值428.43,表明数据具有一定的相关性,适合进行因子分析。因子载荷矩阵估计方法主要有主成分法、主轴因子分析和极大似然法等,本书采用主成分法提取特征值大于1的因子共3个,累计方差贡献率为84.01%,表明三因子集中反映了影响水质总因素的84.01%的信息量,因子载荷矩阵见表3.13。为使各公共因子的典型代表变量更加突出,便于解释其实际意义,将因子荷载矩阵进行旋转,旋转后各主因子载荷向1或0两极化转换,旋转因子载荷矩阵见表3.13。

表3.13 因子载荷矩阵表


表3.14 旋转因子载荷矩阵表

经分析提取主因子F1,以Cl-、 、Mg2+、 、Ca2+为主要代表变量;主因子F2,以EC、TDS、T-Hard、Na+、 为主,主因子F3,以NH4—N为主要载荷变量,因子分析法应用结果与PMF法应用结果相一致,说明PMF法解析结果合理,在主因子提取基础上通过多元线性回归计算各主因子贡献,其中F1综合主成分贡献率48.40%,F2为39.66%;F3综合主成分贡献率11.94%。对各因子得分进行插值研究各因子在空间分布变化。
图3.23反映了F1在各采样点得分插值情况,研究区根据因子得分主要分为两个分区,区内个别采样点得分相对较高或较低,整体趋势沿黄河向南干沟因子得分逐渐增大,说明该区东部地下水受溶滤作用影响更明显。结合该区流场及水化学类型分析,因子得分大于-0.2的区域界线基本与区域中部地下水流线重合,且地下水化学类型以HCO3-Ca·Mg型水为主,表明该因子判断符合该地区水文地质条件。
吴忠市全年引水灌溉期长达6个月,因此,上游引水渠汉渠、黄河边界以及南干沟入黄口地下水位均较高,受到蒸发浓缩作用也相对强烈,F2得分也相对较高(图3.24)。
分析图3.25可看出,因子得分高的区域与调查中企业分布以及污水排放区相对一致,将该因子定义为人类活动影响因子。
图3.26为各因子在采样点总体得分情况,对比F1与F2、F3得分较高区域,可以看出黄河沿岸蒸发浓缩作用相对较强,部分地区受人类活动影响NH4—N得分较高;南部汉渠以北,主要受溶滤作用及地下水蒸发浓缩共同影响,受到氨氮影响较小;南干沟及南干沟入黄口附近氨氮污染较明显,其他区域氨氮含量不高,因子得分多为负值;位于区域上游的采样点GW-12、水源地附近的WZ-8以及南干沟中游WZ-5三点反映溶滤作用及蒸发浓缩作用的F1、F2因子得分较高,单个点得分与周围采样点得分存在较大差异,在此初步判断为受其他因素影响导致水中离子含量存在较高背景值。

图3.23 F1在各采样点因子得分图


图3.24 F2在各采样点因子得分图


图3.25 F3在各采样点因子得分图


图3.26 F1、F2、F3对各采样点贡献率图

正定矩阵因子分解法(PMF)
答:PMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法,在求解过程中对因子载荷和因子得分均做非负约束,避免矩阵分解的结果中出现负值,使得因子载荷和因子得分具有可解释性和明确的物理意义。PMF使用最小二乘方法进行迭代运算,能够同时确定污染源谱和贡献,不需要转换就可以直接与原始数据矩阵作比较,分解矩阵中元素...

PMF常规项来源解析
答:正定矩阵因子分析对各因子施加非负限制,从而使得G和F矩阵中所有项为非负值。 PMF法将取样数据进行正定矩阵因子分解,选取指标为Cl-、 、 Mg2+、 、Ca2+、电导率、TDS、总硬度、Na+、 、 ,预处理对缺失数据采用均值代替,考虑浓度值15%的数据误差,s为误差百分数;c为指标浓度值;l为因子数据检出限。计算数据...

地下水污染源解析技术
答:正定矩阵分解法(Positive Matrix Factorization,PMF)、非负矩阵分解法(Non-negative Matrix Factorization,NMF)和非负约束因子分析(Factor Analysis with Non-negative Constraints,FA-NNC)是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法,三者在求解过程中对因子载荷和因子得分均做非负约束,使得因子载荷和因子得分...

矩阵的初等因子怎么求?
答:把矩阵的每个次数大于零的不变因子分解成互不相同的首项为1的一次因式方幂的乘积,所有这些一次因子方幂(相同的必须按出现的次数计算)称为矩阵的初等因子 。首先用初等变换化特征矩阵为对角形式,然后将主对角上的元素分解成互不相同的一次因式方幂的乘积,则所有这些一次因式的方幂(相同的按出现的次...

矩阵分解的一点总结
答:说起矩阵分解,我们第一个想起的就是SVD。 SVD分解的形式为3个矩阵相乘,左右两个矩阵分别表示用户/项目隐含因子矩阵,中间矩阵为奇异值矩阵并且是对角矩阵,每个元素满足非负性,并且逐渐减小。因此我们可以只需要前个K因子来表示它。 但SVD分解要求矩阵是稠密的,也就是说矩阵的所有位置不能有空白。有空白时我们的M是...

请问配电网可靠性分析的方法有哪些?
答:4. **优化简单表缩减算法求解因子分解编码实例**:在约束编程中,表约束的求解通常涉及到将表约束问题转化为更易于解决的因子分解形式。这种方法可以提高求解效率,尤其是在处理大规模问题时【4】。5. **三角分解法**:在数值计算中,三角分解法,特别是LU分解法,被广泛应用于简化大型矩阵的行列式计算...

矩阵分析 (三) 矩阵的标准形
答:  的矩阵称为 阶约当块,由若干个约当块构成的分块对角矩阵:  称为 约当标准形 。  下面我们介绍用 行列式因子 法确定约当标准形的方法:  设矩阵 的元素都是 的多项式,则 称为 矩阵,记作 ,特殊地, , 是 的特征矩阵...

07_推荐系统算法详解
答:现在,矩阵因子分解的问题已经转化成了一个标准的优化问题,需要求解P、Q,使目标损失函数取最小值。 最小化过程的求解,一般采用随机梯度下降算法或者交替最小二乘法来实现交替最小二乘法( Alternating Least Squares,ALS) ALS的思想是,由于两个矩阵P和Q都未知,且通过矩阵乘法耦合在一起,为了使它们解耦,可以先固定...

因子分析法的分析步骤
答:⑷计算因子变量得分。(ii)因子分析的计算过程:⑴将原始数据标准化,以消除变量间在数量级和量纲上的不同。⑵求标准化数据的相关矩阵;⑶求相关矩阵的特征值和特征向量;⑷计算方差贡献率与累积方差贡献率;⑸确定因子:设F1,F2,…, Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献...

项目管理,都有什么项目评估工具啊?项目管理框架(PMF)是什么
答:▋任务分解法[WBS]即Work Breakdown Structure,如何进行WBS分解:目标→任务→工作→活动 WBS分解的原则:将主体目标逐步细化分解,最底层的任务活动可直接分派到个人去完成;每个任务原则上要求分解到不能再细分为止。WBS分解的方法:至上而下与至下而上的充分沟通 一对一个别交流 小组讨论 WBS分解的标准...