在多变量分析中,主成分分析(PCA)是一个强大的工具,尤其针对多元线性问题。由Karl Pearson在1901年提出的PCA,旨在通过线性变换,将多个变量转化为少数几个综合指标,简化复杂问题,让分析更加直观易懂。
PCA的核心是通过正交变换,将相关性强的原始变量转化为一组不相关的主成分。这个过程在代数上表现为将协方差矩阵转化为对角矩阵,几何上则表现为转换坐标系,选择样本散布方向的正交向量。主成分的数目选择有多种依据,如累积方差贡献率(一般要求达到80%以上)、特征值(大于1的为主成分)和碎石图的拐点。方差贡献率和特征值分别衡量主成分解释原始变量信息的能力和影响力。
进行PCA之前,需进行相关性检验,如Bartlett球形检验和KMO取样适合度检验,确保原始变量间存在相关性且数据适合进行降维。Bartlett检验通过比较相关系数矩阵的特征来判断,KMO则评估变量间相关性和偏相关性的平衡。
在实际应用中,如双十一购物满意度调查,通过PCA可以提取出关键综合指标,简化问题。首先,选择相关变量,然后设置统计量、抽取主成分、旋转方式等参数。分析结果会显示KMO和Bartlett检验的结论,以及主成分的方差贡献率、特征值和因子载荷矩阵,帮助理解各变量在主成分中的重要性。最后,通过碎石图确定关键主成分,简化了数据表示和解读。