乌锡康教授授权资料专集 《污水处理技术答疑300问》 2008环评工程师考试真题zhouming的个人空间 环评工具箱(五周年庆版)
考试用书8折货到付款环境技术网_环保书店 环评工程师招聘求职环保工程师招聘求职 新手快速入门| 申请版主
QQ交流群管理制度|QQ交流群 新1000份环评报告免费下 求职&招聘用信息宣传推广获金钱|积分充值有机化合物环境数据简表
发新话题
打印

[校园科研] 化工常用的多元数据处理方法

本主题由 james 于 2008-2-20 20:48 分类

化工常用的多元数据处理方法

(1)主成分分析

主成分分析(Principal Component Analysis,PCA)是一种把原来多个指标转化为为数
不多的若干个线性无关的综合指标的统计方法。对于总体是 维的随机向量 由于其 个变
量之间存在的相关性,它们的变差能够由 个 "综合指标"或称"主成分"来概括表达,而
这 个主成分是原来 个变量特定的线性组合方式,可以通过特征值方法求得。然后在有
用信息丢失最少的原则下,保留特征值大的那部分主成分变量,舍弃那些仅含少量信息
的主成分变量,从而用数量较少的新的综合变量代替数量较多的原始多维变量,实现高
维数据集合的降维。
主成分分析的计算步骤:
(1) 根据样本数据矩阵 ,计算样本的协方差矩阵
(2) 求样本协方差矩阵的特征值 ,并按从小到大的次序进行排列,使:
(3) 求对应与 的单位特征向量
(4) 计算主成分向量
(5) 选取合适的主成分数 ,通常选取 ,使累计方差贡献率(The Sum of the Varia
nce Contribution Ratio, SVCR)达到大于90%以上。SVRC表达了 个主成分提取了 的信
息的多少
(6) 计算 个样本在 个主成分空间中的坐标,从而完成了对原始样本数据从 高维向低
维向模式 的转换,同时,原始变量从高 维空间经组合投影到了低 维空间上。
(7) 建立因变量 和 的回归方程

Hope This Helps                         Email:samepain@126.com

有污水的地方就有人烟。

TOP

2)偏最小二乘回归

主成分回归的主成分是单纯从原有变量的样本数据X中提取的,并未考虑与因变量y的关
系。被保留的主成分,就累计方差而言,确实反映了原自变量所包含的绝大部分。但是
,从与因变量的相关关系来看,这些主成分并不一定包含足够多的信息。因此当需要讨
论自变量与因变量的内在联系,也就是研究输入-输出之间的模型关系时,采用这种方法
就有其局限性。
而偏最小二乘回归分析(Partial Least Square, PLS)在提取特征的同时就把自
变量
和因变量的相关关系结合进去,即保留了较多的方差,又消去了原有变量的复共线性,
从而使建立的回归模型充分地反映出自变量与因变量之间的对应关系。
在PLS中,回归系数被限制在由矩阵 的列向量定义的 的 维子空间上。因此有:

如果所有的方向都被采纳,则PLS回归与多元线性回归完全相同。然而,当输入数据不能
张成整个输入空间时,只有与独立特征数目一样多的方向才能被采用,这时,将提供最
好的回归结果。
PLS通常采用NIPALS 算法,它在分解自变量数据矩阵 的同时,也分解因变量数据矩
阵 ,并使 中提取的成分与 的成分间的相关性尽可能大。这时,从 中提取的成分称为
PLS成分。

Hope This Helps                         Email:samepain@126.com

有污水的地方就有人烟。

TOP

发新话题