2)偏最小二乘回归
主成分回归的主成分是单纯从原有变量的样本数据X中提取的,并未考虑与因变量y的关
系。被保留的主成分,就累计方差而言,确实反映了原自变量所包含的绝大部分。但是
,从与因变量的相关关系来看,这些主成分并不一定包含足够多的信息。因此当需要讨
论自变量与因变量的内在联系,也就是研究输入-输出之间的模型关系时,采用这种方法
就有其局限性。
而偏最小二乘回归分析(Partial Least Square, PLS)在提取特征的同时就把自
变量
和因变量的相关关系结合进去,即保留了较多的方差,又消去了原有变量的复共线性,
从而使建立的回归模型充分地反映出自变量与因变量之间的对应关系。
在PLS中,回归系数被限制在由矩阵 的列向量定义的 的 维子空间上。因此有:
如果所有的方向都被采纳,则PLS回归与多元线性回归完全相同。然而,当输入数据不能
张成整个输入空间时,只有与独立特征数目一样多的方向才能被采用,这时,将提供最
好的回归结果。
PLS通常采用NIPALS 算法,它在分解自变量数据矩阵 的同时,也分解因变量数据矩
阵 ,并使 中提取的成分与 的成分间的相关性尽可能大。这时,从 中提取的成分称为
PLS成分。