多元线性回归

魔法师LQ

回顾

一元线性回归

多元线性回归

多元线性回归的假设

n>p, 样本个数要大于自变量的个数

多元线性回归参数的最小二乘估计

分情况讨论:

  • x逆矩阵是否存在:直接带入$\hat\beta=(X^TX)^{-1}X^Ty$,$\hat y=X(X^TX)X^Ty;\hat y=Hy$,H矩阵具有等幂性。

  • 逆矩阵不存在:偏最小二乘估计

  • 奇异矩阵

$\beta$服从正态分布

标准化偏回归系数

不能直接由偏回归系数大小对于因变量线性影响的大小,需要计算标准化偏回归系数,即标准化偏回归系数。

推导过程

在解释的时候还是保留非标准化的的回归系数

假设检验

多元回归模型的检验

  • t检验
  • F检验,p值
  • 矛盾,整体通过,单个不通过

多重共线性

自变量之间存在多重共线性

  • 产生原因
  • 问题:
    • 参数估计不稳定
    • 回归结果不稳定
  • 识别:
    • 计算各对自变量之间的相关系数
    • 特征值判别

多重共线现象

相关性的假设检验

  1. 特征根分析
  2. 条件数condition index
消除
  1. 变量筛选
  2. 增大样本容量
  3. 回归系数的有偏估计:岭回归,主成分分析,偏最小二乘

虽然均值不是无偏的,但是方差比较小,分布比较集中,则可能比无偏估计效果更好

变量选择逐步回归

选择方法

全局择优法

  • 在残差平方和RSS上添加惩罚项
  • $C_p$准则
  • AIC准则&BIC准则:评判指标,取值越小越好

缺点

  • 组合爆炸

逐步回归

向前引入,向后剔除,逐步回归法

引入和剔除都是单向的。比较早剔除的变量在之后加入可能更好。

逐步回归,搜索空间加大。

岭回归

接近奇异,加入K指,使得接近奇异的程度减小。K=0时候,就是最小二乘法。

通过分析岭迹曲线选择K值。

性质

  1. 性质1:有偏估计

岭迹分析

用来解释自变量间的相关关系。

参数k的选择

方差扩大因子

残差平方和来确定k

k值得选择有一些人为的因素在其中。

其他

如何在R中出图的时候单独弹窗

windows();plot(…)

https://stackoverflow.com/questions/46534643/make-r-studio-plots-only-show-up-in-new-window?rq=1