Wenqi Sun
by Wenqi Sun
~1 min read

Categories

Tags

一、线性回归基础

  1. 模型介绍与求解

    • 线性回归模型可写为,其中为待求系数,

    • 假定训练数据集,则有,其中相互独立并且

    • 可以使用最小二乘法求解,即,求导可得,即的估计值

  2. 回归系数的统计解释

    • 的估计值,其中为预测值,为留数(即residual),并且

    • 的协方差矩阵,协方差矩阵的估计值

    • 对一个新数据,有预测值的估计值,预测值的置信水平为的置信区间为,其中

    • 单个系数的假设检验,检验统计量在假设下满足分布,其中表示的第个对角元素。若,则在显著性水平为时拒绝原假设

    • 多个系数的假设检验(Generalized F-test)

      不失一般性,令

      定义以及。记为使用简化后的模型()计算出的RSS,为使用原始模型计算出的RSS,则检验统计量在假设下满足分布,若,则在显著性水平为时拒绝原假设

二、线性回归的模型诊断

  1. Influential Points

    • Outlier

      Outliers are unusual observations with respect to the values of the response variable.

      记留数,则,其中。因此, ,其中是矩阵的第个对角元素

      可通过留数判断是否为异常值:

    • Leverage

      Leverage is a measure of influence of an observation solely in terms of its explanatory variables.

      个点的Leverage为[注:]

      经验公式:High Leverage if

    • Cook Distance

      ,其中为去掉第个点进行回归后得到的预测值

      经验公式:High Influential Point if Cook Distance

  2. Heteroscedasticity

    • Breusch-Pagan Test

      假设检验 vs

      使用做回归,则在假设下有

    • White Test

      假设检验 vs

      使用做回归,则在假设下有

    • 对y进行变换有时可以缓解Heteroscedasticity,例如

  3. Collinearity

    • ,其中表示特征对其余特征进行回归后得到的

    • 经验公式:High Collinearity if

三、线性回归的特征选择

  1. LASSO

    求解LASSO前需将特征进行标准化(Standardization)处理

  2. K-fold Cross Validation

    时称为LOOCV,线性回归的LOOCV可以通过公式表示,即

  3. Model Summary Statistics

    • Adjusted R2

      (注:模型使用了个特征,即需求解个参数,

    • Mallow Cp Statistic

      ,其中表示使用个特征(即需求解个参数)进行回归得到的RSS,表示使用所有特征进行回归得到的

    • AIC and BIC

  4. Automatic Variable Selection

    定义,具体说明参见“回归系数的统计解释”这一部分

    • Forward Selection
      • 从常数开始每步在前一步的基础上加入一个特征,可从几个方面决定该特征的选取,例如最大,或者加入该特征后RSS最小(即最大)
      • 最终从模型(下标表示使用的特征数量)中选择最优模型,选择可以通过交叉检验(Cross Validation)进行,也可以使用模型统计量(例如)进行选择
    • Backward Selection
      • 从所有特征开始每步在前一步的基础上删除一个特征,可从几个方面决定该特征的选取,例如最小,或者删除该特征后RSS最小(即最大)
      • 最终从模型中选择最优模型
    • Stepwise Selection
      • 从常数开始每步在前一步的基础上加入一个特征,同其它未加入的特征相比,该特征满足在加入模型后得到的最大,并且可以通过的显著性检验,具体说明参见“回归系数的统计解释”这一部分
      • 加入新特征后在新模型中查看是否有之前加入的特征不能通过显著性检验,如果有就从模型中删除这些特征
      • 重复上述两个步骤直到不能再添加或删除任一特征为止,将每步所得到的模型进行比较,从中选择最优模型

四、广义线性模型GLM

线性指数族(LED)的分布形式为,其中

GLM:y的分布属于LED并且有链接函数(通常取)。容易看出线性回归也是GLM的一种,y满足正态分布属于LED,并且

系数的求解使用最大似然估计(MLE),取,则Log Likelihood ,求解方程(注:

模型拟合度:

  • Global Measure
    • Deviance

      Saturated Model:将改写成关于的表达形式,

    • Pseudo-R2

      IID Model:将改写成关于的表达形式,

  • Local Measure
    • Pearson Residual
    • Deviance Residual (容易看出
  • Variable Selection Measure
    • ,其中为参数个数,为Log Likelihood,为训练样本个数

系数的假设检验(Likelihood Ratio Test):

  • 不失一般性,令H0 vs H1:No constraints on

    表示在假设H0下的Log Likelihood,在假设H0下满足自由度为分布(容易看出),因此若,则在显著性水平为时拒绝原假设H0

    若H0,则

下面介绍两个比较常用的GLM:

  1. Logistic Regression
    • Bernoulli分布(其中),容易得出
    • ,则的最大似然估计值满足
    • Deviance
    • 因为是最大似然估计值,所以,其中为Fisher信息矩阵
    • 且为nominal类型,则可令并且,容易看出
    • 且为ordinal类型,则可令,容易看出 。还可以使用一个简化的模型求解,记,其中无关,即
  2. Poisson Regression
    • Poisson分布,容易得出
    • ,则的最大似然估计值满足,此外Fisher信息矩阵
    • Goodness Of Fit Statistics
      • Likelihood Ratio Test:Deviance
      • Pearson Test:
      • 上述两个检验在样本数趋于无穷大时是等价的