线性回归

1、什么是线性回归?线性回归模型的基本原理和假设。

线性回归是一种广泛用于统计学和机器学习中的回归分析方法,用于建立自变量(特征)与因变量(目标)之间的线性关系模型。线性回归的基本原理是寻找一条直线(或者在多维情况下是一个超平面),以最佳地拟合训练数据,使得模型的预测与真实观测值之间的误差最小化。下面我们来详细解释线性回归的基本原理和假设。

简单线性回归模型:
$$
y = b_0 + b_1 \cdot x
$$

多元线性回归模型:
$$
y = b_0 + b_1 \cdot x_1 + b_2 \cdot x_2 + \ldots + b_p \cdot x_p
$$

其中:

  • $y$ 是因变量(需要预测的值)。
  • $x_1, x_2, \ldots, x_p$ 是自变量(特征),可以是一个或多个。
  • $b_0$ 是截距(模型在自变量都为0时的预测值)。
  • $b_1, b_2, \ldots, b_p$ 是回归系数,表示自变量对因变量的影响程度。

线性回归的目标是找到合适的回归系数 $b_0, b_1, \ldots, b_p$,以最小化模型的预测误差。通常采用最小二乘法来估计这些系数,即使得观测值与模型预测值之间的残差平方和最小。

线性回归模型的有效性基于以下一些关键假设:

  1. 线性关系假设:线性回归假设因变量和自变量之间存在线性关系。这意味着模型试图用一条直线(或超平面)来拟合数据,以描述自变量与因变量之间的关系。
  2. 独立性假设:线性回归假设每个观测值之间是相互独立的。这意味着一个观测值的误差不受其他观测值的影响。
  3. 常数方差假设:线性回归假设在自变量的每个取值点上,观测值的误差方差都是常数。这被称为同方差性或等方差性。
  4. 正态性假设:线性回归假设观测值的误差服从正态分布。这意味着在不同自变量取值点上的误差应该接近正态分布。

如果这些假设不满足,线性回归模型的结果可能不可靠。

一个简单示例,演示如何使用 Scikit-Learn 库进行简单线性回归:

import numpy as np
from sklearn.linear_model import LinearRegression

# 创建示例数据
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)  # 自变量
y = np.array([2, 4, 5, 4, 5])  # 因变量

# 创建线性回归模型
model = LinearRegression()

# 拟合模型
model.fit(X, y)

# 打印回归系数和截距
print("回归系数 (b1):", model.coef_)
print("截距 (b0):", model.intercept_)

# 预测新数据点
new_x = np.array([6]).reshape(-1, 1)
predicted_y = model.predict(new_x)
print("新数据点的预测值:", predicted_y)

这个示例中,我们使用Scikit-Learn的LinearRegression类来创建并训练一个线性回归模型,然后使用该模型进行预测。

2、如何用数学方式描述简单线性回归模型?说明模型中的自变量、因变量和参数。

简单线性回归模型是一种用于建立自变量和因变量之间线性关系的统计模型。以下是如何用数学方式描述简单线性回归模型的基本元素:

  1. 自变量(Independent Variable):在简单线性回归中,自变量通常表示为 $x$。它是一个特征或输入,是我们用来预测因变量的变量。自变量是独立于其他变量的,也就是我们不对其做任何改变,而是观察它的取值。
  2. 因变量(Dependent Variable):在简单线性回归中,因变量通常表示为 $y$。它是我们希望预测或解释的变量。因变量的取值依赖于自变量的取值,我们的目标是建立一个模型,通过自变量的取值来预测因变量的取值。
  3. 线性关系:简单线性回归模型假设自变量 $x$ 和因变量 $y$ 之间存在线性关系。这个线性关系可以用以下方程表示:
    $$
    y = \beta_0 + \beta_1 \cdot x
    $$
    其中,$y$ 是因变量,$x$ 是自变量,$\beta_0$ 是截距(模型在自变量为0时的预测值),$\beta_1$ 是斜率(自变量 $x$ 对因变量 $y$ 的影响程度)。这两个参数 $\beta_0$ 和 $\beta_1$ 是线性回归模型的参数,也称为回归系数或权重。
  4. 误差项(Error Term):线性回归模型还包括一个误差项,通常表示为 $\varepsilon$。误差项表示了模型无法完美拟合真实数据的部分,它包括了所有未被模型考虑的因素,如测量误差、未知变量等。因此,完整的模型方程可以写成:

$$
y = \beta_0 + \beta_1 \cdot x + \varepsilon
$$
我们的目标是通过最小化误差项来估计参数 $\beta_0$ 和 $\beta_1$,使得模型的预测值与真实观测值尽可能接近。

简单线性回归模型是一个描述自变量和因变量之间线性关系的数学模型,通过最小化误差项来估计模型的参数 $\beta_0$ 和 $\beta_1$,从而可以用自变量的取值来预测因变量的取值。

这是一种非常实用且务实的工具,用于理解和预测变量之间的关系,例如预测销售量与广告支出之间的关系或温度与冰淇淋销售量之间的关系等等。

3、什么是最小二乘法(OLS)?它在线性回归中的作用是什么?

最小二乘法(OLS,Ordinary Least Squares)是一种用于估计线性回归模型参数的常用统计方法。

主要作用是通过最小化观测值与模型预测值之间的残差平方和来确定最佳拟合线性回归模型的参数。

最小二乘法的原理

在线性回归中,我们假设自变量 $x$ 和因变量 $y$ 之间存在线性关系,可以用以下模型表示:

$$
y = \beta_0 + \beta_1 \cdot x + \varepsilon
$$

其中:

  • $y$ 是因变量(需要预测的值)。
  • $x$ 是自变量(特征)。
  • $\beta_0$ 是截距(模型在自变量为0时的预测值)。
  • $\beta_1$ 是斜率(自变量 $x$ 对因变量 $y$ 的影响程度)。
  • $\varepsilon$ 是误差项,表示模型无法完美拟合真实数据的部分。

最小二乘法的目标是找到最佳的 $\beta_0$ 和 $\beta_1$,使得观测值 $y_i$ 和对应的模型预测值 $\hat{y}_i$ 之间的残差(差值)的平方和最小化:

$$
\min_{\beta_0, \beta_1} \sum_{i=1}^{n} (y_i – \hat{y}_i)^2
$$

其中,$n$ 是样本数量,$\hat{y}_i$ 是根据模型预测的值。

最小二乘法的公式

最小二乘法可以通过以下公式来估计参数 $\beta_0$ 和 $\beta_1$:

$$
\beta_1 = \frac{\sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})}{\sum_{i=1}^{n} (x_i – \bar{x})^2}
$$

$$
\beta_0 = \bar{y} – \beta_1 \cdot \bar{x}
$$

其中,$\bar{x}$ 和 $\bar{y}$ 分别是自变量 $x$ 和因变量 $y$ 的均值。

最小二乘法的代码示例

下面是一个使用Python和Scikit-Learn库进行最小二乘法线性回归的示例:

import numpy as np
from sklearn.linear_model import LinearRegression

# 创建示例数据
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)  # 自变量
y = np.array([2, 4, 5, 4, 5])  # 因变量

# 创建线性回归模型
model = LinearRegression()

# 拟合模型
model.fit(X, y)

# 获取回归系数和截距
beta_1 = model.coef_[0]
beta_0 = model.intercept_

# 打印回归系数和截距
print("斜率 (beta_1):", beta_1)
print("截距 (beta_0):", beta_0)

代码中,使用Scikit-Learn的LinearRegression类来创建并拟合线性回归模型。

最小二乘法的原理被内部自动应用,从而估计出最佳的回归系数 $\beta_0$ 和 $\beta_1$。这些系数将用于构建最佳拟合线性模型,以最小化观测值和模型预测值之间的残差平方和。

4、线性回归模型中的残差是什么?为什么我们要将残差最小化?

在线性回归模型中,残差是指每个观测值的真实值与相应模型预测值之间的差异。残差通常用 $\varepsilon_i$ 表示,其中 $i$ 表示第 $i$ 个观测值。

残差可以通过以下公式计算:
$$
\varepsilon_i = y_i – \hat{y}_i
$$

其中:

  • $y_i$ 是第 $i$ 个观测值的真实值(因变量的实际值)。
  • $\hat{y}_i$ 是模型预测的值,即根据回归模型估计得出的值。

为什么我们要将残差最小化?

残差最小化是线性回归模型的核心原理之一,它的目标是找到最佳的模型参数(回归系数),以使观测值和模型预测值之间的差异尽可能小。

以下是一些关键原因,为什么我们要将残差最小化:

  1. 拟合数据:线性回归的主要目标是拟合数据,即找到一个线性模型,使其能够最好地描述自变量和因变量之间的关系。通过最小化残差,我们试图使每个观测值的预测值尽可能接近实际值。
  2. 度量模型拟合质量:残差是度量模型拟合质量的重要指标。较小的残差表示模型能够更好地解释和预测数据,而较大的残差意味着模型与数据之间存在差异,需要进一步改进。
  3. 最小二乘法:线性回归通常使用最小二乘法来估计回归系数。最小二乘法的目标是最小化残差平方和,即使得残差的平方和最小。这是一个数学上可解的优化问题,它能够找到使模型拟合数据最佳的参数。
  4. 可解释性:通过最小化残差,线性回归模型的参数(回归系数)具有直观的可解释性。斜率($\beta_1$)表示自变量对因变量的影响程度,截距($\beta_0$)表示在自变量为0时的预测值。

总之,通过最小化残差,线性回归模型旨在找到最佳的线性关系,以最好地描述自变量和因变量之间的关系,从而提供可解释性强且拟合数据的模型。最小化残差是实现这一目标的核心方法之一。

5、如何衡量线性回归模型的拟合优度?R平方和调整后的R平方的含义。

在线性回归中,我们使用不同的统计指标来衡量模型的拟合优度,其中最常用的指标之一是R平方。除了R平方,还有调整后的R平方,它对模型的拟合优度进行了一些修正,考虑了自变量的数量。

详细解释下这两个指标的含义:

  1. R平方(R-squared)

R平方是一个介于0和1之间的值,用来衡量线性回归模型对观测数据的拟合程度。它表示因变量(目标变量)的变异程度中有多少能够被自变量(特征)解释。R平方的计算公式如下:

$$
R^2 = 1 – \frac{\sum_{i=1}^{n} (y_i – \hat{y}i)^2}{\sum{i=1}^{n} (y_i – \bar{y})^2}
$$

其中:

  • $y_i$ 是第 $i$ 个观测值的真实值(因变量的实际值)。
  • $\hat{y}_i$ 是模型预测的值,即根据回归模型估计得出的值。
  • $\bar{y}$ 是因变量 $y$ 的均值。

R平方的取值范围为0到1,当R平方接近1时,表示模型能够很好地解释因变量的变异性,拟合优度较高。当R平方接近0时,表示模型对因变量的解释力较差,拟合优度较低。

  1. 调整后的R平方(Adjusted R-squared)

调整后的R平方是对R平方的一种修正,考虑了自变量的数量。它用于避免过度拟合问题,因为增加自变量可能会导致R平方增加,但也不一定意味着模型更好。

调整后的R平方的计算公式:
$$
\text{Adjusted } R^2 = 1 – \frac{(1 – R^2)(n – 1)}{n – p – 1}
$$

其中:

  • $R^2$ 是未经调整的R平方。
  • $n$ 是样本数量。
  • $p$ 是自变量的数量。

调整后的R平方通常小于未经调整的R平方,因为它考虑了自变量数量的惩罚。当模型中的自变量不增加解释力时,调整后的R平方值较低。

含义总结

  • **R平方 **表示模型对因变量变异性的解释程度,数值范围在0到1之间。较高的R平方表示较好的拟合优度,但高R平方并不一定代表模型的可靠性。
  • **调整后的R平方 **在线性回归中,调整后的$ R^2 $(Adjusted $ R^2 $)是一种改进的决定系数,它对模型中的自变量数量进行了调整,以提供一个更准确的模型拟合质量度量,特别是在比较包含不同数量自变量的模型时。这种调整帮助避免了原始$ R^2 $随自变量增加而人为增加的问题,从而提供了更公正的模型评估。

总而言之,R平方和调整后的R平方是用于评估线性回归模型拟合优度的重要指标,可以帮助我们了解模型对数据的解释力和可靠性。

6、在线性回归中,如果自变量之间存在多重共线性,会导致什么问题?如何检测和处理多重共线性?

在线性回归中,多重共线性(Multicollinearity)是指自变量之间存在高度相关性或线性依赖关系的情况。

多重共线性可能会导致以下问题:

  1. 不稳定的估计:多重共线性会导致回归系数估计变得不稳定。这意味着小的数据变动或微小的变量选择变化都可能导致回归系数的大幅度变化,使得参数估计不可靠。
  2. 难以解释效果:多重共线性使得很难分离各自自变量对因变量的独立效应,因为它们之间的效应不再明确。这会降低模型的解释能力。
  3. 统计检验不准确:多重共线性会导致回归模型的统计检验不准确,如t检验和F检验。这可能会导致错误的结论,例如错误地认为某些自变量对因变量没有显著影响。
  4. 过度拟合:多重共线性可以导致过度拟合,因为模型可能会在自变量之间寻找微小的变化,从而试图解释由于共线性引起的噪声。

为了检测和处理多重共线性,可以采取以下方法:

  1. 相关系数分析:通过计算自变量之间的相关系数矩阵,可以初步了解自变量之间是否存在高度相关性。相关系数接近于1表示高度相关。
  2. 方差膨胀因子(VIF):VIF用于衡量每个自变量与其他自变量的相关性程度。VIF越大,表示共线性越严重。通常,VIF大于10或更高的自变量可能需要考虑去除或合并。
  3. 主成分分析(PCA):PCA可以将相关的自变量合并成新的无关自变量,从而减少共线性的影响。但这会导致模型的解释变得更加复杂。
  4. 逐步回归:逐步回归方法允许逐渐添加或删除自变量,以找到最佳模型。在逐步回归中,会考虑每个自变量的贡献,从而减少共线性引起的问题。
  5. 合并自变量:如果多个自变量之间高度相关,可以考虑将它们合并成一个新的自变量或使用其平均值来代替。这样可以减少模型中的共线性。

处理多重共线性是线性回归建模中的一个重要挑战,因为它可以显著影响模型的可靠性和解释性。选择合适的方法来检测和处理多重共线性取决于数据和领域背景。

7、线性回归模型中的下溢和上溢现象分别指什么?如何解决这些问题?

在线性回归模型中,下溢和上溢是两种常见的数值问题,通常与数值计算的稳定性有关。下面我将解释它们的含义以及如何解决这些问题。

  1. 下溢(Underflow):
  • 下溢是指在计算中得到了一个非常接近零的数值,甚至小于计算机能够表示的最小浮点数的情况。
  • 在线性回归中,下溢通常发生在计算预测值与实际观测值之间的差异(误差)时,尤其是在数据特征之间存在较大差异或数值范围差异较大时。
  • 下溢可能导致模型无法收敛,因为参数更新的梯度变得非常小,难以继续优化模型。

解决下溢问题的方法:

  • 使用数值稳定的计算方法,如梯度裁剪(Gradient Clipping)或权重正则化。
  • 标准化输入特征,将它们缩放到相似的数值范围内,有助于减少下溢的发生。
  • 如果使用梯度下降等优化算法,可以尝试调整学习率,以确保梯度更新足够大,但不会导致上溢或下溢。
  1. 上溢(Overflow):
  • 上溢是指在计算中得到了一个非常大的数值,超出了计算机能够表示的最大浮点数的范围。
  • 在线性回归中,上溢通常发生在模型参数过大或数据特征之间的差异过大时,导致预测值迅速增加到超出计算机表示能力的范围。

解决上溢问题的方法:

  • 使用数值稳定的计算方法,如梯度裁剪或权重正则化,以防止模型参数变得过大。
  • 标准化输入特征,以确保它们之间的差异不会导致预测值过大。
  • 如果使用梯度下降等优化算法,可以尝试降低学习率,以减缓参数的更新速度,从而避免上溢。

总之,数值稳定性在线性回归模型中非常重要。标准化输入特征、使用合适的优化算法和调整学习率都可以帮助减少上溢和下溢问题的发生,从而更好地训练模型。

8、什么是岭回归(Ridge Regression)和Lasso回归(Lasso Regression)?它们与普通线性回归之间的区别。

8.1 岭回归

岭回归(Ridge Regression)是一种线性回归的正则化方法,用于处理多重共线性问题。它通过在目标函数中引入L2正则化项来限制模型的系数大小,以减小过拟合风险。

岭回归的公式:岭回归的目标是最小化以下目标函数

$$
\min_{\beta} \left\{ \sum_{i=1}^{n} (y_i – \hat{y}_i)^2 + \alpha \sum_{j=1}^{p} \beta_j^2 \right\}
$$

其中:

  • $n$ 是样本数量。
  • $p$ 是特征数量。
  • $y_i$ 是实际观测值。
  • $\hat{y}_i$ 是预测值。
  • $\beta_j$ 是回归系数。
  • $\alpha$ 是正则化参数,用于控制正则化的强度。较大的 $\alpha$ 值会导致系数趋向于零。

以下是一个使用Python和Scikit-Learn库进行岭回归的案例:

from sklearn.linear_model import Ridge
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 加载示例数据集
data = load_diabetes()
X = data.data
y = data.target

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并拟合岭回归模型
alpha = 1.0  # 正则化参数
ridge = Ridge(alpha=alpha)
ridge.fit(X_train, y_train)

# 预测
y_pred = ridge.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f"岭回归 MSE: {mse:.2f}")

上面代码中,首先加载了一个示例数据集(糖尿病数据集),然后将数据集拆分为训练集和测试集。

接下来,创建了一个岭回归模型,并通过拟合训练数据来估计模型的系数。

最后,我们使用测试集进行预测,并计算均方误差(MSE)来评估模型性能。

岭回归通过引入L2正则化项,有助于稳定估计,特别是在存在多重共线性的情况下。正则化参数 $\alpha$ 的选择很重要,可以通过交叉验证等方法来确定最佳的 $\alpha$ 值。

8.2 Lasso回归

Lasso回归(Least Absolute Shrinkage and Selection Operator Regression)是一种线性回归的正则化方法,用于处理多重共线性问题并进行特征选择。它通过在目标函数中引入L1正则化项来约束模型的系数,并促使一些系数变为零,从而实现自动特征选择。

Lasso回归公式:Lasso回归的目标是最小化以下目标函数:
$$
\min_{\beta} \left\{ \sum_{i=1}^{n} (y_i – \hat{y}_i)^2 + \alpha \sum_{j=1}^{p} |\beta_j| \right\}
$$
其中:

  • $n$ 是样本数量。
  • $p$ 是特征数量。
  • $y_i$ 是实际观测值。
  • $\hat{y}_i$ 是预测值。
  • $\beta_j$ 是回归系数。
  • $\alpha$ 是正则化参数,用于控制正则化的强度。较大的 $\alpha$ 值会导致更多的系数变为零。

以下是一个使用Python和Scikit-Learn库进行Lasso回归的示例:

from sklearn.linear_model import Lasso
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 加载示例数据集
data = load_diabetes()
X = data.data
y = data.target

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并拟合Lasso回归模型
alpha = 1.0  # 正则化参数
lasso = Lasso(alpha=alpha)
lasso.fit(X_train, y_train)

# 预测
y_pred = lasso.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f"Lasso回归 MSE: {mse:.2f}")

首先加载了一个示例数据集(糖尿病数据集),然后将数据集拆分为训练集和测试集。

然后,创建了 Lasso 回归模型,并通过拟合训练数据来估计模型的系数。

最后,我们使用测试集进行预测,并计算均方误差(MSE)来评估模型性能。

Lasso 回归通过引入L1正则化项,可以将一些系数缩减为零,从而实现特征选择。正则化参数 $\alpha$ 的选择很重要,可以通过交叉验证等方法来确定最佳的 $\alpha$ 值。

岭回归与Lasso回归与普通线性回归之间的区别

岭回归、Lasso回归 和 普通线性回归之间的主要区别在于它们在模型拟合过程中引入了不同类型的正则化以处理不同的问题。

  1. 正则化类型
  • 普通线性回归没有正则化项,其目标是最小化残差平方和,不对回归系数进行任何约束。
  • 岭回归引入了 L2 正则化项,其目标是最小化残差平方和与回归系数的平方和之和,以限制回归系数的大小。
  • Lasso回归引入了 L1 正则化项,其目标是最小化残差平方和与回归系数的绝对值之和,以促使一些回归系数变为零,实现特征选择。
  1. 系数的性质
  • 普通线性回归的系数可以是任意实数,没有限制。
  • 岭回归的系数趋向于缩小但不会变为零,因此不会进行特征选择。
  • Lasso回归的系数可以变为零,从而实现了自动特征选择,使模型更稀疏。
  1. 解决的问题
  • 普通线性回归通常用于建模和预测,但在存在多重共线性时容易过拟合。
  • 岭回归主要用于解决多重共线性问题,可以稳定估计,但不进行特征选择。
  • Lasso 回归用于解决多重共线性问题,并且可以进行特征选择,有助于提取最重要的特征。
  1. 正则化参数
  • 在岭回归和Lasso回归中,正则化参数(α)用于控制正则化的强度。较大的α值会导致更强的正则化,推动回归系数向零缩小。
  • 普通线性回归没有正则化参数。
  1. 特征选择
  • 普通线性回归不进行特征选择,使用所有特征。
  • 岭回归倾向于减小回归系数但不会消除它们,不进行特征选择。
  • Lasso 回归可以将某些系数压缩为零,实现特征选择,使模型更稀疏。

选择哪种回归方法取决于问题的性质和对特征选择的需求。如果你需要稳定的估计并且不需要进行特征选择,岭回归可能是一个好选择。

如果你想要自动进行特征选择,Lasso回归可能更合适。正则化参数的选择通常需要通过交叉验证等技术来确定。

9、线性回归模型的评估指标有哪些?列举几个常用的评估指标并它们的意义。

线性回归模型的评估指标用于衡量模型对数据的拟合程度和预测性能。

下面是几个常用的线性回归模型评估指标以及它们的意义:

  1. 均方误差(Mean Squared Error,MSE)
  • 意义:MSE是最常用的线性回归评估指标之一,它衡量了模型预测值与实际观测值之间的平均平方误差。MSE越小表示模型拟合得越好。
  • 公式:$$MSE = \frac{1}{n} \sum_{i=1}^{n}(y_i – \hat{y}_i)^2$$
  • 其中,$n$ 是样本数量,$y_i$ 是实际观测值,$\hat{y}_i$ 是模型的预测值。
  1. 均方根误差(Root Mean Squared Error,RMSE)
  • 意义:RMSE是MSE的平方根,它以与目标变量相同的单位度量误差。与MSE一样,RMSE越小表示模型性能越好。
  • 公式:$$RMSE = \sqrt{MSE}$$
  1. 平均绝对误差(Mean Absolute Error,MAE)
  • 意义:MAE衡量了模型预测值与实际观测值之间的平均绝对误差。MAE对异常值不太敏感,因为它不涉及误差的平方。
  • 公式:$$MAE = \frac{1}{n} \sum_{i=1}^{n}|y_i – \hat{y}_i|$$
  1. 决定系数(Coefficient of Determination,R-squared)
  • 意义:决定系数表示模型解释了目标变量方差的比例。它介于0和1之间,越接近1表示模型对数据的拟合越好。
  • 公式:$$R^2 = 1 – \frac{\sum_{i=1}^{n}(y_i – \hat{y}i)^2}{\sum{i=1}^{n}(y_i – \bar{y})^2}$$
  • 其中,$\bar{y}$ 是目标变量的平均值。
  1. 调整决定系数(Adjusted R-squared)
  • 意义:与R-squared相比,调整决定系数考虑了模型中使用的自变量数量。它在自变量数量较多时更为有用,以避免过拟合。
  • 公式:$$Adjusted\ R^2 = 1 – \frac{(1 – R^2)(n – 1)}{n – k – 1}$$
  • 其中,$n$ 是样本数量,$k$ 是自变量数量。
  1. 残差分布
  • 意义:通过观察残差的分布,可以检查模型的拟合情况。正常情况下,残差应该接近正态分布,均值为0。如果存在模式或异常值,可能需要进一步优化模型。

这些评估指标提供了多个角度来评估线性回归模型的性能。

通常,需要根据特定问题和数据集的性质来选择合适的评估指标。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

评论(1)