多元线性回归 – 学海泛舟

import pandas as pd
import statsmodels.formula.api as smf


col = [
    'target', 'B', 'C', 'D', 'E', 'F', 'G'
]

raw_df = pd.read_csv("data.csv", sep=",", skiprows=1, header=None)
print(type(raw_df))

data = pd.DataFrame(raw_df.values, columns=col)
print(data)

mod = smf.ols(formula='target~B+C+D+E+F+G', data=data)
res = mod.fit()
print(res.summary())

其中，target是因变量Y，B，C等是因数x。

数据格式如下：

输出结果：

模型解释：

t：t 统计量（t-Statistic），等于回归系数除以标准差，用于对每个回归系数分别进行检验，检验每个自变量对因变量的影响是否显著。如果某个自变量 xi的影响不显著，意味着可以从模型中剔除这个自变量。

P>|t|：t检验的 P值（Prob(t-Statistic)），反映每个自变量 xi 与因变量 y 的相关性假设的显著性。如果 p<0.05，可以理解为在0.05的显著性水平下变量xi与y存在回归关系，具有显著性。

[0.025,0.975]：回归系数的置信区间（Confidence interval）的下限、上限，某个回归系数的置信区间以 95%的置信度包含该回归系数。注意并不是指样本数据落在这一区间的概率为 95%。

R-squared：R方判定系数（Coefficient of determination），表示所有自变量对因变量的联合的影响程度，用于度量回归方程拟合度的好坏，越接近于 1说明拟合程度越好。

F-statistic：F 统计量（F-Statistic），用于对整体回归方程进行显著性检验，检验所有自变量在整体上对因变量的影响是否显著。