回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法，回归系数_Python

1. 多重共线性

多重共线性是指线性回归模型中的解释变量之间由于存在精确或高度相关关系。

例如：某个回归模型包含2个变量，年龄和工作经验年数，常识可知年龄越大，工作经验年数越大，两个变量可能存在高度关联，因此模型中可能存在多重共线性。

2. 多重共线性的危害

a. 模型估计失真 或 难以估计准确 或 稳定性降低，意味着回归方程的标准误差可能会增大；

b. 模型参数估计不准确，方差大，这也是模型估计不准的原进一步原因，至于为什么看3

c. 无法判断单独变量的影响，计算特征贡献度；

d. 因此自变量显著性可能会失去意义，本应该显著的自变量不显著，本不显著的自变量却是显著

3. 共线性的存在导致模型估计不准的原因

最小化损失函数的目的是找到一组最优回归系数，宏观定义上可以理解为模型参数。多重共线性的存在会导致模型参数估计不准确，进而导致模型估计失真 或 估计不准的问题。

简单穿插一下回归系数的概念：

回到多重共线性的危害上：

如果模型中存在多重共线性，这说明至少有两个自变量 a 和 b 是高度或完全相关的，即两个变量的变化趋势一致，其中一个变化，另一个也会发生类似的变化。相关性越强，在只改变a，不改变b的情况下，单纯从a的变化解释y的变化就很困难，也就是和实际不符（实际环境可能是从a和b共同变化的角度解释y的变化，因此很难理解）。

因此，会降低估计系数的可信度或者降低模型的稳定性和性能。

4. 判断标准

a. 皮尔逊相关系数，可以解释连续型变量之间的线性相关程度，该值大于0.8，则可以认为存在多重共线性；对于连续型—离散型和离散型—离散型的变量对，则可以利用其他的方式（后续会另开一篇）；

b. 实现增加一个变量或者删除一个变量，观察回归系数的值是否有很大变化，若变化很大，则说明该变量的估计系数不可信或不稳定；

c. 如果说 f 检验通过，并且决定系数值也较大，但是 t 检验并不显著，也可能存在多重共线性；

d. 回归系数的正负符号与专业知识相反或与实际分析结果不符，也会存在多重共线性的可能。

以上a ~ d，均为主观判断方法；还有一种正规的检验方法！

观察回归分析中的vif值（方差膨胀因子），表达式1 / (1 - r2)。多重共线性会使参数估计值的方差变大，方差膨胀因子越大，说明共线性越强。通常的判断标准是vif值大于10，即具有多重共线性，有的文献也说大于5即有共线性。

5. 解决办法，如何消除多重共线性

a. 保留一个变量，并删除与其高度相关的其他变量，以逐步回归法得到最广泛的应用；

b. 引入l1 和 l2 正则化，减少参数量的方差，降低vif，可以处理多重共线性；

c. 特征合并或者特征组合，将相关变量线性组合在一起处理；

d. 特征降维，如pca

e. 差分法，时间序列数据、线性模型：将原模型变换为差分模型（转自百度百科，我没懂。。）

上述内容源自：回归系数_百度百科，多重共线性_百度百科，速进！！关于多重共线性你知道多少？ - 知乎以及自己的学习和理解，可以的话，这几篇都可以看看。

手把手教你安装Jupyter Notebook(保姆级教程)

Jupyter Notebook安装教程…

2024年07月28日 • 前端脚本

【数据分析】嫡权法EWM

【数据分析】嫡权法EWM总结：基于熵值信息来计算出权重，数据具有客观性。…

2024年07月28日 • 前端脚本

数据分析全流程解析：从数据预处理到分析建模，再到结果可视化

在当前信息化时代，数据分析成为了企业决策、科研创新的关键。高效、准确地从海量数据中提取有价值的信息，需要经过数据预处理、分析建模、结果可视化等一系列步骤。本文将... [阅读全文]

【开题报告】基于大数据的北京市租房的数据分析与可视化

综上所述，尽管各个学者对于住房选择的影响因素研究中都涉及到各项个人基本特征因素，然而基于研究的目标群体不同、研究时各地的住房租赁市场的状况不同、生活方式不同等多... [阅读全文]

GPT4 Advanced data analysis Code Interpreter 做行业数据分析、可视化处理图像、视频、音频等

案例：跨境电商如何用ChatGFT选品ChatGPT+素材和资料来自：Jungle ScoutEM, Michael Soltis 和文韬武韬AIGC。…

2024年07月28日 • 前端脚本

Python深度学习环境配置（Pytorch、CUDA、cuDNN），包括Anaconda搭配Pycharm的环境搭建以及基础使用教程（保姆级教程，适合小白、深度学习零基础入门）

本文旨在帮助想要入门深度学习的小白进行深度学习的环境配置，总结了一台电脑从零开始配置到调用Pytorch使用GPU进行深度学习计算的全过程环境搭建，并包含了Anaconda搭配Py…

2024年07月28日 • 前端脚本


验证码：

验证码：

回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法，回归系数

2024年07月28日 • Python •我要评论

1. 多重共线性

2. 多重共线性的危害

3. 共线性的存在导致模型估计不准的原因

4. 判断标准

5. 解决办法，如何消除多重共线性

相关文章:

手把手教你安装Jupyter Notebook(保姆级教程)

【数据分析】嫡权法EWM

GPT4 Advanced data analysis Code Interpreter 做行业数据分析、可视化处理图像、视频、音频等

Python深度学习环境配置（Pytorch、CUDA、cuDNN），包括Anaconda搭配Pycharm的环境搭建以及基础使用教程（保姆级教程，适合小白、深度学习零基础入门）

发表评论

回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法，回归系数

2024年07月28日 • Python •我要评论

1. 多重共线性

2. 多重共线性的危害

3. 共线性的存在导致模型估计不准的原因

4. 判断标准

5. 解决办法，如何消除多重共线性​​​​​​​

相关文章:

手把手教你安装Jupyter Notebook(保姆级教程)

【数据分析】嫡权法EWM

GPT4 Advanced data analysis Code Interpreter 做行业数据分析、可视化处理图像、视频、音频等

Python深度学习环境配置（Pytorch、CUDA、cuDNN），包括Anaconda搭配Pycharm的环境搭建以及基础使用教程（保姆级教程，适合小白、深度学习零基础入门）

发表评论

5. 解决办法，如何消除多重共线性