当前位置: 代码网 > it编程>前端脚本>Python > 回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法,回归系数

回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法,回归系数

2024年07月28日 Python 我要评论
回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法,以及相关概念

1. 多重共线性       

        多重共线性是指线性回归模型中的解释变量之间由于存在精确或高度相关关系

        例如:某个回归模型包含2个变量,年龄工作经验年数,常识可知年龄越大,工作经验年数越大,两个变量可能存在高度关联,因此模型中可能存在多重共线性

2. 多重共线性的危害

        a. 模型估计失真难以估计准确 稳定性降低,意味着回归方程的标准误差可能会增大;

        b. 模型参数估计不准确,方差大,这也是模型估计不准的原进一步原因,至于为什么看3

        c. 无法判断单独变量的影响,计算特征贡献度;

        d. 因此自变量显著性可能会失去意义,本应该显著的自变量不显著,本不显著的自变量却是显著

3. 共线性的存在导致模型估计不准的原因

        最小化损失函数的目的是找到一组最优回归系数,宏观定义上可以理解为模型参数。多重共线性的存在会导致模型参数估计不准确,进而导致模型估计失真估计不准的问题

        简单穿插一下回归系数的概念:

        回到多重共线性的危害上:

        如果模型中存在多重共线性,这说明至少有两个自变量 a 和 b 是高度或完全相关的,即两个变量的变化趋势一致,其中一个变化,另一个也会发生类似的变化。相关性越强,在只改变a,不改变b的情况下,单纯从a的变化解释y的变化就很困难,也就是和实际不符(实际环境可能是从a和b共同变化的角度解释y的变化,因此很难理解)。

        因此,会降低估计系数的可信度 或者 降低模型 的稳定性和性能。

4. 判断标准

        a. 皮尔逊相关系数,可以解释连续型变量之间的线性相关程度,该值大于0.8,则可以认为存在多重共线性;对于连续型—离散型和离散型—离散型的变量对,则可以利用其他的方式(后续会另开一篇);

        b.  实现增加一个变量或者删除一个变量,观察回归系数的值是否有很大变化,若变化很大,则说明该变量的估计系数不可信 或 不稳定;

        c. 如果说 f 检验通过,并且决定系数值也较大,但是 t 检验并不显著,也可能存在多重共线性;

        d. 回归系数的正负符号与专业知识相反或与实际分析结果不符,也会存在多重共线性的可能。

以上a ~ d,均为主观判断方法;还有一种正规的检验方法!

        观察回归分析中的vif值(方差膨胀因子),表达式1 / (1 - r2)。多重共线性会使参数估计值的方差变大,方差膨胀因子越大,说明共线性越强。通常的判断标准是vif值大于10,即具有多重共线性,有的文献也说大于5即有共线性。​​​​​​​

5. 解决办法,如何消除多重共线性​​​​​​​

        a. 保留一个变量,并删除与其高度相关的其他变量,以逐步回归法得到最广泛的应用;

        b. 引入l1 和 l2 正则化,减少参数量的方差,降低vif,可以处理多重共线性;

        c. 特征合并或者特征组合,将相关变量线性组合在一起处理;

        d. 特征降维,如pca

        e. 差分法,时间序列数据、线性模型:将原模型变换为差分模型(转自百度百科,我没懂。。)

上述内容源自:回归系数_百度百科多重共线性_百度百科,​​​​​​​速进!!关于多重共线性你知道多少? - 知乎 以及 自己的学习和理解,可以的话,这几篇都可以看看。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com