QQ登录

只需一步,快速开始

只需一步,快速开始

GMP论坛

搜索
查看: 274|回复: 0
收起左侧

[其他] 相关系数r与r方的关系(R与R平方与调整后R平方)

[复制链接]
  • TA的每日心情
    慵懒
    前天 16:22
  • 906

    主题

    23

    回帖

    1万

    积分

    传播制药技术,促进医药合规, 确保药品安全!

    Rank: 9Rank: 9Rank: 9

    QQ达人论坛元老优秀版主突出贡献论坛达人

    发表于 2023-6-20 14:42:36 | 显示全部楼层 |阅读模式 来自 中国广东深圳
    回归分析,是对两个或两个以上变量之间的因果关系进行定量研究的一种统计分析方法。回归分析,也是我们进行需求预测常用的一种因果建模方法。
    我们做回归分析时,离不开一个字母“R”。本文向大家介绍R、R平方与调整后的R平方的概念、在回归分析中作用以及计算方法。
    一、R,相关系数。
    顾名思义,相关系数,是衡量两个变量之间相关程度的系数,是判定变量之间线性相关性的一个相对指标。相关系数用字母R表示,最早由英国统计学家卡尔·皮尔逊设计并提出。
    相关系数R取值在±1之间,当R为0时,表示两个变量绝对不相关;当R大于0时,两个变量正相关,即你增加我也增加,你减少我也减少;当R小于0时,两个变量负相关,即你增加我减少,你减少我增加;当R等于1或-1时,表示两个变量绝对相关。
    相关系数R越接近于±1,两个变量之间相关性越强。一般认为:当R值为±0.7或更大时,两个变量高度相关,即强相关;当R值在±0.5~±0.7之间时,两个变量中度相关;当R值在±0.3~±0.5之间时,两个变量弱相关;当R值低于±0.3时,说明两个变量之间几乎不存在相关关系。
    相关系数R在回归分析中的作用主要有两点。
    1、判断自变量与因变量的关系,以确定该自变量有没有纳入回归方程的必要(如果是一元回归,就是有没有做回归分析的必要)。一般情况下,如果R低于±0.5,则这个自变量不需要纳入回归方程。
    2、用回归分析预测,对实际值与预测值进行相关分析,相关系数R代表着回归方程的精度,也即回归方程的拟合程度。
    另外,说明一下,回归分析是因果预测常用方法之一,但两个变量之间有相关关系,并不一定有因果关系,因果关系是相关关系的一种。
    相关系数计算公式如下图。
    d71c02c300568734c857e10926b6f7e1.jpg

    二、R平方,判定系数。
    判定系数,又叫决定系数,是指在线性回归中,回归可解释离差平方和与总离差平方和之比值,其数值等于相关系数R的平方。
    我们以下图来解释这个定义。如下图所示,当没有促销时,销售预测为平均线A,有促销产生时,销售预测为回归直线L,P点为一定促销费用时的实际销售量,与回归线L相交于y’点,与平均线A相交于O点。
    4967e05f5ca7fd8b0d46543797276e59.jpg
    如图,P点到平均线A的距离PO为我们不做回归分析的离均差,在这里称为总离差。P点与回归线L的垂直交点y’到平均线A的距离y’O,这是我们做了回归分析后能够预测到的部分,即回归模型可解释的部分,故称为回归可解释离差。全部期间点的回归可解释离差平方和除以总离差平方和,即为判定系数R平方。不过,判定系数不用这么复杂计算,直接将相关系数R进行平方即可。
    判定系数是一个解释性系数,在回归分析中,其主要作用是评估回归模型对因变量y产生变化的解释程度,也即判定系数R平方是评估回归模型好坏的指标。R平方取值范围也为0~1,通常以百分数表示。比如回归模型的R平方等于0.7,那么表示,此回归模型对预测结果的可解释程度为70%。
    一般认为,R平方大于0.75,表示模型拟合度很好,可解释程度较高;R平方小于0.5,表示模型拟合有问题,不宜采用进行回归分析。
    519f0adba982b463b2412abd7f8c839a.jpg

    三、调整后的R平方,修正自由度的判定系数。
    多元回归实际应用中,判定系数R平方有个最大的问题:增加自变量的个数时,判定系数就会增加,即随着自变量的增多,R平方会越来越大,会显得回归模型精度很高,有较好的拟合效果。而实际上可能并非如此,有些自变量与因变量(即预测)完全不相关,增加这些自变量,并不会提升拟合水平和预测精度。为避免这种现象,调整后的R平方粉墨登场。
    R平方的主要问题是未考虑自由度问题,为解决这个问题,为避免增加自变 量而高估R平方,需要对R平方进行调整。采用的方法是用样本量n和自变量的个数k去调整 R平方。调整后的R平方计算公式如下图。
    7425da98b547096149d2fedb182cf7f1.jpg
    从以上公式看出,调整后的R平方同时考虑了样本量(n)和回归中自变量的个数(k)的影响,这使得调整后的R平方永远小于R平方,并且调整R平方的值不会由于回归中自变量个数的增加而越来越接近1。
    因调整后的R平方较R平方测算更准确,在回归分析尤其是多元回归中,我们通常使用调整后的R平方对回归模型进行精度测算,以评估回归模型的拟合度和效果。
    一般认为,在回归分析中,0.5为调整后的R平方的临界值,如果调整后的R平方小于0.5,则要分析我们所采用和未采用的自变量。另,如果调整后的R平方与R平方存在明显差异,则意味着所用的自变量不能很好的测算因变量的变化,或者是遗漏了一些可用的自变量。调整后的R平方与R平方间差距越大,模型的拟合越差。
    94113d9387ed9bdd648b5f8b27b354d4.jpg

    以上介绍了与回归分析相关的几个系数:相关系数R、判定系数R平方、修正自由度的判定系数“调整后的R平方”。但回归模型优劣的评定,不仅仅是这三个系数,还需要其它的评价办法与指标,比如多重共线性、显著性验证、方差分析等。

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    关闭

    站长推荐上一条 /2 下一条

    Copyright © 2001-2013 Comsenz Inc.Powered by Discuz!X3.4
    网站地图手机触屏版小黑屋GMP论坛 QQ
    快速回复 返回顶部 返回列表