• 正在加载中...
  • 相关系数

    相关系数,或称线性相关系数、皮氏积矩相关系数(Pearson product-moment correlation coefficient,PPCC)等,是衡量两个随机变量之间线性相关程度的指标。它由卡尔·皮尔森(Karl Pearson)在1880年代提出,现已广泛地应用于科学的各个领域。依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。

    编辑摘要

    基本信息 编辑信息模块

    中文名: 相关系数 英文名: Correlation coefficient
    计算方法: 按积差 定义: 简单典型复相

    目录

    定义/相关系数 编辑

    相关系数公式相关系数公式
    相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有如下几种定义方式。

    简单相关系数:又叫相关系数或线性相关系数,一般用字母r表示,用来度量两个变量间的线性关系。

    复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。

    典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。

    性质/相关系数 编辑

    (1)定理:|ρXY|=1的充要条件是,存在常数a,b,使得P{Y=a+bX}=1;
    相关系数ρXY取值在-1到1之间,ρXY=0时,称X,Y不相关;|ρXY|=1时,称X,Y完全相关,此时,X,Y之间具有线性函数关系;|ρXY|<1时,X的变动引起Y的部分变动,ρXY的绝对值越大,X的变动引起Y的变动就越大,|ρXY|>0.8时称为高度相关,当|ρXY|<0.3时称为低度相关,其它时候为中度相关。
    (2)推论:若Y=a+bX,则有
    证明:令E(X)=μ,D(X)=σ2
    则E(Y)=bμ+a,D(Y)=b2σ2
    E(XY)=E(aX+bX2)=aμ+b(σ2+μ2)
    Cov(X,Y)=E(XY)−E(X)E(Y)=bσ2
    若b≠0,则ρXY≠0。
    若b=0,则ρXY=0。
    软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相关表,见表1:
    表1广告费与月平均销售额相关表,单位:万元
    年广告费投入
    月均销售额
    12.5
    15.3
    23.2
    26.4
    33.5
    34.4
    39.4
    45.2
    55.4
    60.9
    21.2
    23.9
    32.9
    34.1
    42.5
    43.2
    49.0
    52.8
    59.4
    63.5
    参照表1,可计算相关系数如表2:
    序号
    广告投入(万元)
    x
    月均销售额(万元)
    y
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    12.5
    15.3
    23.2
    26.4
    33.5
    34.4
    39.4
    45.2
    55.4
    60.9
    21.2
    23.9
    32.9
    34.1
    42.5
    43.2
    49.0
    52.8
    59.4
    63.5
    156.25
    234.09
    538.24
    696.96
    1122.25
    1183.36
    1552.36
    2043.04
    3069.16
    3708.81
    449.44
    571.21
    1082.41
    1162.81
    1806.25
    1866.24
    2401.00
    2787.84
    3528.36
    4032.25
    265.00
    365.67
    763.28
    900.24
    1423.75
    1486.08
    1930.60
    2386.56
    3290.76
    3867.15
    合计
    346.2
    422.5
    14304.52
    19687.81
    16679.09

    相关系数为0.9942,说明广告投入费与月平均销售额之间有高度的线性正相关关系。

    应用/相关系数 编辑

    1.在概率论计算中的应用

    相关系数相关系数
    例1.若将一枚硬币抛n次,X表示n次试验中出现正面的次数,Y表示n次试验中出现反面的次数。计算ρXY。
    解:由于X+Y=n,则Y=-X+n,根据相关系数的性质推论,得ρXY=−1。
    例2.已知随机变量X、Y分别服从正态分布N(1,9),N(0,16)且X,Y的相关系数
    设,求证X,Z相互独立。
    证明:由已知得E(X)=1,D(X)=9,E(Y)=0,D(Y)=16
    由于正态分布的随机变量的线性组合仍然服从正态分布,知Z是正态变量。
    根据数学期望的性质有
    根据方差的性质有得
    由于E(XY)=Cov(X,Y)+E(X)E(Y)=−6,
    E(X)=D(X)+[E(X)]=10
    ρXZ=0,X,Z不相关。
    由于正态随机变量的相互独立与互不相关等价,故X,Z相互独立。
    因此,一般情况下两个随机变量不相关不一定相互独立。不相关仅指随机变量之间没有线性关系,而相互独立则表明随机变量之间互不影响,没有关系。
    2.在企业物流上的应用
    【例】一种新产品上市。在上市之前,公司的物流部需把新产品合理分配到全国的10个仓库,新品上市一个月后,要评估实际分配方案与之前考虑的其他分配方案中,是实际分配方案好还是其中尚未使用的分配方案更好,通过这样的评估,可以在下一次的新产品上市使用更准确的产品分配方案,以避免由于分配而产生的积压和断货。表1是根据实际数据所列的数表。
    通过计算,很容易得出这3个分配方案中,B的相关系数是最大的,这样就评估到B的分配方案比实际分配方案A更好,在下一次的新产品上市分配计划中,就可以考虑用B这种分配方法来计算实际分配方案。
    3.在聚类分析中的应用
    【例】如果有若干个样品,每个样品有n个特征,则相关系数可以表示两个样品间的相似程度。借此,可以对样品的亲疏远近进行距离聚类。例如9个小麦品种(分别用A1,A2,...,A9表示)的6个性状,作相关系数计算并检验。
    由相关系数计算公式可计算出6个性状间的相关系数,分析及检验结果见表3。由表3可以看出,冬季分蘖与每穗粒数之间呈现负相关(ρ=−0.8982),即麦冬季分蘖越多,那么每穗的小麦粒数越少,其他性状之间的关系不显著。

    缺点/相关系数 编辑

    需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。
    例如,就我国深沪两股市资产负债率与每股收益之间的相关关系做研究。发现1999年资产负债率前40名的上市公司,二者的相关系数为r=–0.6139;资产负债率后20名的上市公司,二者的相关系数r=0.1072;而对于沪、深全部上市公司(基金除外)结果却是,r沪=–0.5509,r深=–0.4361,根据三级划分方法,两变量为显著性相关。这也说明仅凭r的计算值大小判断相关程度有一定的缺陷。[1]

    相关文献

    添加视频 | 添加图册相关影像

    参考资料
    [1]^引用日期:2017-03-08

    互动百科的词条(含所附图片)系由网友上传,如果涉嫌侵权,请与客服联系,我们将按照法律之相关规定及时进行处理。未经许可,禁止商业网站等复制、抓取本站内容;合理使用者,请注明来源于www.baike.com。

    登录后使用互动百科的服务,将会得到个性化的提示和帮助,还有机会和专业认证智愿者沟通。

    互动百科用户登录注册
    此词条还可添加  信息模块

    WIKI热度

    1. 编辑次数:41次 历史版本
    2. 参与编辑人数:20
    3. 最近更新时间:2017-03-08 14:07:55