聪明文档网

聪明文档网

最新最全的文档下载
当前位置: 首页> 相关分析-

相关分析-

时间:    下载该word文档
相关、回归分析的应用范围: 相关分析用于分析两变量间相互联系的密切程度及相关方向。 回归适用于分析变量间的依存关系。
如两个变量间的关系是线性的,可用直线相关与回归分析; 如两个变量间的关系是非线性的,需用非线性(曲线)回归。
相关与回归分析的变量特点: 相关分析两个变量都随机变动,处于同等地位。相关系数r来描述和度量它们数量上的联系程度。
回归分析两个变量的地位不同,自变量x随机变动,也可人为取值;当x的数值确定时,应变量y按某种规律随机变动。 自变量:被干预的变量,‘独立’于样本的最初的反应模式,特点,动机等。
/变量:仅被测量或登记的变量,依赖于干预或实验条件,也就是赖于样本将如何反应

相关分析的特点:
相关关系是普遍存在的,函数关系仅是相关关系的特例。 1.1 相关关系的类型
相关关系多种多样,归纳起来大致有以下6种: 强正相关关系
其特点是一变量X增加,导致另一变量 Y明显增加,说明X是影响Y的主要因素。 弱正相关关系
其特点是一变量X增加,导致另一变量Y增加,但增加幅度不明显。 强负相关关系
其特点是X增加,导致Y明显减少,说明X是影响Y的主要因素。 弱负相关关系
其特点是变量X增加,导致Y减少,但减少幅度不明显,说明XY的影响因素,但不是唯一因素。 非线性相关关系
其特点是XY之间没有明显的线性关系,却存在着某种非线性关系,说明X仍是影Y的因素 不相关
其特点是XY不存在相关关系,说明X不是影响Y的因素。


相关分析的应用
相关分析
在影响某个变量的诸多变量中判断哪些是显著的,哪些是不显著的。 在得到相关分析的结果后,可用于其他分析,如回归分析和因子分析。 相关分析的表现方式

相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和性质。
3.1 散点图

将数据点画在直角坐标系,观察散点图,直观的发现变量间的相关关系及强弱程度和方向。
1.打开或建立SAV数据文件。
2.用散点图初步观察两变量间有无相关趋势。 依次单击菜单Graphs - Chart Builder图表,图表构建器打开图形构建器,选择做散点图Scatter /Dot
相关系数
相关分析的主要目的:
研究变量之间关系的密切程度。 根据样本的资料推断总体是否相关。 变量间关系紧密程度的指标:
主要是相关系数r。相关系数r取值[-1 +1]
数值愈接近-1+1时,关系愈紧密;接近于0时,说明关系不紧密。 样本的相关系数一般用r表示,总体的相关系数一般用p表示。

对于不同类型的变量,相关系数的计算公式不同。
在相关分析中,常用的相关系数: Pearson简单相关系数:定距连续变量的数据进行计算。如测度收入和储蓄,身高和体重。 Spearman等级相关系数:用于度量定序变量间的线性相关关系。如军队教员的军衔与职称。 Kendall秩相关系数:用非参数检验方法来度量定序变量间的线性相关关系。计算基于数据的秩。


利用相关系数进行变量间线性关系的分析,通常需要完成以下两个步骤:
第一、计算样本相关系数r r的取值在-1+1 之间
r>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关系
r1表示两变量存在完全正相关;r-1表示两变量存在完全负相关;r0表示两变量不相关
|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较弱
第二、对样本来自的两总体是否存在显著的线性关系进行推断。
3.3.1 Pearson(简单相关系数适用于两个变量都是数值型的数据。
r0.3微弱相关、0.3r0.5低度相关0.5r0.8显著相关、0.8r1高度相关r0时,表示xy为正相关r0时,表示xy为负相关r0时,表示xy不相关3.3.2Spearman等级相关系数
用来度量定序变量间的相关关系。
设计思想与Pearson简单相关系数相同。
其数据为非定距的,故不直接采用原始数据计算,而是利用数据的秩,用两变量的秩代替代入Pearson相关系数计算公式,于是其中的和的取值范围被限制在1n之间。
如果两变量的正相关性较强,它们秩的变化具有同步性,于是的值较小,θ趋向于1
如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是的值较大,θ 趋向 0
小样本,在零假设成立时,Spearman等级相关系数服从Spearman分布; 大样本, Spearman等级相关系数的检验统计量,为Z统计量,定义为:


1.3.3 Kendall 秩相关系数
如果排列双方的排名是完美的(即,两个排名是相同的),系数的价值1 如果两排列之间的分歧排名是完美的(即,一个排名是扭转其他),系数价值-1 对于τ介于-11之间的排列,增加值意味着增加之间的排列的排名。如果排名是完全独立的,该系数已值为0的平均水平。

相关系数的缺点: 一个明显的缺点:相关系数接近于1的程度与数据组数n相关,这易给人一种假象。 n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1n较大时,相关系数的绝对值容易偏小。特别,当n=2时,相关系数的绝对值总为1
在样本容量n较小时,仅凭相关系数较大就判定变量xy间有密切的线性关系是不妥当的。

计算相关系数的基本操作
相关分析用于描述两个变量间关系的密切程度,其特点是变量不分主次,被置于同等的地位。
分析的菜单“相关中有三个相关分析功能:
Bivariate“双变量过程、 Partial偏相关程、 Distances“距离过程 (双变量相关分析、偏相关分析、相似性测度(距离)
Bivariate过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。
包括:计算Pearson简单相关系数、T检验统计量和对应的概率P值。 Pearson简单相关系数:定距连续变量的数据进行计算。如测度收入和储蓄,身高和体重。前提条件:要求成对数据;正态双变量;两列变量是连续变量;两列变量之间的关系是线性关系。
Spearman等级相关系数:用于度量定序变量间的线性相关关系。如军队教员的军衔与职称。前提条件:两列变量;等级顺序的测量资料;两列变量之间的关系是线性关系。
Kendall秩相关系数:用非参数检验方法来度量定序变量间的线性相关关系。计算基于数据的秩

例:身高与体重 1选择分析方法
本题要求判断身高与体重两个变量间关系的密切程度,所以采用相关分析中的双变量过程。

相关分析用于描述两个变量间关系的密切程度,其特点是变量不分主次,被置于同等的地
位。

2建立数据文件 设置个变量,

3用散点图初步观察两变量间有无相关趋势。 操作过程:菜单“图形-图表构建程序”,打开图形构建器,点击确定,对图表进行定义;选中散点图/点图,再选择第一个“简单散点图”,将“简单散点图”拖到“图表预览使用实例数据”中,将变量1“身高拖到X轴,变量2“体重拖到Y轴;左键双击输出窗口的散点图,出现图表编辑器,点击元素”→“总计拟合线,得到下图所示散点图:



分析:从散点图可以看出,“身高变量和体重变量有明显的直线趋势,存在线性关系,可用相关分析。因为是两个变量间的相关分析,所以用Bivariate过程。
两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述.

2正态分布检验
选择分析”→“非参数检验”→“1-样本KS检验(检验样本数据是否服从某种特定的分布)将“身高变量和体重变量放入检验变量列表框”检验分布选择“常规”→确定,出“单样本 Kolmogorov-Smirnov 检验表格,如下:
检验正态分布总的可分为非参数检验和图形检验法。

1 单样本 Kolmogorov-Smirnov 检验

N

身高
40 年龄
40
正态参数
a,,b均值 标准差
153.25 10.475 .103 .067 -.103 .648 .795 13.98 1.476 .168 .168 -.132 1.064 .208 最极端差别 绝对值
Kolmogorov-Smirnov Z 渐近显著性(双侧 a. 检验分布为正态分布。 b. 根据数据计算得到。
分析:由表单样本 Kolmogorov-Smirnov 检验,可知“身高”渐进显著性(双侧)0.795>0.05说明“身高”样本为正态分布“体重”;渐进显著性(双侧)0.208>0.05说明“体重”样本为正态分布。所以本题满足Pearson简单相关系数分析的前提条件:两个变量都是数值型的数据,且两个变量成对(直接由数据文件看出);两个变量是正态双变量(正态检验)两列变量之间的关系是线性关系(散点图)所以可采用Pearson简单相关系数分析。

“变量渐进显著性(双侧)小于0.05,那么拒绝原假设,说明样本为非正态分布,否则值越大越服从某种分布;“”变量渐进显著性(双侧)小于0.05,那么拒绝原假设,说明样本为非正态分布,否则值越大越服从某种分布
Pearson简单相关系数分析,前提条件:要求成对数据;正态双变量;两列变量是连续变;两列变量之间的关系是线性关系。

2.Bivariate相关分析 操作过程:
“分析”→“相关”→“双变量,出现双变量相关窗口,把“身高”和“体重”变量放入“变量框”;“相关系数框”中选择“Pearson”;“显著性检验框”中选择输出相关系数“双侧检验”选中标记显著相关;点击选项,选中计量中的叉积偏差和协方差表示输出两变量的离差平方和协方差,选中“均值和标准差”点击继续,回到主对话框;点击“确定”,输出结果:

2 描述性统计量

身高 体重
均值 153.25 47.655 标准差 10.475 10.0742 N 40 40
3 相关性

身高

Pearson 相关性
身高
1 体重 .708
**
显著性(双侧) 平方与叉积的和 协方差
N 体重
Pearson 相关性 显著性(双侧) 平方与叉积的和 协方差
N

4279.500 109.731 40 .708 .000 2913.050 74.694 40 **.000 2913.050 74.694 40 1
3958.119 101.490
40 **. .01 水平(双侧)上显著相关。
分析:表1描述性统计量,“身高”的取值范围是153.25±10.475;“体重”的取值范围是47.655±10.0742。表3相关性“身高”和“体重”的Pearson相关系数为r=0.7080.5<0.708<0.8且相关系数显著性水平为0.000<0.01,所以“身高”和“体重”显著相关
Pearson(简单相关系数
r0.3微弱相关、0.3r0.5低度相关0.5r0.8显著相关、0.8r1高度相关r0时,表示xy为正相关r0时,表示xy为负相关r0时,表示xy不相关
强正相关关系
其特点是一变量X增加,导致另一变量 Y明显增加,说明X是影响Y的主要因素。 弱正相关关系
其特点是一变量X增加,导致另一变量Y增加,但增加幅度不明显。 强负相关关系
其特点是X增加,导致Y明显减少,说明X是影响Y的主要因素。 弱负相关关系
其特点是变量X增加,导致Y减少,但减少幅度不明显,说明XY的影响因素,但不是唯一因素。 非线性相关关系
其特点是XY之间没有明显的线性关系,却存在着某种非线性关系,说明X仍是影Y的因素 不相关
其特点是XY不存在相关关系,说明X不是影响Y的因素。


设置相关分析的参数
1)把参加计算相关系数的变量选到Variables“变量框“。
2)在Correlation Coefficents“相关系数框”中选择计算哪种相关系数,Pearson简单相关系数、Spearman等级相关系数、Kendall秩相关系数。

3Test of Significance“显著性检验框”中选择输出相关系数检验的双边Two-Tailed概率p值或单边(One-Tailed)概率p值。
4)选中Flag significance correlation标记显著相关选项表示分析结果中除显示统计检验的概率p值外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。
5)在Option选项按钮中的Statistics选项中,选中Cross-product deviations and covariances叉积偏差和协方差表示输出两变量的离差平方协方差选中“均值和标准差” 分析:变量和“”变量相关系数为,是什么相关,相关系数显著性水平为0.05,0.01,故两者的相关显著。可见,3个相关系数在0.010.05的显著性水平(双边检验)上都非常显著,从而推断体重和肺活量之间存在着明显的正相关关系。

3. 相关分析的主要结果 1)描述性输出
“描述性统计量”表格给出了两个变量的基本统计信息,包括均值、标准差和频率 2)相关性输出
“相关性”表格给出的是Pearson相关系数及其检验结果:“相关系数”表格给出的是两个非参数相关系数及其检验结果。

几点说明:
相关分析只是以相关系数来描述两个变量间线性相关的程度和方向,并不阐明事物间存在联系的本质,也不是两事物间存在联系的证据。要阐明两事物间的本质联系,必须凭专业知识从理论上加以论证。因此,把两个毫无关系的事物放在一起作相关分析是毫无意义的。
用统计软件求得相关系数,还得检验。

Partial过程当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数。
在控制其他变量的线性影响下,分析两变量间的线性相关——偏相关系数(净相关系数) 作用:有效地揭示变量间的真实关系,识别干扰变量并寻找隐含的相关性。如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。
Partial过程:当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。

偏相关分析(净相关分析)需要在剔除其他相关因素影响的条件下计算变量间的相关。


在控制其他变量的线性影响的条件下,分析两变量间的关系,所采用的工具是偏相关系数。
控制变量个数为1时,偏相关系数称一阶偏相关;

当控制两个变量时,偏相关系数称二阶偏相关;
当控制变量数为0时,偏相关系数称为零阶偏相关(也就是简单相关系数)
2. 偏相关分析的基本操作
例:水稻产量、雨量、温度 1选择分析方法
本题要求控制“温度”的影响,判断水稻“产量”“雨量”个变量间关系的密切程度,所以采用相关分析中的偏相关过程。

2建立数据文件 设置个变量,

3用散点图初步观察两变量间有无相关趋势。 操作过程:菜单“图形-图表构建程序”,打开图形构建器,点击确定,对图表进行定义;选中散点图/点图,再选择第一个“简单散点图”,将“简单散点图”拖到“图表预览使用实例数据”中,将变量1“雨量拖到X轴,变量2“产量拖到Y轴;左键双击输出窗口的散点图,出现图表编辑器,点击元素”→“总计拟合线,得到下图所示散点图:



分析:从散点图可以看出,“雨量变量和产量变量存在线性关系,可用相关分析。但是会受到变量温度的影响,所以使用偏相关分析(Partial过程),控制变量温度

4偏相关分析(Partial过程)
分析相关偏相关,出现偏相关窗口,把“雨量产量变量放入“变量”框,把温度放入“控制”框;“显著性检验”框中选择输出相关系数“双侧检验”;选中显示实际显著水平;点击 选项,选中统计量中的阶相关系数表示输出零阶偏相关系数,选中“均值和标准差”,点击继续
回到主对话框;点击“确定”,输出结果:
描述性统计量

降雨量(mm 早稻收获量(kg/公顷 温度(
均值 79.00 3800.00 12.00 标准差 42.430 1527.525 4.123 N 7 7 7
相关性
早稻收获量(kg/控制变量 --
a降雨量(mm 降雨量(mm 相关性 显著性(双侧)
df 早稻收获量(kg/公顷 相关性
显著性(双侧)
df 温度(
相关性 显著性(双侧)
df
1.000 . 0 .984 .000 5 .965 .000 5 1.000 . 0 .759 .080 4 公顷
.984 .000 5 1.000 . 0 .990 .000 5 .759 .080 4 1.000 . 0 温度(
.965 .000 5 .990 .000 5 1.000 . 0 温度( 降雨量(mm 相关性 显著性(双侧)
df

早稻收获量(kg/公顷 相关性
显著性(双侧)
df a. 单元格包含零阶 (Pearson 相关。
分析:零阶偏相关分析,即不控制变量温度时,“产量降雨量相关系数为0.984,且0.8<0.984<1,即“产量降雨量高度正相关,相关系数显著性水平为0.000<0.01,两者相关显著,具有统计学意义;一阶偏相关分析,即控制变量温度时,“产量变量和降雨变量相关系数为0.7590.5<0.759<0.8是显著正相关,相关系数显著性水平为0.080>0.05故两者的相关不显著,不具有统计学意义。 Pearson(简单相关系数

r0.3微弱相关、0.3r0.5低度相关0.5r0.8显著相关、0.8r1高度相关r0时,表示xy为正相关r0时,表示xy为负相关r0时,表示xy不相关相关分析的主要结果 1)描述性输出
“描述性统计量”表格给出了三个变量的基本统计信息,包括均值、标准差和频率。 2)相关性输出
“相关性”表格给出了所有变量的0阶偏相关(Pearson简单相关)系数和1阶偏相关系数的计算结果果、以及它们各自的显著性检验P值。


Distances过程用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,作为聚类分析和因子分析等的预分析。



免费下载 Word文档免费下载: 相关分析-

  • 29.8

    ¥45 每天只需1.0元
    1个月 推荐
  • 9.9

    ¥15
    1天
  • 59.8

    ¥90
    3个月

选择支付方式

  • 微信付款
郑重提醒:支付后,系统自动为您完成注册

请使用微信扫码支付(元)

订单号:
支付后,系统自动为您完成注册
遇到问题请联系 在线客服

常用手机号:
用于找回密码
图片验证码:
看不清?点击更换
短信验证码:
新密码:
 
绑定后可用手机号登录
请不要关闭本页面,支付完成后请点击【支付完成】按钮
遇到问题请联系 在线客服