当前位置：首页> 相关分析-

相关分析-

时间：下载该word文档

相关、回归分析的应用范围:  相关分析用于分析两变量间相互联系的密切程度及相关方向。  回归适用于分析变量间的依存关系。
如两个变量间的关系是线性的，可用直线相关与回归分析；如两个变量间的关系是非线性的，需用非线性（曲线）回归。
相关与回归分析的变量特点:  相关分析两个变量都随机变动，处于同等地位。相关系数r来描述和度量它们数量上的联系程度。
 回归分析两个变量的地位不同，自变量x可随机变动，也可人为取值；当x的数值确定时，应变量y按某种规律随机变动。  自变量：被干预的变量，‘独立’于样本的最初的反应模式，特点，动机等。
 因/依变量：仅被测量或登记的变量，依赖于干预或实验条件，也就是依赖于样本将如何反应

相关分析的特点:              
相关关系是普遍存在的，函数关系仅是相关关系的特例。 1.1 相关关系的类型
相关关系多种多样，归纳起来大致有以下6种：强正相关关系
其特点是一变量X增加，导致另一变量 Y明显增加，说明X是影响Y的主要因素。弱正相关关系
其特点是一变量X增加，导致另一变量Y增加，但增加幅度不明显。强负相关关系
其特点是X增加，导致Y明显减少，说明X是影响Y的主要因素。弱负相关关系
其特点是变量X增加，导致Y减少，但减少幅度不明显，说明X是Y的影响因素，但不是唯一因素。非线性相关关系
其特点是X、Y之间没有明显的线性关系，却存在着某种非线性关系，说明X仍是影响Y的因素。不相关
其特点是X、Y不存在相关关系，说明X不是影响Y的因素。

相关分析的应用
 相关分析
在影响某个变量的诸多变量中判断哪些是显著的，哪些是不显著的。在得到相关分析的结果后，可用于其他分析，如回归分析和因子分析。相关分析的表现方式

相关分析通过图形和数值两种方式，有效地揭示事物之间相关关系的强弱程度和性质。
 3.1 散点图

将数据点画在直角坐标系，观察散点图，直观的发现变量间的相关关系及强弱程度和方向。
1.打开或建立SAV数据文件。
2.用散点图初步观察两变量间有无相关趋势。依次单击菜单“Graphs - Chart Builder图表,图表构建器”打开图形构建器，选择做散点图（Scatter /Dot。
 相关系数
相关分析的主要目的：
研究变量之间关系的密切程度。根据样本的资料推断总体是否相关。变量间关系紧密程度的指标：
主要是相关系数r。相关系数r取值[-1 到 +1]。
数值愈接近-1或+1时，关系愈紧密;接近于0时，说明关系不紧密。样本的相关系数一般用r表示，总体的相关系数一般用p表示。

对于不同类型的变量，相关系数的计算公式不同。
在相关分析中，常用的相关系数： Pearson简单相关系数：对定距连续变量的数据进行计算。如测度收入和储蓄，身高和体重。 Spearman等级相关系数：用于度量定序变量间的线性相关关系。如军队教员的军衔与职称。 Kendall秩相关系数：用非参数检验方法来度量定序变量间的线性相关关系。计算基于数据的秩。

利用相关系数进行变量间线性关系的分析，通常需要完成以下两个步骤：
第一、计算样本相关系数r； r的取值在-1～+1 之间
 r>0表示两变量存在正的线性相关关系；r<0表示两变量存在负的线性相关关系
 r＝1表示两变量存在完全正相关；r＝-1表示两变量存在完全负相关；r＝0表示两变量不相关
 |r|>0.8表示两变量有较强的线性关系；|r|<0.3表示两变量之间的线性关系较弱
第二、对样本来自的两总体是否存在显著的线性关系进行推断。
3.3.1 Pearson(简单相关系数适用于两个变量都是数值型的数据。
r0.3微弱相关、0.3r0.5低度相关0.5r0.8显著相关、0.8r1高度相关当r0时，表示x与y为正相关当r0时，表示x与y为负相关当r0时，表示x与y不相关3.3.2Spearman等级相关系数
用来度量定序变量间的相关关系。
• 设计思想与Pearson简单相关系数相同。
其数据为非定距的，故不直接采用原始数据计算，而是利用数据的秩，用两变量的秩代替代入Pearson相关系数计算公式，于是其中的和的取值范围被限制在1和n之间。
• 如果两变量的正相关性较强，它们秩的变化具有同步性，于是的值较小，θ趋向于1；
• 如果两变量的正相关性较弱，它们秩的变化不具有同步性，于是的值较大，θ 趋向于 0；
小样本，在零假设成立时，Spearman等级相关系数服从Spearman分布；大样本， Spearman等级相关系数的检验统计量，为Z统计量，定义为：

1.3.3 Kendall 秩相关系数
如果排列双方的排名是完美的（即，两个排名是相同的），系数的价值1。如果两排列之间的分歧排名是完美的（即，一个排名是扭转其他），系数价值-1。对于τ介于-1和1之间的排列，增加值意味着增加之间的排列的排名。如果排名是完全独立的，该系数已值为0的平均水平。

相关系数的缺点: 一个明显的缺点：相关系数接近于1的程度与数据组数n相关，这易给人一种假象。当n较小时，相关系数的波动较大，对有些样本相关系数的绝对值易接近于1；当n较大时，相关系数的绝对值容易偏小。特别，当