第1章 绪论
1、统计学是以现象的数量特征为研究对象,利用自身特有方法,发现现象应有规律的一门方法论科学。
2、总体和总体单位
(1)总体:指具有相同性质的一组个体组成的集合。即根据一定目的确定的所要研究事物的全体。
(2)总体单位:简称单位,是组成总体的各个个体。它是构成总体的基础。
3、样本和样本单位
样本:从总体中获得的一个群或组。从总体中抽取出来,作为代表这一总体的部分单位组成的集合体。
4、标志和标志表现
(1)标志:用来描述总体单位的属性、特征的概念和数值。
(2)标志表现:各单位的属性或特征的具体表现
(3)标志的分类:
按表现形式分:①品质标志
②数量标志
按有无差异分:①不变标志
②可变标志
(可变的数量标志称为变量)
5、指标:是用于说明统计总体或样本数量特征的名称和数值的总和。
6、统计调查方法
(1)普查
(2)重点调查
(3)典型调查
(4)抽样调查
7、统计分组
(1)统计分组的原则:穷尽原则互斥原则
(2)统计分组分类
品质标志分组:属性分布数列
统计分组 单项数列
数量标志分组:变量分布数列 等距数列
组距数列
异距数列
(3)统计分组形成次数分布数列,次数分布数列有两个组成要素:组别频数(频率累计频数(向上累计、向下累计))
(4)几个基本概念
①组距②上限③下限④组中值次数密度(指本组的次数与本组组距之比,异距数列中用到)
第2章 描述统计
1、集中趋势
(1)集中趋势是指一组数据向分布的中心集中的现象。描述集中趋势的实质是找出数据的集中点或中心值。
(2)数据分布集中趋势的测度指标称为平均指标。
算术平均数
调和平均数 数值平均数(特点:受极端值影响)
常见的平均指标 几何平均数
中位数 位置平均数(特点:不受极端值影响)
众数
(3)计算公式
(、、都有简单和加权两种算法,分别适用于未分组和已分组的数据)
①算术平均数:、 二者的实质一样的,已知条件不同,
导致的算法不同而已
其中二者的关系:
②调和平均数:、
(调和平均数因变量值在分母上,因此又称倒数平均数,要求变量值不能为0)
③几何平均数:、
(几何平均数因算法为变量值的连乘积,故如果有一变量值为0,则计算结果为0)
(常见的应用几何平均数的例子:连续作业的流水线、存贷款的复利算法、产值等的连续增长)
④中位数:总体各变量值按大小顺序排列,处于中点位置的变量值就是中位数。
单项式数列:中位数位置
组距数列:中位数位置
中位数计算公式(下限公式)
众数:总体中出现次数最多的数。
单项式数列:直接确定众数
组距数列:先确定众数位置,然后计算众数(下限公式)
(4)中位数、众数和算术平均数的关系:
2、离散程度
(1)除数据的集中趋势之外,数据的离散趋势 是数据分布的一个重要特征,它所反映的是各个变量值远离中心的程度,也称为离中趋势。
(2)描述数据离散程度的指标主要有:
全距
平均差 二者的基本思想一致,只是计算时对负号的数学处理方法有异,应用更广泛
标准差
方差
变异系数
(3)计算公式
①全距=最大值-最小值
②平均差:、
③标准差:、、、(是非标志的标准差)
④方差:、、
⑤方差的加法定理:总方差、组间方差、平均组内方差。三者关系
变异系数:
(反应平均值代表性大小用变异系数;变异系数消除了原单位的影响。)
3、相对位置测度及异常值检测
(1)z分数:通常被称为标准化值,表示观察值偏离平均数的标准差个数。
(2)切贝谢夫定理:在任意一组数据中,至少有个数据落在与平均数倍标准差范围内,是大于1的任意数。
第3章 时间序列分析
1、时间序列是社会经济指标的数值按时间顺序排列而形成的一种数列。
2、时间序列的种类
时期序列
绝对数时间序列
时点序列
时间序列 相对数时间序列
平均数时间序列
3、时间序列的指标分析法
环比发展速度
发展速度
定基发展速度
环比增长速度
(2)速度指标 增长速度
定基增长速度
增长1%的绝对值
几何平均法:参考第2章几何平均数G
平均发展速度
高次方程法:用于存量指标平均发展速度的计算
(年距发展速度:本期发展水平与去年同期发展水平之比)
平均增长速度
时期序列:
未分组:
绝对数 连续
已分组:
平均发展水平 时点序列
间隔相等:
(1)水平指标
不连续
间隔不等:
相对数:(三种情况)
逐期增长量
增长量 累积增长量等于各期逐期增长量之和
累积增长量
年距增长量:报告期某月发展水平与上年同月发展水平之差。
4、长期趋势分析
(1)时间序列的因素可以归纳为长期趋势、季节变动、循环变动和不规则变动四种。
(2)长期趋势是指时间序列在长期发展变化过程中朝着一定的方向持续上升或下降的变动趋势,它是构成时间序列的主要因素。
(3)长期趋势测定
时距扩大法:时距扩大法是把时间序列中各期指标数值按较长的时距加以归并,形成一个新的简化了的时间序列,从而呈现出现象的长期趋势。适合于时期序列而不适合于时点序列。
修匀法 序时平均法:先将原时间序列的时距扩大,然后计算扩大时间序列的平均发展水平,借以消除现象在短期内的波动,以便显示现象的长期趋势。既适合于时期序列,又适合于时点序列
移动平均法:对原时间序列按一定时间跨度逐项移动,并计算一系列的序时平均数,形成一个新的时间序列,以消除短期的、偶然因素所引起的波动,以便显现出现象的长期趋势。
移动平均的项数为奇数时,一次移动平均就可以;移动平均的项数为偶数时,需要进行二次移动平均。
原始公式:,
趋势方程法:根据时间序列的发展趋势类型,运用数学方法拟合一个合适的方程式,
然后依据此方程式求趋势值以分析长期趋势的方法。
最小二乘法进行直线趋势外推 简洁公式:,
5、季节变动分析
(1)同期平均法:通过计算时间序列各年同季(月)的平均数与总平均数,然后用两者对比求出季节指数的一种方法,适用于没有明显趋势变动,而只受季节变动和不规则变动影响的时间序列。
(2)移动平均剔除法:通过计算移动平均数,然后由原序列与移动平均序列对比来计算季节指数的方法。
第4章 指数分析
1、指数的概念
(1)广义的指数是指一切可以说明社会经济现象变动或差异程度的相对数。
(2)狭义的指数是指不能直接相加的、有许多因素组成的、表示现象总体综合变动程度的相对数。
2、指数的分类
数量指标指数:是反映现象的总规模、水平或工作总量的相对数。(数量指标常用q来表示)
质量指标指数:是指反映现象相对水平或平均水平的变动的相对数。(质量指标常用p来表示)
定基指数:在一个指数数列中,如果各期指数以某一固定时期作为基期,则称为定基指数。
环比指数:在一个指数数列中,如果各期指数以它前一期作为基期,则称为环比指数。
个体指数:说明单个事物或现象在不同时期的变动程度的指数。(个体指数符号上面不加-,如、、)
总指数:说明多种事物或现象在不同时期的综合变动程度的指数。(总指数符号上面加-,如、、)
综合指数:将不可同度量的诸经济变量通过同度量因素而转换成可以相加的总量指标,然后以总量指标对比所得到的相对数,其主要特点是先综合后对比。
平均数指数:利用个体或类指数,通过加权算术平均或加权调和平均的方法计算的相对数。
3、综合指数的编制
(1)同度量因素和指数化因素
同度量因素是指在总指数计算时,为了解决总体的构成单位及数量特征不能直接加总(即不能同度量)的问题,而使用的一个媒介因素或转换因素。
指数化因素是反映指数所要反映、研究的总体在某一方面的数量特征的因素。
(2)拉氏指数和帕氏指数
①拉氏指数是将同度量因素固定在基期水平上,所以又称为基期加权综合指数。
②帕氏指数是将同度量因素固定在报告期(计算期)水平上,所以又称为计算期加权综合指数。
(理想指数是对拉氏指数和帕氏指数直接进行平均型交叉的结果。
马埃指数为了避免拉氏指数和帕氏指数的偏误,选择了基期和报告期同度量因素的平均值来计算指数。)
(3)计算公式
数量指标指数(同度量因素为p,固定在基期)
质量指标指数(同度量因素为q,固定在报告期)
4、平均数指数的编制
(1)平均数指数是对个体指数的加权平均,有两种表现形式:一种是加权算术平均数指数,另一种是加权调和平均数指数。
(2)计算公式
加权算术平均数指数(总结:已知基期总量指标和个体指数,可以运用加权算术平均数指数计算)
加权调和平均数指数(总结:已知报告期总量指标和个体指数,可以运用加权调和平均数指数计算)
5、平均指标指数的编制
(1)平均指标指数是从总体的两个总平均水平的对比中求得反映其变动程度和方向的相对数。
(2)平均指标指数有3种形式:可变构成指数、固定结构指数和结构影响指数。
可变构成指数反映了结构的变化以及组平均数的变化对总平均数变动的影响。
结构影响指数单纯反映了结构的变化对总平均数变动的影响。
固定结构指数单纯反映了组平均数的变化对总平均数变动的影响。
6、总量指标变动的因素分析
三种指数的乘积关系:即
(1)两因素分析
绝对量的加总关系:
即:销售额的变动=销售量变动引起的销售额的变动额+价格变动引起的销售额的变动额
(2)多因素分析(暂略)
7、平均指标变动的多因素分析
三种指数的乘积关系:即
绝对量的加总关系:
第5章 抽样和抽样分布
1、几个基本概念
(1)总体和样本
(2)总体参数和样本统计量
总体参数:根据全及总体各单位变量值计算的反映全及总体某数量特征的综合指标,由于全及总体唯一确定,所以称为总体参数。
总体参数包括:总体容量,总体平均数,总体成数,总体标准差,总体方差。
样本统计量:根据样本总体各单位变量值计算的反映样本总体某数量特征的综合指标,由于样本不具唯一性,故称为样本统计量,它是一个随机变量。
样本统计量有:样本容量,样本平均数,样本成数,样本标准差,样本方差。
(3)大样本和小样本
样本容量小于30称为小样本,样本容量大于等于30称为大样本。
(4)重复抽样和不重复抽样
重复抽样的抽样安排是对每次被抽到的单位经登记后再放回总体,重新参与下一次抽选的抽样方法。
不重复抽样的抽样安排是对每次被抽到的单位经登记后不再放回总体的抽样方法。
(5)抽样的各种组织形式
简单随机抽样(或单纯随机抽样)是指从总体的说所有单位中按照随机原则抽取样本单位的方式,对于总体中的每个单位,被抽取的机会都是相等的。
先对总体进行分层,抽样在每一层中独立进行,如果每层中的抽样都是按简单随机抽样进行,那么这种抽样就称为分层随机抽样。
将总体划分为若干群,然后以群为单位从中按简单随机抽样方式或等距抽样方式抽取部分群,对中选群中的所有单位一一进行调查的抽样组织形式称为整群抽样。
等距抽样是先将总体各单位按某一标志顺序排列,然后按照固定的顺序和相同的间隔来抽取样本单位的抽样组织方式。
多阶段抽样是一种将抽取样本单位的过程划分为几个阶段,然后逐阶段抽取样本单位的抽样组织形式。
(6)随机变量
取值事先不能确定的变量称为随机变量。
离散型随机变量:只能取有限个或可数个值的随机变量,称为离散型随机变量。
连续型随机变量:可以取一个或多个区间中任何值的随机变量,称为连续型随机变量。
2、离散型随机变量
(1)离散型随机变量的表示方法
,其中且
(2)离散型随机变量的数学期望和方差
离散型随机变量有,用表示的数学期望。一个随机变量的数学期望是对该随机变量概率分布中心位置的度量,它反映了随机变量的平均取值。
随机变量的方差定义为一个随机变量取值与期望值的离差平方之期望值。设随机变量为,其方差记为。方差计算公式为或。
(3)常见的离散型随机变量
0-1分布(也称两点分布)
如果随机变量只可能取0和1两个值,它的概率分布为,,则称服从参数为的两点分布,也称0-1分布,。
0-1分布的数学期望为,方差为。
二项分布
在n次独立的试验中,(n重贝努里试验)出现“成功”的次数的概率为, 则称随机变量X服从参数的二项分布,记作。
二项分布的数学期望为,方差为。
3、连续型随机变量
(1)连续型随机变量的概率密度函数和分布函数
概率密度函数
设是一连续随机变量,它代表某一区间或多个区间中的任意数值,它的概率分布通过概率密度函数来表述,记作。连续型随机变量在给定区间内取值的概率对应的是概率密度函数曲线(或直线)在该区间上围成的面积。
概率密度函数满足以下两个条件:;。
连续型随机变量取个别值的概率为0,也就是说连续型随机变量在任一区间上取值的概率与是否包含区间端点无关,即。
分布函数
连续型随机变量的分布函数定义为。
分布函数具有以下两个基本性质:;是一个单调非减的函数。
。
(2)正态分布
如果随机变量的密度函数为,,则称为正态随机变量,或称服从参数为,的正态分布,记作。
正态分布曲线具有如下性质:曲线对称轴为;曲线与横轴所围面积为1。(其他性质略)
如果正态分布的随机变量具有均值为0,标准差为1的特征,则称该随机变量服从标准正态分布,记为。
任何一个服从一般正态分布的随机变量都可通过转换成标准正态分布,转换公式为,变换后。
4、三种分布
总体分布:总体中各元素(单位)的观察值所形成的频数分布,称为总体分布。
样本分布:从总体中抽取一个容量为n的样本,由这n个观察值形成的相对频数分布称为样本分布。
抽样分布:某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。
5、两个定理
中心极限定理:设是具有期望值为,方差为的任意总体,则样本平均数的抽样分布将随着的增大而趋于正态分布,分布形式(参数),这就是统计学中的中心极限定理。
大数定律:大数定律(或大数法则)是指如果随机变量总体存在着有限的平均数和方差,则对于充分大的抽样单位数n,可以以几乎趋近于1的概率,使抽样平均数与总体平均数的绝对离差的期望为任意小。
大数定律从理论上揭示了样本和总体之间的内在联系,即随着抽样单位数n的增加,抽样平均数呈现出接近总体平均数的趋势。
6、抽样分布
(1)单个总体的抽样分布
有限总体(均值为,方差为):
重复抽样
无限总体(均值为,方差为):
大样本
有限总体(均值为,方差为):
不重复抽样
样本均值的抽样分布 无限总体(均值为,方差为):
正态总体方差已知():
小样本 正态总体方差未知(总体均值为):
其他情况:分布未知
重复抽样:
样本比例抽样分布(大样本)
不重复抽样:
样本方差抽样分布(正态总体,重复抽样):
(2)两个总体的抽样分布
两个样本均值之差的抽样分布(,):
两个样本比例之差的抽样分布:
两个样本方差之比的抽样分布:
第6章 总体参数估计
1、点估计
用样本估计量的值直接作为总体参数的估计值,称作参数的点估计。
点估计具有无偏性、一致性和有效性三个性质。
(1)无偏性
如果样本统计量的数学期望等于所估计的总体参数的值,则称该样本统计量为总体参数的无偏估计量。
(注意:总体标准差的无偏估计量为,注意计算时的分母为)
(2)有效性
一个样本可能同时给出同一总体参数的两个或两个以上的不同的无偏估计量,其中方差(或标准差)更小的估计量是更有效的估计量。
(3)一致性
如果样本容量更大时,点估计量的值更接近于总体参数,则该估计量是总体参数的一致估计量。
2、区间估计的要素
(1)三种误差
抽样(实际)误差
抽样实际误差是指某一次抽样结果所得到的样本指标数值与总体指标数值之差。
抽样平均误差
抽样平均误差是指所有可能出现的样本指标的标准差,也可以理解为所有样本指标和总体指标的平均离差。抽样平均误差也就是抽样分布中的标准差,例如大样本情况下总体均值抽样平均误差为。
极限误差
抽样极限误差就是指抽样指标和总体指标之间抽样误差的可能范围。例如总体均值的抽样极限误差表示为,抽样极限误差一般表示为多少倍的抽样平均误差,即,式中称为临界值,临界值对应着相应的置信水平。
(2)置信水平
如果我们将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比率,称为置信水平。置信水平表示为。常见的置信水平有90%、95%、95.45%,对应的临界值分别为1.645、1.96、2。
(3)置信区间、置信上限、置信下限
由样本统计量构造的总体参数估计区间,称为置信区间。
其中区间的最小值称为置信下限,最大值称为置信上限。
(4)综上,根据样本均值构造的总体均值的置信水平为的置信区间上下限为:,即置信区间为。可以表述为我们有的把握保证我们构造的区间包含总体均值。
3、单个总体参数的区间估计
方差未知:
大样本
方差已知:
(1)总体均值估计
正态总体方差已知:
小样 正态总体方差未知:
其他情况:×
(2)总体成数估计(大样本)
(3)总体方差估计(正态总体)
4、两个总体的区间估计
(1)总体均值()之差的区间估计
方差未知:
大样本
方差已知:
独立样本
正态总体方差已知:
小样本 方差相等:,其中为总体方差的合并估计量
正态总体方差未知 :
方差不等
:,其中自由度
大样本:
匹配样本
小样本:
(2)总体比例之差()的区间估计:
(3)总体方差之比()的区间估计:,其中
5、样本容量的确定
(1)估计总体均值时:
单个总体
(2)估计总体比例时:
(3)估计均值之差时,公式是由倒推出来的,其中极限误差E为给定的
两个总体
(4)估计比例之差时:,公式是由倒推出来的,其中极限误差E为给定的
第7章 假设检验
1、假设检验的基本思想
(1)假设检验
先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,称为假设检验。
(2)原假设和备择假设
原假设H0
通常将研究者想收集证据予以反对的假设称为原假设,或零假设,用H0表示。原假设总是有符号、或。
备择假设H1
通常将研究者想收集证据予以支持的假设称为备择假设,或研究假设,用H1表示。上面含有三种符号的原假设对应的备择假设分别含有符号、或。
(3)双侧检验和单侧检验
双侧检验
备择假设没有特定的方向性,并含有“≠”的假设检验称为双侧检验(或双尾检验)。
单侧检验
备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验(或单尾检验)。备择假设中含有“>”的为右侧检验,备择假设中含有“<”为左侧检验。
(4)两类错误与显著性水平
弃真错误
当原假设为真时拒绝原假设,所犯的错误称为第Ⅰ类错误,又称弃真错误,犯此类错误的概率常用表示。
取伪错误
当原假设为假时没有拒绝原假设,所犯的错误为第Ⅱ类错误,又称为取伪错误(或纳伪错误),犯此类错误的概率常用表示。
显著性水平
假设检验中犯第Ⅰ类错误的概率,称为显著性水平,记为。
(5)检验统计量
根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量,称为检验统计量。检验统计量实际为总体参数的点估计量,例如单个总体大样本情况下,总体均值的检验统计量为,标准化检验统计量为。根据第5章的抽样分布,有,即。
(6)临界值与拒绝域
能够拒绝原假设的检验统计量的所有可能取值的集合,称为拒绝域。
根据给定的显著性水平确定的拒绝域的边界值称为临界值。
(7)假设检验的步骤
第一步:提出原假设和备择假设;
第二步:计算检验统计量的值;
第三步:根据显著性水平查表,得出临界值和拒绝域。
第四步:得出结论。
2、单个总体的假设检验
总体方差未知:检验统计量
大样本
(1)总体均值的假设检验 总体方差已知: 检验统计量
正态总体方差已知:
小样本
正态总体方差未知:
(2)总体成数的假设检验(大样本):检验统计量
(3)总体方差的假设检验(正态总体):检验统计量
双尾检验H0:,H1: 拒绝域及
左侧检验H0:,H1: 拒绝域
右侧检验H0:,H1: 拒绝域
3、两个总体的假设检验
(1)均值之差的假设检验
方差未知:
大样本
方差已知:
独立样本 正态总体方差已知:
小样本 方差相等,其中
正态总体方差未知 :
方差不等
:,其中自由度
大样本
匹配样本
小样本
(2)比例之差的假设检验
H0: ,其中
H0:
(3)方差之比的假设检验
双侧检验H0:,H1: 拒绝域及
左侧检验H0:,H1: 拒绝域
右侧检验H0:,H1: 拒绝域
第8章 相关和回归分析
1、基本概念
(1)相关关系
变量之间存在的不确定性数量关系,称为相关关系。
(2)相关系数
根据样本数据计算的对两个变量之间线性关系强度的度量值,称为相关系数。
2、符号和计算
(1)样本相关系数r
简化的计算公式为
r的取值范围-1≤r≤1。
0<r≤1,——正线性相关关系;
-1≤r<0,——负线性相关关系;
r=1,——完全正线性相关关系;
r=-1,——完全负线性相关关系;
r=0,说明y的取值与x无关,即二者之间不存在线性相关关系。
(2)相关系数的检验
第一步:提出原假设和备择假设 H0: H1:
第二步:计算检验统计量
第三步:进行决策。(拒绝域为)
(3)一元线性回归方程的参数估计(最小二乘法)
一元线性回归方程为,其中参数,。
(4)一元线性回归直线的拟合优度分析
方差分析
即:总离差平方和=回归离差平方和+残差平方和
即: SST=SSR+SSE 相关系数
估计标准误差
估计标准误差是指实际值与估计值的平均离差,说明回归方程推算结果的准确程度,其计算公式为,简化公式为。
¥29.8
¥9.9
¥59.8