聪明文档网

聪明文档网

最新最全的文档下载
当前位置: 首页> 统计学

统计学

时间:    下载该word文档
中国地质大学(武汉远程与继续教育学院
统计学 课程作业1(共4次作业)
学习层次:专科 涉及章节:第1章——第4
1.什么是总体和样本?举例说明。
答:总体是包含所研究的全部个体的集合,通常由具有某种共同性质的许多个体组成。样本是从总体抽取的一部分元素的集合。
如:要检验一批灯泡的使用寿命,这一批灯泡构成的集合就是总体,从这批灯泡中随机抽取100个,这100个灯泡就构成一个样本。 2.什么是变量,其类型有哪些?
答:变量是能够说明现象某种特征的概念,通常按照变量的计量尺度分为,分类变量、顺序变量、数值型变量。 3.统计数据可分为哪几种类型?

答:从不同角度统计数据可以分为不同的类型,按照计量尺度不同,分为分类数据、顺序数据、和数值型数据;按照收集方法不同,分为观测数据和实验数据;按照被描述对象与时间的关系,分为截面数据和时间序列数据。 4.数据收集有哪些基本方法?
答:主要有两条渠道:一是数据的间接来源即二手资料;一是直接来源,通过调查或实验获取数据的方法,具体有:自填式、面访式、电话式、观察式等。 概率抽样与非概率抽样的区别有哪些?
答:概率抽样即随机抽样,其优点是可以依据调查结果计算估计量误差,从而得到对总体目标进行推断的可靠程度,适合于统计分析;而非概率抽样则是根据研究目的对数据的要求,采用某种方式从总体抽取部分单位进行调查,其优点是操作简便,时效快,成本低,适合于探索性研究。 5.什么是抽样误差?它的大小与哪些因素有关?
答:抽样误差是由抽样的随机性带来的误差。其影响因素主要有样本容量和总体方差,与前者成反比,与后者成正比。 6.直方图与条形图有何区别?
答:表现在:条形图是用条形的长度表示数据的频数,而宽度是固定的;直方图则是用面积来表示各组频数的多少,宽度表示的是各组的组距,高度表示的是每1

一组的频数或频率。此外,直方图是连续的,而条形图是分开排列的。最后,条形图主要用于分类数据,而直方图用于数值型数据。
7.统计表由哪几个主要部分组成?制作统计表应注意哪几个问题?
答:包括:表头、行标题、列标题和数字资料,此外必要时还有表外附加。在编制统计表时要注意:一般表中的上下两条横线用粗线,中间的其他线用细线,且,左右两边不封口,列标题用竖线分开,而行标题通常不必要。
8.解:(1)“学生考试成绩”为连续变量,需采组距式分组,同时学生考试成绩变动均匀,故可用等距式分组来编制频数分布表。

考试成绩 60分以下 6070 7080 8090 90100 合计
学生人数(人) 3 6 15 12 4 40 比率(% 7.5 15.0 37.5 30.0 10.0 100.0 2)分组方法为简单分组;从频数分布表中可看出,该班同学不及格人数和优秀生的人数都较少,分别为7.5%10%。大部分同学成绩集中在7090分之间,说明该班同学成绩总体良好。

9.解:关于某百货公司连续40天的商品销售额频数分布表
销售额 万元 2530 3035 3540 4045 4550 合计 16 14 12 10 8
6
2

频数 (天) 4 6 15 9 6 40 频率 % 10 15 37.5 22.5 15 100.0 以下 4 10 25 34 40
累积频数
以上 40 36 30 15 6
以下 10 25 62.5 85 100
累积频率
以上 100 90 75 37.5 15
组中值 万元 27.5 32.5 37.5 42.5 47.5

4 2
25 30 35 40 45 50
10. 1)排序略。
2)频数分布表如下:
100只灯泡使用寿命非频数分布
按使用寿命分组(小时) 灯泡个数(只) 频率(%
650~660 660~670 670~680 680~690 690~700 700~710 710~720 720~730 730~740 740~750 合计
直方图(略)。

3)茎叶图如下:
65 1 8 66 1 4 5 6 8 67 1 3 4 6 7 9 68 1 1 2 3 3 3 4 5 5 5 8 8 9 9 69 0 0 1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9 9 70 0 0 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 9 71 0 0 2 2 3 3 5 6 7 7 8 8 9 72 0 1 2 2 5 6 7 8 9 9 73 3 5 6 74 1 4 7

11. 箱线图如下:(大家用手工画了以后与下图比较,特征请自己分析)
2 5 6 14 26 18 13 10 3 3 100 2 5 6 14 26 18 13 10 3 3 100 3

各城市相对湿度箱线图958575655545Min-Max3525%-75%北京长春南京郑州武汉广州成都昆明兰州西安Median value
1212.答: A根据切比雪夫定理,K=40-30/5=2则落在20-40之间的数据约有(1-2=075
类似地有:B089 C061
13.解:
(1样本均值为73.2,标准差S=13.71

(2z=108-732/1371=254,这是一个较高的分数,但它没有超过3,所以它不是异常值; (3z=87-732/1371=101,根据经验法则,有68%的得分落在+1-1倍标准差范围之内,所以有32%/2=16%的得分是87分或更高;
z=46-732/1371≈-2,根据经验法则,有95%的得分落在+2-2倍标准差范围之内,所以 5%/2=25%的得分是46分或更低;

14.解:
(1数据升序排列确定,最小值=608,第一个四分位数=1872,中位数=4019,第三个四分位=8305,最大值=14138
(2年平均销售额=5170.48,标准差=3823.28 (314138-5170.48/3823.28=2.35608-5170.48/3823.28= -1.19
均未超出 [-33]范围内,所以,该数据集的数据中未出现异常值,数据都在界限之内。

15.答:1)甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。

16.答:(1)离散系数,因为它消除了不同组数据水平高地的影响。
4.20.024172.1 2)成年组身高的离散系数: 2.3vs0.03271.3 幼儿组身高的离散系数:
vs
由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。

4


中国地质大学(武汉远程与继续教育学院
统计学 课程作业2(共4次作业)
学习层次:专科 涉及章节:第5章——第6
1、一个具有n64个观察值的随机样本抽自于均值等于20、标准差等于16的总体。
给出x的抽样分布(重复抽样)的均值和标准差
描述x的抽样分布的形状。你的回答依赖于样本容量吗? ⑶计算标准正态z统计量对应于x23的值。 答:⑴ 均值为20,标准差为2
近似正态;根据中心极限定理,由于样本容量64大于30,故此近似正态分布。 z统计量=1.50

2、一个具有n900个观察值的随机样本选自于10010的总体。
你预计x的最大值和最小值是什么? 你认为x至多偏离多么远? 答:⑴ 101, 99 ;⑵ 1

3、技术人员对奶粉装袋过程进行了质量检验。每袋的平均重量标准为406克、标准差10.1克。监控这一过程的技术人者每天随机地抽取36袋,并对每袋重量进行测量。现考虑这36袋奶粉所组成样本的平均重量x描述x的抽样分布,并给出xx的值,以及概率分布的形状;
答:由于样本容量大于30故抽样分布近似正态分布,其均值为406, 标准差为1.68, 概率分布形状为正态分布;

4、从一个标准差为5的总体中抽出一个容量为40的样本,样本均值为25
1 样本均值的抽样标准差x等于多少? 2 95%的置信水平下,允许误差是多少?
答:(1x0.79 2E=1.55 5某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。
1)假定总体标准差为15元,求样本均值的抽样标准误差; 2)在95%的置信水平下,求允许误差;
3)如果样本均值为120元,求总体均值95%的置信区间。 答:(1

6、在一项家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占23%。求总体比率的置信区间,置信水平分别为90%95%
答:(18.11%,27.89%);(17.17%,28.83%

5

x2.14;(2E=4.2;(3)(115.8,124.2)。

7某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(公里)分别是:
10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2 求:职工上班从家里到单位平均距离95%的置信区间。 答:(7.18,11.57

8、从两个正态总体中分别抽取两个独立的随机样本,它们的均值和方差如下表:
来自总体1的样本
来自总体2的样本
x125 s1216
x223
2s220
1 n1n2100,求1295%的置信区间;
222 n1n21012,求1295%的置信区间;
3 n1n21012,求1295%的置信区间; 答:(12±1.176;(22±3.986;(32±3.986

9、下表是由4对观察值组成的随机样本:
配对号 1 2 3 4 来自总体A的样本
2 5 10 8 来自总体B的样本
0 7 6 5 221 计算AB各对观察值之差,再利用得出的差值计算dsd
2 12分别为总体A和总体B的均值,构造d(1295%的置信区间。 答:(1d1.75sd2.63;(21.75±4.18

10、根据以往的生产数据,某种产品的废品率为2%。如果要求95%的置信区间,若要求允许误差不超过4%,应抽取多大的样本?

答:48

6


中国地质大学(武汉远程与继续教育学院
统计学 课程作业3(共4次作业)
学习层次:专科 涉及章节:第7章——第11
1一家大型超市连锁店上个月接到许多消费者投诉某种品牌炸土豆片中60克一袋的那种土豆片的重量不符。店方猜想引起这些投诉的原因是运输过程中沉积在食品袋底部的土豆片碎屑,但为了使顾客们对花钱买到的土豆片感到物有所值,店方仍然决定对来自于一家最大的供应商的下一批袋装炸土豆片的平均重量(克)进行检验,假设陈述如下:

如果有证据可以拒绝原假设,店方就拒收这批炸土豆片并向供应商提出投诉。
1)与这一假设检验问题相关联的第一类错误是什么?解:第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于60克,但检验结果却提供证据支持店方倾向于认为其重量少于60克;

2)与这一假设检验问题相关联的第二类错误是什么?解:第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品;

3)你认为连锁店的顾客们会将哪类错误看得较为严重?而供应商会将哪类错误看得较为严重?解:连锁店的顾客们自然看重第二类错误,而供应商更看重第一类错误。

2、某种纤维原有的平均强度不超过6克,现希望通过改进工艺来提高其平均强度。研究人员测得了100个关于新纤维的强度数据,发现其均值为6.35假定纤维强度的标准差仍保持1.19不变,在5%的显著性水平下对该问题进行假设检验。 (1 选择检验统计量并说明其抽样分布是什么样的?
s/n,在大样本情形下近似服从标准正态分布;
解:检验统计量

(2 检验的拒绝规则是什么?
解:如果zz0.05,就拒绝H0

(3 计算检验统计量的值,你的结论是什么?
解:检验统计量z2.94>1.645,所以应该拒绝H0 3一项调查显示,每天每个家庭看电视的平均时间为7.25个小时,假定该调查中包括了200个家庭,且样本标准差为平均每天2.5个小时。据报道,10年前每天每个家庭看电视的平均时间是6.70个小时,取显著性水平0.01,这个调查是否提供了证据支持你认为“如今每个家庭每天收看电视的平均时间增加了”?
解:z3.11>1.28,拒绝H0

4、一个著名的医生声称有75%的女性所穿鞋子过小。一个研究组织对356名女性进行了研究,发现其中有313名妇女所穿鞋子的号码至少小一号。取0.01,检验如下的假设:
H0:0.75 H1:0.75
7

zx
对这个医生的论断你有什么看法? 解:z7.48>2.58,拒绝H0

5、从三个总体中各抽取容量不同的样本数据,得到如下资料。检验3个总体的均值之间是否有显著差异?(0.01)(专科不要求)
样本1 158 148 161 154 169 差异源 组间 组内
SS 618.9167
598
df 样本2 153 142 156 149
MS 2 309.4583 9 66.44444

样本3 169 158 180
解:按照方差分析步骤,先做出假设,再用EXCEL计算统计量,有:
F
P-value
F crit 8.02151731
4.6574 0.040877

总计


1216.917 11











Pvalue0.04090.01,不能拒绝原假设。

6、某家电制造公司准备购进一批5#电池,现有ABC三个电池生产企业愿意供货,为比较它们生产的电池质量,从每个企业各随机抽取5只电池,经试验得其寿命(小时)数据如下:
试验号 1 2 3 4 5 电池生产企业
A 50 50 43 40 39 B 32 28 30 34 26 C 45 42 38 48 40 F4.6574F0.018.0215
试分析三个企业生产的电池的平均寿命之间有无显著差异?(0.05)如果有差异,LSD方法检验哪些企业之间有差异(专科不要求)? 解:用EXCEL计算后有: SUMMARY

A B C

差异源 组间 组内
SS 615.6 216.4
df
2
MS 12 18.03333

8

观测数
5 5 5
求和
222 150 213
平均
44.4 30 42.6
方差
28.3 10 15.8 F
P-value
F crit
307.8 17.06839 0.00031 3.885294




总计


832 14









F17.0684F0.053.8853
Pvalue0.00030.05,拒绝原假设。

经过多重比较,
xAxB44.43014.4LSD5.85,拒绝原假设;
xAxC44.442.61.8LSD5.85,不能拒绝原假设; xBxC3042.612.6LSD5.85,拒绝原假设。

7、表中是道琼斯工业指数(DJIA)和标准普尔500种股票指数(S&P5001988年至1997年对应股票的收益率资料:
年份 1988 1989 1990 1991 1992 DJIA收益率(% S&P500收益率% 年份
16.0 31.7 0.4 23.9 7.4 16.6 31.5 3.2 30.0 7.6 1993 1994 1995 1996 1997 DJIA收益率(%
16.8 4.9 36.4 28.6 24.9 S&P500收益率%
10.1 1.3 37.6 23.0 33.4 计算两种指数收益率的相关系数,分析其相关程度,并以0.05的显著性水平检验相关系数的显著性。
解:(1)利用Excel计算结果可知,相关系数为 rXY0.948138,说明相关程度较高。 2)计算t统计量
trn20.9481381022.6817398.437
1r210.94813820.317859 给定显著性水平=0.05,查t分布表得自由度n-2=10-2=8的临界值t22.306 显然tt2,表明相关系数 r 在统计上是显著的。

8、在计算一元线性回归方程时,已得到以下结果:

试根据此结果,填写下表的空格:
来自回归
平方和
2179.56 自由度
1 方差
2179.56
9


来自残差 总离差平方和
99.11 2278.67 22 22 4.505
9某县城研究居民月家庭人均生活费支出和月家庭收入的相关关系,随机抽查10户进行调查,其结果如下:
月人均生活费 (元) 月人均收入 (元)
85 100 88 110 90 120 94 130 96 140 100 150 106 160 118 170 120 180 124 190 利用上表资料,要求:(1)绘制散点图。(2)计算相关系数。(3)估计当月人均收入为200时,其人均生活费应为多少?(4)求估计标准差,当概率为95.45%x200时的y的估计区间。
解:1)绘制散点图如下:
月人均生活费(元)
13012512011511010510095908580100110120130140150160170180190200月人均收入
序号
1 2 3 4 5 6 7 8 9 10
月人均收入x 100 110 120 130 140 150 160 170 180 190 2)为计算相关系数,先编制一张相关系数计算表如下:
2)相关系数计算表
月人均生活费y 85 88 90 94 96 100 106 118 120 124 10 xy 8500 9680 10800 12220 13440 15000 16960 20060 21600 23560 x 10000 12100 14400 16900 19600 22500 25600 28900 32400 36100 2y 7225 7744 8100 8836 9216 10000 11236 13924 14400 15376 2
合计
因此,相关系数为:
1450 1021 151820 218500 106057 r

nxyxynx2(x2ny2(y2101518201450102122102185001450101060571021377500.9768250018129


3)设月人均消费支出y关于月人均收入x的直线回归方程为根据最小平方法,有
ˆabx
y

banxyxy377500.46
nx2(x282500ybx10210.46145035.75
n10



所以直线回归方程为ˆ35.750.46x
y月人均收入为200时,估计月人均生活费用为:





ˆ35.750.46200127.27( y4)估计标准差为





y2aybxy10605735.7510210.46151820Sy3.27
n2102x200时,y的估计区间为:
ˆtSy127.2723.27120.73~133.81(
y

225yy10x5xx10是存在相关关系的两个变量,并已算得如下数据:2y64b1.28。试求:(1)回归方程。(2)相关系数。(3)决定系数,并解释决定系数的意义。
解:(1aybx101.2853.6


回归方程为:y3.61.28x
ˆrb
2x251.280.8y64
11




223r0.80.6464%,表明y的变化中有64%x决定。
11、表中是1992年亚洲各国人均寿命(y)、按购买力平价计算的人均GDPx1)、成人识字率(x2)、一岁儿童疫苗接种率(x3)的数据 平均寿命 人均GDP 国家和地区 xy1100美元) (年) 1 日本 79 194 2 3 4 5 6 7 8 9 中国香港 韩国 新加坡 泰国 马来西亚 斯里兰卡 中国大陆 菲律宾
77 70 74 69 70 71 70 65 71 63 62 63 57 58 50 60 52 50 53 48 185 83 147 53 74 27 29 24 18 23 27 13 7 20 18 12 12 13 11 6 成人识字率x2%
99 90 97 92 94 80 89 80 90 95 95 84 89 81 36 55 50 37 38 27 41 一岁儿童疫苗接种率
x3%
99 79 83 90 86 90 88 94 92 96 85 92 90 74 81 36 90 69 37 73 85 10 朝鲜 11 蒙古 12 印度尼西亚 13 越南 14 缅甸 15 巴基斯坦 16 老挝 17 印度 18 孟加拉国 19 柬埔寨 20 尼泊尔 21 不丹
22 阿富汗 43 7 32 35 1)用多元回归的方法分析各国人均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系;
2)对所建立的回归模型进行检验。
(要求使用EXCEL或其他统计软件计算,专科不要求) 解:由Excel回归输出的结果可以看出: 方差分析


df SS MS F Significance F

3 1937.749 645.9162 58.20479 1.83316E-09 回归分析
18 199.7515 11.0973 残差 21 2137.5 总计



准误差 t Stat P-value Lower 95% Upper 95% CoefficientsIntercept 32.99309 3.1385951 0.51206 4.12E-09 26.39914416 39.58703275 X Variable 1 0.071619 0.0147554 .8538710 .000128 0.040619648 0.102617688 X Variable 2 0.168727 0.039956 4.2228110 .000512 0.084782234 0.252671203
12



X Variable 3 0.179042 0.048869 3.663731 0.001776 0.076372446 0.281711103 1)回归结果为
Yi32.993090.071619X2i0.168727X3i0.179042X3i
2)由Excel的计算结果已知:1,2,3,4对应的 t 统计量分别为10.512064.8538714.2228113.663731 ,其绝对值均大于临界值t0.025(2242.101,所以各个自变量都对Y明显影响。
F=58.20479, 大于临界值F0.05(41,2243.16,说明模型在整体上是显著的。 12欲研究不同收入人群对特定商品是否有相同的购买习惯,研究人员调查了四个不同收入人群的消费者527人,购买习惯分为三种情况,见表。要求:(1)提出假设;(2)计算卡方值;(3)以0.1的显著性水平进行检验。
项目 经常购买 不购买 有时购买
解:
1H01^低收入 25 69 36 较低收入 40 51 26 较高收入 47 74 19 高收入 46 57 37 234H11,2,3,4不完全相等
(f0fe2217.626
fe
23)显著性水平为0.1时,2(2*310.65,故拒绝原假设,即不同收入人群的购买情况不同。


13


中国地质大学(武汉远程与继续教育学院
统计学 课程作业4(共4次作业)
学习层次:专科 涉及章节:第12章——第13
1、某地区社会商品零售额19881992年期间(1987年为基期)每年平均增长10%19931997年期间每年平均增长8.2%19982003年期间每年平均增长6.8%2003年与1987年相比该地区社会商品零售额共增长多少?年平均增长速度是多少?若1997年社会商品零售额为30亿元,按此平均增长速度,2004年的社会商品零售额应为多少?

解:(1)以1987年为基期,2003年与1987年相比该地区社会商品零售额共增长:
555(110%(18.2%(16.8%13.318612.3186231.86%

2)年平均增长速度为
15(110%5(18.2%5(16.8%51=0.0833=8.33% 3 2004年的社会商品零售额应为
30(10.0833752.509(亿元)
2某地区国内生产总值在19911993年平均每年递增12%,1994--1997年平均每年递10%,1998--2000年平均每年递增8%。试计算:
1)该地区国内生产总值在这10年间的发展总速度和平均增长速度;
343(112%(110%(18%259.12%
解:发展总速度平均增长速度=
10259.12%19.9892%
2)若2000年的国内生产总值为500亿元,以后平均每年增长6%,到2002年可达多少? 解:500(16%561.8(亿元)
214570yyj142.54j14平均数(亿元)
3)若2002年的国内生产总值的计划任务为570亿元,一季度的季节比率为105%,2002年一季度的计划任务应为多少? 2002105%142.5149.625(亿元)
3、某县20002003年各季度鲜蛋销售量数据如下(单位:万公斤
年份 一季度 二季度 三季度 2000 13.1 13.9 2001 10.8 11.5 2002 14.6 17.5 2003 18.4 20.0 1)用移动平均法消除季节变动; 2)拟合线性模型测定长期趋势; 解:(1移动平均法消除季节变动计算表
14

四季度 8.6 11.0 18.2 18.0 7.9 9.7 16.0 16.9
年别 2000
2001
2002
2003


季别 一季度 二季度 三季度 四季度 一季度 二季度 三季度 四季度 一季度 二季度 三季度 四季度 一季度 二季度 三季度 四季度
鲜蛋销售量
13.1 13.9 7.9 8.6 10.8 11.5 9.7 11 14.6 17.5 16 18.2 18.4 20 16.9 18 四项移动平均值
10.875 10.3 9.7 10.15 10.75 11.7 13.2 14.775 16.575 17.525 18.15 18.375 18.325

移正平均值T
10.5875 10 9.925 10.45 11.225 12.45 13.9875 15.675 17.05 17.8375 18.2625 18.35

ˆ
2Tt8.69250.639853t
4、给出某市场上四种蔬菜的销售资料如下表:
西红柿
( 550 224 308 168 1250 560 250 320 170 1300 ( / 公斤 1.60 2.00 1.00 2.40 ──
1.80 1.90 0.90 3.00 ──
用拉氏公式编制四种蔬菜的销售量总指数和价格总指数; 再用帕氏公式编制四种蔬菜的销售量总指数和价格总指数;
.8解:1Lqq1p02124104.16% , Lpp1q02196107.73%
qp2039.2pq2039.20000qp2281p1q12281 2P11103.83% , P107.39% qp.8q0p12196p0q12124
5已知某地区1997年的农副产品收购总额为360亿元,1998年比上年的收购总额增长12%农副产品收购价格总指数为105% 。试考虑,1998年与1997年对比:
农民因交售农副产品共增加多少收入? 解:36012%43.2 农副产品收购量增加了百分之几?农民因此增加了多少收入?
解:112%105%106.67% , 3606.67%24.0

由于农副产品收购价格提高5%,农民又增加了多少收入?
解:360106.67%5%19.2
验证以上三方面的分析结论能否保持协调一致。
解:106.67%105%112% , 24.019.243.2
15


中国地质大学(武汉远程与继续教育学院
统计学 课程综合测试1 学习层次:专科 时间:90分钟

.判断题(每小题2分,共20分)
1.描述统计分析是推断统计分析的基础。
2.统计分布中变量的取值必须满足完备和互斥的要求。( 3.条形图与直方图均可用于分类数据的整理。 4.众数、中位数与平均数的使用与不同的分布形态无关。 5.离散趋势值越小,说明集中趋势值的代表性越好。
6.在抽样推断中,总体参数是确定的、唯一的,而样本估计量是一个随机变量。 7.假设检验中犯两类错误的机会相同。( 8.置信区间估计要比点估计更精确。
9.方差分析是对不同总体方差进行比较的分析方法。 10.相关系数值小于零时,回归系数也是小于零。(
.选择题(每小题1分,共20
1.指出下面的数据哪一个属于顺序数据(D
A.年龄 B.工资 C.汽车产量 D.员工对企业某项改革措施的态度(赞成、中立、反对) 2某研究部门准备在全市200万个家庭中抽取2000个家庭,并据此推断该城市所有职工家庭的年人均收入。这项研究的参数是(D
A.2000个家庭 B.200万个家庭 C.2000个家庭的人均收入 D.200万个家庭的人均收入 3.一项调查表明,在所抽取的1000个消费者中,他们每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。这里的样本是(A
A.1000个消费者 B.所有在网上购物的消费者 C.所有在网上购物的消费者的平均花费 D.1000个消费者的平均花费 4.一家公司的人力资源部主管需要研究公司雇员的饮食习惯,以便改善公司餐厅的现状。注意到,雇员的午饭要么从家里带来,要么在公司餐厅就餐,要么在外面的餐馆就餐。他收集数据的方法属于(D
A.访问调查 B.邮寄调查 C.个别深度访问 D.观察调查 5.下列不属于描述统计问题的是(A
A.根据样本信息对总体进行的推断 B.了解数据分布的特征 C.分析感兴趣的总体特征 D.利用图、表或其他数据汇总工具分析数据 6.某大学的一位研究人员希望估计该大学本科生平均每月的生活费支出。为此,他调查了200名学生,发现他们每月平均生活费支出是500元。该研究人员感兴趣的变量是( C A.该大学的所有学生人数 B.所有本科生月平均生活费支出
C.该大学所有本科生的月生活费支出 D.所调查的200名学生的平均月生活费支出 7.按各类别数据出现的频数多少排序后绘制的柱形图称为( C
A.条形图 B.饼图 C.帕累托图 D.对比条形图 8.将各有序类别或组的频数逐级累加起来得到的频数称为( B
16


A.频率 B.累积频数 C.比例 D.比率 9.为描述身高与体重之间是否有某种关系,适合采用的图形是( C
A.条形图 B.对比条形图 C.散点图 D.箱线图 10.下列关于众数的叙述,不正确的是( C
A.一组数据可能存在多个众数 B.众数主要适用于分类数据 C.一组数据的众数是唯一的 D.众数不受极端值的影响 11.n个变量值乘积的n次方根称为( D
A.众数 B.中位数 C.四分位数 D.几何平均数 12.一组数据的最大值与最小值之差称为( C
A.平均差 B.标准差 C.极差 D.四分位差
13.甲、乙两班同学参加了统计学期末考试,结果两班的平均成绩xx
,标准差,则统计学成绩离散程度较大的是( B
A.甲班 B.乙班 C.一样大 D.无法判断
14从含有N个元素的总体中,抽取n个元素作为样本,使得总体中每个元素都有相同的机会(概率)被抽中,这样的抽样方式称为( A
A.简单随机抽样 B.分层抽样 C.系统抽样 D.整群抽样 15在抽样之前先将总体的元素划分为若干类,然后从各个类中抽取一定数量的元素组成一个样本,这样的抽样方式称为( B
A.简单随机抽样 B.分层抽样 C.系统抽样 D.整群抽样 16.抽样分布是指( C
A.一个样本各观测值的分布 B.总体中各观测值的分布 C.样本统计量的分布 D.样本数量的分布 17.若边际误差E=3σ=40要估计总体均值μ95%的置信区间所需的样本容量为 A A.483 B.583 C.683 D.783 18.在对2000个消费者构成的随机样本调查中,64%的人说他们购买商品时主要考虑价格因素。对根据价格做出购买决定的消费者比例的区间进行估计,若置信水平由99%降到95%则区间的宽度会( B
A.变宽 B.变窄 C.可能变宽也可能变窄 D.不变 19.在假设检验中,当原假设错误时未拒绝原假设,所犯的错误称为( B A.第一类错误 B.第二类错误 C.弃真错误 D.取真错误
20.对一元线性回归方程y01x的线性关系进行显著性检验时,应建立的原假设为( A
A.回归系数10 B.回归系数10 C.回归系数10 D.回归系数10

.简答题(每题6分,共24分)

1、什么是中心极限定理?

答:要点:从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。

17


2、简述参数估计与假设检验的区别和联系。
答:要点:假设检验与参数估计是统计推断的两个组成部分,它们解决问题的途径是相关联的,都是基于数理统计理论的推断方法,都是基于利用样本信息来推断总体的性质。它们都是选取一个统计量,然后使这个统计量被某个区间包含的概率得到推断结论。因此,利用区间估计可以建立假设检验。
两者之间区别:第一,区间估计要求是以一定的置信度给出未知参数的所在范围;而假设检验是要求以一定的显著性水平来判定未知参数取已给定的值;第二,区间估计对未知参数几乎一无所知,而假设检验对未知参数有所了解。

3、方差分析的原理是怎样的?
答:要点:方差分析使用F统计量即组间方差与组内方差的比来作为检验多个总体均值是否相等的依据。其中,组间方差既包含系统误差,又包含随机误差;而组内方差只包含随机误差。因此,如果二者的比值接近1,说明没有系统误差即均值相等;反之则说明多个总体的均值有显著差异,也就是A因素对结果的影响是显著的。

4、回归分析与相关分析有何区别?
答:相关关系中,变量 x 与变量 y 处于平等的地位;而在回归分析中,变量 y 称为因变量,x 称为自变量;相关分析中所涉及的变量 x y 都是随机变量;而在回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量;相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制;相关系数是双向对称的,但回归系数是非对称的;相关系数可以反映回归效果的好坏,但不能反映回归直线的陡度。而回归系数反映了回归直线的陡度,但不能反映观测值与回归直线分散的情况。


四、计算题(每题分,共36

1. 某企业准备用3种方法组装一种新产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析,得到下面的方差分析表:
差异源 组间 组内 总计
SS 3836
df
29 MS 210
F
P-value 0.245946
F crit 3.354131

1 完成上面的方差分析表(每空2分,共12分) 2 若显著性水平为0.05检验3种方法组装的产品数量之间是否有显著差异8分)(要求写出假设及检验依据)
: 方差分析表中所缺的数值如下表:
差异源 组间 组内 总计
SS 420 3836 4256 df 2 27 29 MS 210 142.07
18

F 1.478
P-value 0.245946
F crit 3.354131

(Pvalue0.2459460.05,不能拒绝原假设。F1.478F0.053.554131即没有显著差异。

2. 对于某一元线性回归问题,已知 SSR = 36SSE = 4n = 18 ( 1 )计算判定系数R,并解释其意义。8分) ( 2 )计算估计标准误差se,并解释其意义。8分) 解:1R22SSR90%
SST表示回归离差平方和占总离差的90%,说明回归平方和能解释线性关系中绝大部分90%原因,说明自变量与因变量之间具有很强的线性关系。 2seSSE0.5 n2估计标准误差是对误差项标准差的估计,反映了用估计的回归方程预测因变量y时预测误差0.5,可以说明回归直线的拟合优度。

19


中国地质大学(武汉远程与继续教育学院
统计学 课程综合测试2 学习层次:专科 时间:90分钟

.判断题:(每题2分,共20分。
1.茎叶图主要用于顺序型数据的显示。 × 2.中位数不受数据极端值的影响。
3.方差分析中假定每个总体都服从正态分布。
4.标准分数只是将原始数据进行线性变换,没有改变该组数据分布的形状,也没有改变一个数据在该组数据中的位置,只是使该组数据的平均数为0,标准差为1 5.假设检验中要使αβ同时减少的唯一方法是减少样本容量。 ×
6.对一个正态总体进行抽样调查,不论样本容量大小如何,样本均值统计量总是服从正态分布的。
7.在参数估计中,样本比例p是非随机变量,而总体参数π通常是未知的随机变量。 × 8.对两个总体方差相等进行检验,在=0.01的显著性水平上拒绝了原假设,这表示原假设为真的概率小于0.01 ×
9.相关系数r的符号反映相关关系的方向,其绝对值的大小反映相关的密切程度。 10.抽样调查中,样本容量的大小取决于很多因素,在其他条件不变时,样本容量与边际误差成正比。 ×

.选择题(每小题1分,共20分)
1.为了估计某城市愿意乘坐公车上下班的人数比例,我们最有可能采用的数据搜集方法是 C
A.普查 B.公开发表的资料 C.随机抽样 D.实际观察
2.一项民意调查的目的是想确定年轻人愿意与其父母讨论的话题。调查结果表明:45%的年轻人愿意与其父母讨论家庭财务状况,38%的年轻人愿意与其父母讨论有关教育的话题,15%的年轻人愿意与其父母讨论爱情问题。该调查所收集的数据是( A A.分类数据 B.顺序数据 C.数值型数据 D.试验数据
3.一名学生为完成作业,在《统计年鉴》中找到了2008年城镇家庭的人均收入,这一数据属于( C )。
A.分类数据 B.顺序数据 C.截面数据 D.时间序列数据 4.下面的图形中最适于描述一组数据分布的图形是( C
A.条形图 B.茎叶图 C.直方图 D.饼图 5.直方图与条形图的区别之一是( A
A.直方图的各矩形通常是连续排列的,而条形图则是分开排列的 B.条形图的各矩形通常是连续排列的,而直方图则是分开排列的 C.直方图主要用于描述分类数据,条形图则主要用于描述数值型数据
20


D.直方图主要用于描述各类数据的多少,条形图则主要用于描述数据的分布 6.算数平均数具有的数学性质为( B ACxiMemin B(xixmin (xixmin DxiMemin
2
27.四分位差是( A
A.上四分位数减下四分位数的结果 B.下四分位数减上四分位数的结果 C.下四分位数加上四分位数的结果 D.下四分位数与上四分位数的中间值 8.变量值与其平均数的离差除以标准差后的值称为( A
A.标准分数 B.离散系数 C.方差 D.标准差 9.评价一个点估计量是否优良的标准有( A )。
A.无偏性、有效性、一致性 B.无偏性、一致性、准确性 C.准确性、有效性、及时性 D.准确性、及时性、完整性 10.点估计的缺点是( C )。
A.不能给出总体参数的准确估计 C.不能给出点估计值与总体参数真实值接近程度的度量 B.不能给出总体参数的有效估计 D.不能给出总体参数的准确区间 11.在假设检验中,“=”号总是放在( A )。
A.原假设上 B.备择假设上 C.都可以 D.有时放在原假设,有时放在备择假设 12.方差分析判断分类型自变量对数值型因变量的影响,是通过检验( A A.各总体的均值是否相等 B.各总体的方差是否相等 C.各样本的均值是否相等 D.各总体的方差是否相等 13.在方差分析中,检验统计量F是( B )。
A.组间平方和除以组内平方和 B.组间均方除以组内均方 C.组间平方和除以总平方和 D.组间均方除以总均方 14.在方差分析中,衡量同一水平下样本数据的误差称为( A
A.组内误差 B.组间误差 C.组内平方 D.组间平方 15.在方差分析中,假定每个总体的方差( A
A.相等 B.不相等 C.等于0 D.大于0 16.在假设检验中,显著性水平表示( A )。
A.原假设为真时被拒绝的概率 B.原假设为假时被接受的概率 C.原假设为真时被接受的概率 D.原假设为假时被拒绝的概率
17.在一次假设检验中当显著性水平α=0. 01H0被拒绝时,则用α=0. 05 A )。 A.一定会被拒绝 B.一定不会被拒绝 C.可能会被拒绝 D.需要重新检验 18.以下哪种情况适用t检验( C )。
A.非正态总体用小样本对总体均值检验 B.正态总体、方差已知的总体均值检验 C.正态总体、方差未知的总体均值检验 D.非正态总体用大样本的均值检验 19.如果相关系数│r│=1,则表明两个变量之间存在着( D )。 A.正相关 B.完全正相关
C.完全负相关 D.完全正相关或完全负相关
21


20.以下用来衡量回归方程拟合优度的是( C )。
A.相关系数 B.回归系数 C.判定系数 D.协方差

.问答题(每题12分,共24分)
1. 众数、中位数和平均数的特点及应用场合分别是怎样的?

解答:三者具有不同的特点。众数是一组数据分布的峰值,不受极端值的影响;其缺点是具有不唯一性。在数据量较多时使用才有意义,主要适用于分类数据。中位数的特点也是不受极端值的影响。当一组数据分布偏斜程度较大时,使用中位数是一个好的选择,主要适用于顺序数据。均值适用于数值型数据,使用最为广泛。但易受极端值影响。
当数值型数据接近对称分布时,3个代表值接近相等,选用均值更合适。但当分布较为偏斜时,应考虑选用众数或中位数,此时它们的代表性要优于均值。

2. 一家大型超市上个月接到许多消费者投诉某品牌的饼干,投诉规格为100g一袋的那种饼干重量不符。店方猜想引起这些投诉的原因是运输过程中压碎了饼干导致的,但为了使顾客感到物有所值,店方决定对该供应商的下一批饼干的平均重量进行检验,假设陈述如下: H0:μ100 H1:μ100 如果有证据可以拒绝原假设,店方就会拒收这批饼干并向供应商投诉。 1 与这一假设检验问题相关联的第一类错误什么?
解答:第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于60克,但检验结果却提供证据支持店方倾向于认为其重量少于60克;

2 与这一假设检验问题相关联的第二类错误什么?
解答:第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品;

3 你认为顾客会将哪类错误看得较严重?而供应商会将哪类错误看得较为严重? 解答:顾客们自然看重第二类错误,而供应商更看重第一类错误。

.计算题(要求写出计算公式、过程,结果保留两位小数,共36分)
1.某餐饮店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机样本,调查结果为:样本平均花费为12.6元,标准差为2.8元。试以95.45%的置信水平估计该快餐店顾客的总体平均花费数额的置信区间;φ2=0.954512分)

解:n49是大样本,由中心极限定理知,样本均值的极限分布为正态分布,故可用正态分布对总体均值进行区间估计。
已知:x12.6,S2.8 0.0455
则有: ZZ0.022752S22.80.4 2 平均误差=n722

边际误差Z2S220.40.8
nS2x
n据公式 xZ2代入数据,得该餐饮店顾客的总体平均花费数额95.45%的置信区间为(11.813.4

2.从某一行业中随机抽取5家企业,所得产品产量与生产费用的数据如下:
产品产量(台)xi 生产费用(万元)yi
40 130 50 140 50 145 70 150 80 156 要求:①利用最小二乘法求出产量与费用之间估计的回归方程;15分) ②计算判定系数R2,并说明含义。9分)
已知:(xixi1521080

(yiyi1525239.28 x58 y144.2
5 解:
xii15217900

yii1 1043 6
1xyi1ii42430
计算估计的回归方程:

nxyxy5424302907213060==0.567 12225179002905400nx(x0yn1xn144.2 0.567×58=111.314
估计的回归方程为:y=111.314+0.567x 计算判定系数:

R



212(xx2(yy20.567210800.884

392.8
23


中国地质大学(武汉远程与继续教育学院
统计学 课程综合测试3 学习层次:专科 时间:90分钟
.判断题(每题2分,共20分)
1.截面数据是指在相同或近似相同的时间点上收集的数据。 2.异众比率主要用于衡量众数对一组数据的代表程度。 3.统计数据的误差通常有抽样误差和非抽样误差两类。 4.直方图、茎叶图和箱线图都是反映原始数据分布的图形。 ×
5.统计量是用来描述样本特征的概括性数字度量,它是一个随机变量。 6.茎叶图比直方图反映的数据信息更全面。
7.根据经验法则,约有99%的数据在均值加减3个标准差的范围内。 × 8.右侧检验中,如果P值<α,则不能拒绝H0 × 9.估计的有效性就是指估计量的离散程度越小越好。 10.方差分析中假定各个总体的方差必须相同。

.选择题(每题1分,共20分)
1. 主要用于测度分类数据的集中趋势,同时也适用于其它类型数据的集中趋势描述的概括性度量是( A
A.众数 B.中位数 C. 四分位差 D.异众比率
2. 某寝室11名同学的英语成绩分别为7071767883868581909397,英语成绩的上四分位数为( C
A.86 B.74.75 C.90 D.97 3. 与直方图相比,茎叶图( B
A.没保留原始数据的信息 B.适于描述小批量数据的分布 C.不能用于描述大批量数据的分布 D.适于描述分类数据的分布 4经验法则表明,当一组数据对称分布时,在平均数加减1个标准差的范围之内大约有 A A.68%的数据 B.95%的数据 C.99%的数据 D.100%的数据
5.某班学生的年龄分布是右偏的,均值为22标准差为4.45如果采取重复抽样的方法从该班抽取容量为100的样本,则样本均值的抽样分布是( A A.正态分布,均值为22,标准差为0.445 B.分布形状未知,均值为22,标准差为4.45 C.正态分布,均值为22,标准差为4.45 D.分布形状未知,均值为22,标准差为0.445 6.假设总体比例为0.4,采用重复抽样的方法从此总体中抽取一个容量为100的简单随机样本,则样本比例的期望为( B
A.0.3 B.0.4 C.0.5 D.0.45 (n1s27. 对于来自正态总体的简单随机样本,统计量的抽样分布为( A
2
24


A.
2(n1 B.t(n1 C.F(1,n1 D.N0.1
28. XN(0, ,则服从自由度为n-1t 分布的随机变量是( A
A.nxnxn1x B.2 C. D.全不是 2sss9. =0.5的总体中,重复抽取一个容量为100的简单随机样本,p的标准差为 C A.0.5 B.0.25 C.0.05 D.5 10.一个估计量的一致性是指( C
A.该估计量的数学期望等于被估计的总体参数 B.该估计量的方差比其他估计量小
C.随着样本容量的增大,该估计量的值越来越接近被估计的总体参数 D.该估计量的方差比其他估计量大
11.在总体均值和总体比例的区间估计中,边际误差由( C
A.置信水平确定 B.统计量的抽样标准差确定 C.置信水平和统计量的抽样标准差确定 D.统计量的抽样方差确定 12.在置信水平不变的条件下,要缩小置信区间,则( A A.需要增加样本容量 B.需要减少样本容量
C.需要保持样本容量不变 D.需要改变统计量的抽样标准差 13在估计总体比例时,在其他任何信息不知道的情况下,可使用的p的方差最大值为 D
A.0.05 B.0.01 C.0.10 D.0.25 14. 在假设检验中,备择假设具有特定方向性的假设检验称为( D
A.原假设 B.备择假设 C.双侧检验 D.单侧检验
15.对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程称为( A A.假设检验 B.参数估计 C.双侧检验 D.单侧检验 16.在假设检验中,不拒绝原假设意味着( C
A.原假设肯定是正确的 B.原假设肯定是错误的
C.没有证据证明原假设是正确的 D.没有证据证明原假设是错误的 17.在假设检验中,对于第I类错误和第Ⅱ类错误( A
A.通常是先控制第I类错误 B.通常是先控制第Ⅱ类错误 C.通常是放弃控制第I类错误 D.通常是放弃控制第Ⅱ类错误 18.当样本容量一定时,拒绝域的面积( B
A.与显著性水平的大小无关 B.与显著性水平的大小成正比 C.与显著性水平的大小成反比 D.与样本观测值有关 19.方差分析中,构造的统计量2MSA服从( C
MSEA.分布 B.正态分布 C.F分布 D. t分布 20.对相关系数的显著性检验,通常采用的是( A
A.t检验 B.F检验 C.Z 检验 D.卡方检验

.简答题(每题6分,共24分)
1. 答:统计表的构成要素有:
25


1)表头;2)行标题;3)列标题;4)数字资料;5)附加,注释或说明。 2. 参数与统计量有何不同?
答: 参数由全及总体各单位的标志值或标志属性决定的指标值,是总体变量的函数;统计量是根椐样本各单位标志值或标志属性计算的综合指标,是样本变量的函数,用来估计总体参数的,与总体参数相对应。 3.抽样调查的特点是什么?
答:抽样调查是非全面调查,它是通过对样本的调查来推断总体,从而达到对总体数量特征的认识;按照随机原则取样是抽样调查的另一个特点。 4. 假设检验步骤有哪些?
答:具体包括:首先写出假设(原假设和备择假设),然后根据具体情况确定检验统计量,并按照显著性水平计算临界值,接下来计算统计量的值并与临界值比较,最后做出决策。

.计算题(要求写出计算公式、过程,最后结果保留两位小数。共36分。

1.某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。(15分)
3 假定总体标准差为15元,求样本均值的抽样标准误差; 4 95%的置信水平下,求边际误差;
5 如果样本均值为120元,求总体均值95%的置信区间。 解:过程略
1x2.14;(2E=4.2;(3)(115.8,124.2)。

2.某汽车生产商欲了解广告费用(x)对销售量(y)的影响,它们收集了过去12年的有关数据,并通过计算得到了下面的方差分析表(=0.05:
1)请为方差分析表填写空缺的数据;6分) 2)计算判定系数R4分) 3)计算估计标准误差se4分) 4)计算xy的相关系数;2分) 5)试检验两个变量之间的线性关系是否显著。5分) 解:(要求写出公式和计算过程) 14015.807399.1 20.9756 363.37 40.9877 5)由表中P值可知,P值<0.05,故线性关系显著。
26

2

免费下载 Word文档免费下载: 统计学

  • 29.8

    ¥45 每天只需1.0元
    1个月 推荐
  • 9.9

    ¥15
    1天
  • 59.8

    ¥90
    3个月

选择支付方式

  • 微信付款
郑重提醒:支付后,系统自动为您完成注册

请使用微信扫码支付(元)

订单号:
支付后,系统自动为您完成注册
遇到问题请联系 在线客服

常用手机号:
用于找回密码
图片验证码:
看不清?点击更换
短信验证码:
新密码:
 
绑定后可用手机号登录
请不要关闭本页面,支付完成后请点击【支付完成】按钮
遇到问题请联系 在线客服