课 程 设 计 论 文
学 院: | 理 学 院 | ||
专 业: | 信息与计算科学 | ||
课程名称 | 数学建模课程设计 | ||
题目 | 家庭耗电量的回归分析 | ||
队号 | |||
学生姓名 | 孙静 | 学 号 | |
学生姓名 | 学 号 | ||
学生姓名 | 学 号 | ||
学生姓名 | 学 号 | ||
指导教师 | 王鹏 乔志琴 | ||
2011年6月
家庭耗电量的回归分析
摘 要
随着社会的不断发展,电力资源已经深入到了生活的方方面面。如何控制好电力资源的合理使用,成为人们日益关注的焦点。这样即可以做到资源的节约利用,同时又能节省开支。本文拟在用多元线性回归的方法研究对于一般家庭中,耗电量(KWH)与空调的使用小时数(AC)和烘干机的使用次数(DRYER)之间的关系。通过对问题的分析,建立多元的线性回归模型,并利用MATLAB软件进行求解,得到最终的结论,并对结果作出相应的分析,以及模型的推广应用。多元线性回归模型,不仅仅可以解决生活中的一些实际问题,而且,对于一些大型的企业而言,对于以往生产周期收集来的数据进行合理的分析处理,不仅可以帮助企业对将来的的生产销售做出理性的判断还可以帮助企业制定合理的生产方案,实现利润的最大化。
关键词:线性模型,回归分析,残差分析
目 录
摘要 Ⅰ
目录·································································II
主要符号表 II
1 引言—问题重述与分析 1
1.1 问题的重述 . 1
1.2问题的分析 1
2 模型假设 2
3 问题分析与建模 2
4 模型求解 3
5 结果分析 6
6 模型推广 6
附录 6
参考文献 7
主要符号表
——用以表示回归方程中的常数项
——表示回归方程中变量的系数
——表示回归方程中变量的系数
——表示随机误差向量
——表示耗电量
——表示空调的使用小时数
——表示烘干机的使用次数
——为回归检验的显著性水平
1 引言—问题重述与分析
1.1 问题重述
随着社会的不断发展,电力资源已经深入到了生活的方方面面。如何控制好电力资源的合理使用,成为人们日益关注的焦点。这样即可以做到资源的节约利用,同时又能节省开支。本文拟在用多元线性回归的方法研究对于一般家庭中,耗电量(KWH)与空调的使用小时数(AC)和烘干机的使用次数(DRYER)之间的关系(数据见下表1)。目前,解决线性回归问题的主要知识用到数据分析和数学模型的相关知识,本文拟先画出因变量与各自变量之间的关系图,通过散点图对单个变量的模型做出初步的假设,并画出其残差分布图,最后综合各变量的共同作用,得到多元的线性回归模型。通过残差分布图的分析对模型进行进一步的优化处理,最终得到最优的模型。
1.2 问题分析
某人记录了21天每天使用空调器的时间和使用烘干器的次数,并监视电表以计算出每天的耗电量,数据见下表,试研究耗电量(KWH)与空调器使用的小时数(AC)和烘干器使用次数(DRYER)之间的关系,建立并检验回归模型,诊断是否有异常点。
表一:
序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
KWH | 35 | 63 | 66 | 17 | 94 | 79 | 93 | 66 | 94 | 82 | 78 |
AC | 1.5 | 4.5 | 5 | 2 | 8.5 | 6 | 13.5 | 8 | 12.5 | 8 | 6.5 |
DRYER | 1 | 2 | 2 | 0 | 3 | 3 | 1 | 1 | 1 | 2 | 3 |
序号 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 |
KWH | 65 | 77 | 75 | 62 | 85 | 43 | 57 | 33 | 65 | 33 |
AC | 8.0 | 7.5 | 8.0 | 7.5 | 12.0 | 6.0 | 2.5 | 5.0 | 7.5 | 6.0 |
DRYER | 1 | 2 | 2 | 1 | 1 | 0 | 3 | 0 | 1 | 0 |
2 模型假设
1.假设电表的工作正常,所有的数据都是实际情况的反映
2.电表在记录用电量时,只有空调或烘干机在使用,再无其他的用电器工作
3.设耗电量用表示,空调使用小时数用表示,烘干机使用次数用表示
4.假设随机变量是独立同正态分布的随机变量
3 问题分析与建模
为了大致的了解与之间的关系,首先对给出的数据做出两者之间的散点图:
图 3.1
由以上的图形可以知道变量与大致呈线性关系,图中的直线是用线性模型:
(模型一)
拟合的(其中是随机误差).
同样,我们画出了变量与变量之间的关系图:
图 3.2
由图可以看出,变量与变量近似也呈线性关系,图中的直线使用线性模型拟合的:
(模型二)
同理其中为随机变量。
综合以上的分析,考虑到两个变量的共同作用,结合模型一、二建立如下回归模型:
(模型三)
模型三中右端的变量和称为回归变量(自变量),是给定变量和变量时变量的平均值,其中参数、、称为回归系数。由已知数据可知影响的其它因素作用都包含在随机变量中,如果模型选择的合适,应大致服从均值为0的正态分布。
4 模型求解
对于上述问题,可以直接利用MATLAB统计工具箱的命令regress求解,使用格式为:
[b,bint,r,rint,stats]=regress(y,x,alpha)
其中,输入为模型三中的数据,为对应回归系数的数据矩阵rint为r的置信区间,stats为回归模型的检验统计量,其输出结果有三个值第一个是回归方程的决定系数,第二个为统计量值,第三个是与统计量对应的概率值
利用MATLAB编程并求出相应的结果(程序见附录)
表一:
参数 | 参数估计值 | 参数置信区间 |
8.085 | [3.1711 12.9899] | |
5.4654 | [4.9099 6.0192] | |
13.1131 | [11.4169 14.8093] | |
= 0.9741 =338.6740 <0.0001 | ||
为了便于了解模型的可行性,可以画出残差向量的分布图:
由残差的分布图可知,残差基本上是服从均值为0的正态分布,但是有一个异常值,第21个数据出现异常,因此,去掉异常值后重新进行回归分析(方法与上类似)得到新的结果:
表二:
参数 | 参数估计值 | 参数置信区间 |
9.7651 | [5.2967 14.2334] | |
5.4149 |
[4.9315 5.8982] | |
| 12.4844 | [10.9290 14.0397] |
= 0.9794 =404.6498 <0.0001 | ||
残差向量的分布图:
由该残差的分布图可以知道,残差基本分布在0附近,所以可以认为误差的正态性假设是合理的,所选的模型是合理的。
5 结果分析:
由表一可知= 0.9741指因变量(耗电量)的97.41%可有模型确定,值远远超过检验的临界值,值又远远小于,从而整体是可用的,但有其残差分布图可知这组数据存在异常值(第21个数据)故去掉异常值则模型还可以改进。由表二可知 = 0.9794则因变量的97.94%可有模型确定,值远远超过检验的临界值,值又远远小于。因此,相比而言由表二确定的模型是最优的即:
6 模型的推广:
回归模型可以广泛的利用到生活的方方面面,其整体思想是利用统计得来的数据,利用一定的回归模型找出数据间的关系,并对未来的生产决策作出合理的指导安排。尤其是对于一些大型的企业而言,对于以往生产周期收集来的数据进行合理的分析处理,不仅可以帮助企业对将来的的生产销售做出理性的判断还可以帮助企业制定合理的生产方案,实现利润的最大化。
附录:
MATLAB源程序(1)如下:
x1=[1.5 4.5 5 2 8.5 6 13.5 8 12.5 8 6.5 8 7.7 8 7.5 12 6 2.5 5 7.5 6.0 ]'
x2=[1 2 2 0 3 3 1 1 1 2 3 1 2 2 1 1 0 3 0 1 0 ]'
y=[35 63 66 17 94 79 93 66 94 82 78 65 77 75 62 85 43 57 33 65 33 ]'
x=[ones(21,1),x1,x2];
[b,bint,r,rint,stats]=regress(y,x,0.05)
rcoplot(r,rint)
MATLAB源程序(2)如下:
x1=[1.5 4.5 5 2 8.5 6 13.5 8 12.5 8 6.5 8 7.7 8 7.5 12 6 2.5 5 7.5 ]'
x2=[1 2 2 0 3 3 1 1 1 2 3 1 2 2 1 1 0 3 0 1]'
y=[35 63 66 17 94 79 93 66 94 82 78 65 77 75 62 85 43 57 33 65 ]'
x=[ones(20,1),x1,x2];
[b,bint,r,rint,stats]=regress(y,x,0.05)
rcoplot(r,rint)
参考文献
[1] 姜启源,谢金星,叶俊.数学模型(第三版).北京:高等教育出版社,2003.
[2] 范金城,梅长森.数据分析。北京:科学出版社,2002.
[3] 科学计算与数学实验软件 讲义
¥29.8
¥9.9
¥59.8