1.1回归分析的基本思想及其初步应用(一)高二数学选修2-3数学3——统计内容1.画散点图2.了解最小二乘法的思想3.求回归直线方程y=bx+a4.用回归直线方程解决应用问题问题1:正方形的面积y与正方形的边长x之间的函数关系是y=x2确定性关系问题2:某水田水稻产量y与施肥量x之间是否有一个确定性的关系?例如:在7块并排、形状大小相同的试验田上进行施肥量对水稻产量影响的试验,得到如下所示的一组数据:施化肥量x15202530354045水稻产量y330345365405445450455复习变量之间的两种关系1020304050500450400350300·······施化肥量x15202530354045水稻产量y330345365405445450455xy施化肥量水稻产量自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。1、定义:1):相关关系是一种不确定性关系;注对具有相关关系的两个变量进行统计分析的方法叫回归分析。2):现实生活中存在着大量的相关关系。如:人的身高与年龄;如:人的身高与年龄;产品的成本与生产数产品的成本与生产数量;量;商品的销售额与广告商品的销售额与广告费;费;家庭的支出与收入。家庭的支出与收入。等等等等探索:水稻产量y与施肥量x之间大致有何规律?1020304050500450400350300·······发现:图中各点,大致分布在某条直线附近。探索2:在这些点附近可画直线不止一条,哪条直线最能代表x与y之间的关系呢?施化肥量x15202530354045水稻产量y330345365405445450455xy散点图施化肥量水稻产量1020304050500450400350300·······xy施化肥量水稻产量yx探究对于一组具有线性相关关系的数据1122(,),(,),...,(,),nnxyxyxy我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:^1122211()(),......(2)()nniiiiiinniiiixxyyxnxybxxxnxy^^,......(1)aybx1111,.nniiiixxyynn其中(,)xy称为样本点的中心。你能推导出这个公式吗?1122(,),(,),...,(,)nnxyxyxy假设我们已经得到两个具有相关关系的变量的一组数据且回归方程是:y=bx+a,^(1,2,...,)ixin()iiiiyyybxa其中,a,b是待定参数。当变量x取时它与实际收集到的之间的偏差是iyoxy11(,)xy22(,)xy(,)iixyiiyy易知,截距和斜率分别是使取最小值时的值。由于(,)()iiiiQyyyx^a^b,21(,)[()()]niiiQyxyxyx221{[()]2[()][()][()]}niiiiiyxyxyxyxyxyx2211[()]2[()]()(),nniiiiiiyxyxyxyxyxnyx11[()]()()[()]nniiiiiiyxyxyxyxyxyx注意到,11()[()]nniiiiyxyxnyx()[()]0,yxnynxnyx221(,)[()]()niiiQyxyxnyx因此,2222111()2()()()()nnniiiiiiixxxxyyyynyx2222211221111()()[()()]()()()()()nniiiinniiiinniiiiiixxyyxxyynyxxxyyxxxx121()()()niiiniixxyyxxyx这正是我们所要推导的公式。在上式中,后两项和无关,而前两项为非负数,因此要使Q取得最小值,当且仅当前两项的值均为0,即有,1、所求直线方程叫做回归直线方程;相应的直线叫做回归直线。2、对两个变量进行的线性分析叫做线性回归分析。1122211()()ˆ,()ˆˆnniiiiiinniiiixxyyxnxybxxxnxaybxy1、回归直线方程nn(x-x)(y-y)xy-nxyiiiii=1i=1ˆb==,nn222(x-x)x-nxiii=1i=1ˆˆa=y-bx.nn11x=x,y=y.iinni=1i=1其中最小二乘法:ˆˆˆybxa(,)xy称为样本点的中心。2、求回归直线方程的步骤:1111(1),nniiiixxyynn求211(2),.nniiiiixxy求(3)代入公式1122211^()(),(),......(1)nniiiiiinniiiixxyyxnxybxxxnxaybxy...