2两个变量的线性相关例1:下表是某小卖部6天卖出热茶的杯数与当天气温的对比表:气温/℃261813104-1杯数202434385064(1)将上表中的数据制成散点图
(2)你能从散点图中发现温度与饮料杯数近似成什么关系吗
(3)如果近似成线性关系的话,请画出一条直线方程来近似地表示这种线性关系
(1)画出散点图:温度杯数(2)从图中可以看出温度与杯数具有相关关系,当温度由小到大变化时,杯数的值由大到小
所以温度与杯数成负相关
图中的数据大致分布在一条直线附近,因此温度与杯数成线性相关关系
(3)根据不同的标准,可以画出不同的直线来近似地表示这种线性关系
如可以连接最左侧和最右侧的点,或者让画出的直线上方的点和下方的点的数目相同
温度杯数温度杯数由图可见,所有数据的点都分布在一条直线附近,显然这样的直线还可以画出许多条,而我们希望找出其中的一条,它能最好地反映x与Y之间的关系
换言之,我们要找出一条直线,使这条直线“最贴近”已知的数据点
记此直线方程是ˆybxaˆybxa这里在y的上方加记号“^”,是为了区分Y的实际值y
表示当x取xi(i=1,2,…,6)时,Y相应的观察值为yi,而直线上对应于xi的纵坐标是yi=bxi+a
^上式叫做Y对于x的回归直线方程,b叫做回归系数
要确定回归直线方程,只要确定a与b
回归直线的方程的求法:设x,Y的一组观察值为(xi,yi)(i=1,2…,n)且回归直线的方程为ˆybxa当变量x取xi(i=1,2,…,n)时,可以得到:(i=1,2,…,n),ˆiiybxa它与实际收集到的yi之间的偏差是:ˆiiiyyybxa(i=1,2,…,n),可见,偏差的符号有正有负,若将它们相加会造成相互抵消,所以它们的和不能代表n个点与相应直线在整体上的接近程度
故采用n个偏差的平方和2221122()()()nnQy