第1页共3页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第1页共3页《金融统计分析》补充知识1、均值:均值又称算术平均数,是所有观察值的和除以观察值的个数,是集中趋势的最主要测度值。¯X=X1+X2+⋯+XNN=∑i=1NXiN2、方差:方差是个变量与其均值离差平方的平均数,是测度数据离散程度的主要方法。σ2=∑i=1K(Xi−¯X)2N3、标准差:方差的平方根即为标准差。σ=√∑i=1K(Xi−¯X)2N4、相关系数:设(xi,yi),i=1,2,…,n是(x,y)的n组样本观测值,我们称r=Lxy√LxxLyy为x与y的相关系数,表示x和y的线性关系的密切程度。其中Lxx=∑i=1n(xi−¯x)2,Lxy=∑i=1n(xi−¯x)(yi−¯y),Lyy=∑i=1n(yi−¯y)2相关系数的取值范围|r|≤1。5、一元线性回归直线回归分析的任务就是根据若干观测值(xi,yi)i=1,2…n找出两个变量x、y之间的关系的直线回归方程^y=a+bx,其中a称为截距,b为回归直线的斜率,也称回归系数。其中^y是变量y的估计值。求直线回归方程^y=a+bx,实际上是用回归直线拟合散点图中的各观测点。常用的方法是最小二乘法,也就是使该直线与各点的垂直距离最小,即求使观察值y与回归直线^y之差的平方和∑(y−^y)2达到最小时的a和b的问题。在判定一个线性回归方程的拟合优度时,R2系数是一个重要的判定指标,公式为R2=∑(^yi−¯y)2∑(yi−¯y)2。从公式中可以看出,判定系数等于回归平方和在总平方和总所占的比率,即回归方程所能解释的因变量变异性的百分比。如果R2=0.775,说明变量y的变异性中有77.5%是由自变量x引起的;如果R2=1,表示所有的观测点全部落在回归直线上;如果R2=0,则表示自变量与因变量无线性关系。6、多元线性回归第2页共3页第1页共3页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第2页共3页根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析。模型为^y=b0+b1x1+b2x2+⋯+bnxn,其中^y为根据所有自变量计算出来的估计值,b0为常数项,b1、b2⋯bn称为y对应于x1、x2…xn的偏回归系数。偏回归系数是假设在其他所有自变量保持不变的情况下,某一个自变量的变化引起因变量变化的比重。在判定一个线性回归方程的拟合优度时,R2系数是一个重要的判定指标,公式为R2=∑(^yi−¯y)2∑(yi−¯y)2。从公式中可以看出,判定系数等于回归平方和在总平方和总所占的比率,即回归方程所能解释的因变量变异性的百分比。如果R2=0.775,说明变量y的变异性中有77.5%是由自变量x引起的;如果R2=1,表示所有的观测点全部落在回归直线上;如果R2=0,则表示自变量与因变量无线性关系。7、因子分析在各个领域的研究中往往需要对反映事物的多个变量进行预测,收集大量的数据以便进行分析寻找规律。多变量大样本无疑会为研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息,而综合指标间彼此不相关,即各指标代表的信息不重叠。这样就可以对综合指标根据专业知识和指标所反映的独特含义给与命名。这种分析方法称为因子分析,综合指标称为因子或主成份。因子应该比原始变量少,但还要尽可能少损失信息。原始变量:x1、x2⋯xm主成份:z1、z2⋯zn则各因子(主成份)与原始变量之间的关系可表达为:x1=b11z1+b12z2+⋯+b1nzn+e1x2=b21z1+b22z2+⋯+b2nzn+e21xm=bm1z1+bm2z2+⋯+bmnzn+em则主成份分析的数学模型可写成:z1=a11x1+a12x2+⋯+a1mxmz2=a21x1+a22x2+⋯+a2mxm第3页共3页第2页共3页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第3页共3页zn=an1x1+an2x2+⋯+anmxm从理论上讲m=n,即有多少原始变量就有多少个因子(主成份),但实际上前面几个主成份集中了大部分方差,因此主成份的数目远远小于原始变量的数目,但信息损失较少。