2024阿里巴巴实习生笔试题

下载本文档

阅读 174
下载 1
格式 docx
大小 12.89 KB
约8页
2025-06-02 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/8页

2/8页

3/8页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

2024 阿里巴巴实习生笔试题一、异常值是指什么?请列举 1 种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test( 是以 Frank E. Grubbs 命名的 ) ，又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差 σ，在五种检验法中，优劣次序为：t 检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将讨论对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析 (classification analysis) 或数值分类 (numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(densitybased method) 、基于网格的方法 (gridbased method)、基于模型的方法(modelbased method)等。其中，前两种算法是利用统计学定义的距离进行度量。 kmeans 算法的工作过程说明如下：首先从 n 个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采纳均方差作为标准测度函数. k 个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下： (1)从 n 个数据对象任意选择 k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。优点：本算法确定的 K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

2024阿里巴巴实习生笔试题

2024 阿里巴巴实习生笔试题一、异常值是指什么

请列举 1 种识别连续型变量异常值的方法

异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值

在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值

Grubbs’ test( 是以 Frank E

Grubbs 命名的 ) ，又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体

未知总体标准差 σ，在五种检验法中，优劣次序为：t 检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法

点评：考察的内容是统计学基础功底

二、什么是聚类分析

聚类算法有哪几种

请选择一种详细描述其计算原理和步骤

聚类分析(cluster analysis)是一组将讨论对象分为相对同质的群组(clusters)的统计分析技术

聚类分析也叫分类分析 (classification analysis) 或数值分类 (numerical taxonomy)

聚类与分类的不同在于，聚类所要求划分的类是未知的

聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(densitybased method) 、基于网格的方法 (gridbased method)、基于模型的方法(modelbased method)等

其中，前两种算法是利用统计学定义的距离进行度量

kmeans 算法的工作过程说明如下：首先从 n 个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个

文森传品 + 关注: 实名认证
内容提供者

一家传播文化教育的小店，资料丰富，随意挑选。

收藏店铺进入空间

2024阿里巴巴实习生笔试题

2024阿里巴巴实习生笔试题

您可能关注的文档

相关文档

热门下载

相关标签