机器学习实战(用 Scikit-learn 和TensorFlow 进行机器学习)一、简介Seikit-learn 集成了很多机器学习需要使用的函数,学习 Seikit-learn 能简洁、快速写出机器学习程序。并且通过代码更加深入的了解机器学习模型,学习如何处理数据,如何选择模型,如何选择和调整模型参数。二、配置必要的环境1、推荐安装 Anaconda(集成 Python 和很多有用的 Package)2、编辑器:Spyder 或 Pycharm 或 JupyterNotebook三、开始实战(处理 CSV 表格数据)1、下载数据数据集为房屋信息 housing,代码运行后,会下载一个 tgz 文件,然后用 tarfile 解压,解压后目录中会有一个 housing.scv 文件(可以自行用 exeel 打开看看),下载代码为:importosimporttarfilefromsix.movesimporturllibDOWNLOAD_ROOT=""https://raw.githubusercontent.com/ageron/handson—ml/master/""HOUSING_PATH=""datasets/housing"HOUSING_URL=DOWNLOAD_ROOT+HOUSING_PATH+"/housing・tgz""deffetch_housing_data(housing_url=HOUSING_URL,housing_path=HOUSING_PATH):ifnotos.path・isdir(housing_path):os.makedirs(housing_path)tgz_path=os.path・join(housing_path,""housing・tgz")urllib.request.urlretrieve(housing_url,tgz_path)housing_tgz=tarfile・open(tgz_path)housing_tgz・extractall(path 二 housing_path)housing_tgz・close()fetch_housing_data()2、读入数据通过 panda 库读取 csv 文件。importpandasaspddefload_housing_data(housing_path 二 HOUSING_PATH):csv_path=os.path・join(housing_path,""housing・csv")returnpd・read_csv(csv_path)housing=load_housing_data()3、观察数据载入数据以后,首先就是要观察数据是否成功导入,是否存在缺失值,是否存在异常值,数据的特征呈现何种分布等。head()输出前 5 个数据和表头head()可以查看数据是否成功导入,并可以查看数据包含哪些特征以及特征的形式大概是怎么样的。housing.head()输出结果In[7]:housing.head[)0ut[7]:'.ongitudelatitudehousing_Median_agetotal_roontstotal_bedroonisX0-122.2337.8841.0880.Q129.01-122.2237.3&21.07099.01105.02-122.2437.S552.014&7.0190.02-122.2537.S552.01274.0235.04-122.2537.8552.01627.0280.0populationlioiiseholdsmedianincomemedianhouse_valueocean_proxinity0S22.0126.0_8.3252-452600.0NEARBAY12401.01138.08.3014358500.0NE...