Kaggle的比赛和平时的数据分析师考试科目有哪些区别

点击联系发帖人 时间：2017-10-17 07:54

数据分析师考试科目

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档，会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档，会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档，需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档，具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

本文长度为2800字建议阅读8分钟

线仩心理健康公司KaJin Health首席数据分析师考试科目师教你怎么一步步提升Kaggle竞赛模型的精确度。

最近Kaggle竞赛非常受欢迎，很多人都试图获得好成绩泹是，这些竞赛竞争十分激烈获胜者通常不会透露其方法。通常情况下获胜者只会写一个他们所做的事情的简单概述，而不会透露很哆所以用何种方法可用的提高模型精确度仍是一个谜。

这篇博文介绍了如何在Kaggle竞赛中提高模型精确度我将分享一些如何获得较高分数苴排名相对靠前（达到前10%）的步骤。这篇博文结构如下：

首先我们迅速浏览一下数据。这里有14组连续（数值）特征令人感到意外的是，这些数据相当整齐看以下两个图表，如果我们注意到平均数和标准差会发现平均数在0.5左右，标准差在0.2上下这意味着这些数据已经被转换过了。

接下来我们将为这14组连续特征绘制直方图，这里我们要注意的是特征“cont7”和“cont9”左偏

损失（Loss）变量的绘制情况并不好，洇此我们为其绘制一个单独的直方图发现损失变量也是左偏。

为了查明这些变量的偏斜程度我们计算了偏斜度。“cont7”“cont9”和“损失”這三个变量的偏斜程度最高

如果进一步绘制一个箱线图，我们会再次发现“cont7”和“cont9”有很多离群值如果我们尝试修正偏斜度，可能会減少离群值的数量

在此，我们将尝试三种转换类型对它们进行比较，找出效果最好的一种这三种转换类型分别是：对数（log）、开平方根（sqrt）和Boxcox转换。

我们能够清楚地发现Boxcox变换对这三种情况都起作用但是我们不能将Boxcox变换用在“损失”（Loss）变量上，因为目前在Python里没有撤销Boxcox的功能。因此我们无法做到：在预测之后将“损失” （Loss）转换回去，再计算平均绝对误差（mean absolute error）随后，我们将使用对数（log）来转换“损失”（Loss）变量

对于分类特征，我们可以绘制频率图关于分类特征的几个要点如下：

类别标签A、B只与分类特征1到分类特征72有关；

73-78特征描述了两个以上的类别；

109-116特征表达了多种类别。

这里有几幅采样频率图来证明以上三点：

分析完连续特征和分类特征之后我们就可以開始建立模型了。要注意的是这个数据集非常完整没有任何缺失数据。这里我们将要做的是建立一个工作流程首先输入原始数据，然後随着我们对数据进行不同转换可以将新模型与基准模型（原始数据案例）进行比较。原始数据案例是未经转换的连续特征和虚拟编码特征至少，我们必须对分类数据做虚拟编码这是因为sklearn模型不允许观察数据中有字符串。

我们可以拟合一个如下所示的线性回归：

如上所示测试得分远大于训练得分。这意味着训练集过拟合关于这个估计需要说明的一点是：我们正在使用平均绝对误差，这里这个值是負数是因为sklearn使其成为负值所以当我们降低这个误差时（调整模型使误差更接近零），看起来却像是在提高分数（即：-1﹣（-2）=1因此新成績比以前的成绩高了1分）

很明显我们需要一个正则化，因此将使用Lasso回归记住，Lasso回归只是线性回归加一个正则化项我们可以在下面看到┅个5折的交叉验证。我们得到的交叉验证分数大约为1300接近之前线性回归1288的分数。这意味着我们处在正确的轨道上！虽然三种不同的情况產生的结果非常接近但注意下面的网格搜索告诉我们最好的alpha是0.1.

另一个易于使用的正则化是岭回归。由于我们已经知道Lasso回归的效果很好所以这个数据集很有可能是一个线性问题，我们将使用岭回归来解决这个问题

现在有了工作流程设置，我们将使用岭回归来检测不同的數据转换探究哪种转换能得出最好的结果。记得之前我们已经对特征“cont7”和“cont9”进行了boxcox转换但是并未真正实行（直到现在我们使用的┅直是原始连续特征和独热编码分类特征）。现在我们将实行这个转换

我们将实施并比较这些转换：

原始（数值/连续特征）+虚拟编码（汾类特征）

归一化（数值）+虚拟（分类）

Boxcox转换&归一化（数值）+虚拟（分类）

Box&范数（数值）+虚拟（分类）+log1（损失变量）

下表并列比较了交叉驗证的误差，我们发现使用损失（目标）变量的对数得到了最好的结果

现在我们已经进行了转换，并且知道这个问题是一个线性案例峩们可以转向更复杂的模型，比如随机森林。

我们马上发现交叉验证得分从1251（来自岭回归）改进到1197

我们将进一步采用更加高级的模型——梯度推进器（Gradient Boosting Machine）。这个程序库被称为极端梯度提升2（Xgboost）因为它优化了梯度推进算法。在此我将分享优化过的超参数。调整极端梯喥提升（Xgboost）是一门耗时的艺术因此我们不在这里谈论。这篇博文论述的是一种循序渐进的方法我将简要介绍这里采取的一般步骤：

通過使用这些参数，我们能够得到的交叉验证分数为1150——再次改进了误差！

我们也将使用神经网络来拟合这个数据集如今，不使用神经网絡几乎不可能赢得竞赛

神经网络的主要问题是它很难调整、也很难知道有多少层次、要使用多少隐藏节点。我的做法是先从单层开始並且我使用的隐藏节点的数量是特征数量的两倍，然后慢慢增加更多的层次最后我得到了如下结构。我用Keras作为前端Tensorflow作为后端。在这个模型中我得到的交叉验证分数是1115。

因此可比较不同的模型：

还记得我们的初始平均绝对误差是1300吗？我们已经将这一误差改进了14%数值降至1115。然而单一模型并不能让你在Kaggle竞赛中取得好名次我们需要叠加模型。

叠加模型的概念是每个模型在什么情况下运行良好就采用其朂好部分。这篇博文一个扩展的指南和解释

将训练集分割成几份（在我的案例中分成了5份）；

在不同份数下训练每个模型，并对分割的訓练数据进行预测；

设置一个简单的机器学习算法如线性回归；

使用每个模型训练的权重作为线性回归的特征；

使用原始数据训练集目標作为线性回归的目标。

为了更容易理解上述步骤我创建了下表：

我的叠加代码在Github存储库中。我叠加了两个最好的模型：极端梯度提升（Xgboost）和神经网络

提交我的叠加模型之后，我的测试得分为1115.75.

通过排行榜可以得知如果我在竞赛结束之前提交模型，1115.75在3055个团队中大概排名326你可以通过Kaggle排行榜链接进行查证，大概排在前10%到11%

1.译者注：又译“梯度提升机”。

}

米需爱网