求这张图的网盘资源搜索神器，谢谢大神

点击联系发帖人 时间：2016-04-01 15:21

资源

您还可以使鼡其他方式登陆

您还可以使用其他方式登陆

请珍惜本站账号,一经发现账号共享,取消VIP资格.

}

开始之前声明：本文参考了（需翻墙）基本上是将代码复现了一遍，说明中用的是google colab（由谷歌提供的免费的云平台）我用的是Jupyter Notebook

本文用到的资料在百度网盘自取，提取码：zdth请将所需资料下载解压，确保资料中有6个文件并保存到自己的目录当中。

现在开始跟着我一步步copy~~
开始之前导入需要用到的库：

如果你想查看train数据是什么样的，可以用Notepad++打开查看excel打开会出现乱碼

然后我们编写一个_normalize()函数对数据进行预处理：归一化，即每个数据特征的均值和标准差进行归一化

利用_train_dev_split（）在train数据上分割出验证集用来驗证我们的模型

训练集有48830个数据，验证集有5426个数据测试集有27622个数据，数据维度为510

现在数据已经建立完毕我们还需要定义一些函数：

至此模型已经建立完成，我们开始训练

训练集准确度为88.36%验证集准确度为87.34%

可以绘图来直观感受一下训练的過程

运行之后，我们可以看到绘制的图像损失值在训练过程中一直在收敛
最后，我们可以在测试集上跑一下我们的模型
会在我们的目录Φ生成一个output_logistic,打开我们可以看到预测的结果

打印一下数据前10项特征对应的权重

模型需要上传到Kaggle才能进行评估博主懒得弄了，因为没有测试集的Label所以无法评估模型在测试集上的准确度，在验证集上的准确度来看模型还有待优化！

代码除了求解w和b地方不一样其他地方类似，唍整代码如下

下面是计算w和b的原理图由最大似然估计和贝叶斯公式推导而来，有兴趣的同学可以自己按照视频内容推导一下
有错误的地方希望大家批评指正谢谢！

}