Kaggle的比赛和平时的商务数据分析比赛有哪些区别

Kaggle比赛:从何着手? - 简书
Kaggle比赛:从何着手?
介绍参加Kaggle比赛,我必须有哪些技能呢?你有没有面对过这样的问题?最少在我大二的时候,我有过。过去我仅仅想象Kaggle比赛的困难度,我就感觉害怕。这种恐惧跟我怕水的感觉相似。怕水,让我无法参加一些游泳课程。然而,后来,我得到的教训是只要你不真的跨进水里,你就不知道水有多深。相同的哲学对Kaggle也一样适用。没有试过之前不要下结论。
Kaggle,数据科学的家园,为竞赛参与者,客户解决方案和招聘求职提供了一个全球性的平台。这是Kaggle的特殊吸引力,它提供的竞赛不仅让你站到不同的高度思考问题,还提供了可观的奖金。然而,人们总是犹豫到底要不要参加竞赛。其中有以下几个原因:1.他们小看了自己的技能,知识和掌握的技术的水平。2.不管自己一连串技能的水平如何,他们都选择奖金最高的问题。3.在问题的困难度水平上,他们没有充分发挥出自己的技能水平。我估计,这个问题可能要归咎于Kaggle自身。没有提供任何信息来帮助人们选择哪些是对于他们自身技能水平而言是最适合的比赛。结果就是对于新手或者中间水平的人来说,选择一个适合自己的问题来开始成为一个艰苦的工作。你能从这篇文章中学到什么?本文中,我们会解开根据自身技能,工具和技术组合来选择合适的Kaggle问题的死锁状态。这里我们会详细说明每个kaggle问题的困难度,以及要解决这些问题需要的技能水平。在后面的部分,我们针对下面的一些情况,定义了正确的方法来选择kaggle问题:Case 1:我有编程背景,但是是机器学习的初学者。Case 2:我在数据分析行业以及有两年以上经营,但是不擅长R或者python。Case 3:我擅长编码和机器学习,需要找一下有挑战的工作。Case 4:我对于机器学习和编程语言都是新手,但是我想学。Kaggle问题列表1.泰坦尼克:机器从灾难中学习目标:一个开始你的机器学习之旅的经典流行问题。给你一套在船上的乘客属性,让你来预测在船沉没后谁会生存下来。
困难度:◆ 机器学习技巧:容易◆ 编程技巧:容易◆ 专业知识要求:容易◆ 可用教程:完善2.Julia初步目标:这是一个用即将推出的工具Julia来识别谷歌街景图片中的人物的问题。
困难度:◆ 机器学习技能:容易◆ 编程技能:中 ◆ 专业知识要求:容易 ◆ 可用教程:完善3.数字识别目标:给你的是一个手写数字的像素数据(图片),你需要判断这是哪个数字。这是隐马尔可夫模型的经典问题。各种属性的困难度:◆ 机器学习技能:中◆ 编程技能:中 ◆ 专业知识需求:容易◆ 可用教程:有但不是手把手教学4.当词袋遇上爆米花袋目标:给你一组影评,你需要在这些叙述中找出其中潜在的情感(情感分析问题)。这个问题的目标是向你介绍谷歌软件包——Word2Vec。这是一个令人惊异的软件包,能帮助你将单词转换到有限维空间。用这种方法我们可以仅关注向量就能在词与词之间建立相似性。一个非常简单的例子就是你的算法可以找出相似性如:King – Male + Female结果是Queen。
困难度:◆ 机器学习技能:难◆ 编程技能:中◆ 专业知识要求:容易◆ 可用教程:有但是不是手把手教学5.脏文件去噪声目标:你可能知道一种技术叫OCR。这种技术简而言之就是将手写文档转换成电子文档。然而,这个技术并不完美。这里你的工作就是用机器学习方法让它的结果完美起来。
困难度:◆ 机器学习技能:难◆ 编程技能:难◆ 专业知识要求:难◆ 可用教程:无6.旧金山犯罪分类目标:预测发生在湾区的犯罪的分类类型。
困难度:◆ 机器学习技能:极难◆ 编程技能:极难◆ 专业知识要求:难◆ 可用教程:无7.出租车轨迹预测:时间/地点目标:在同一个数据集上有两个问题。给你一个出租车的控制器,让你来预测出租车将要去哪或者完成一个旅程出租车要花费多少时间。
困难度:◆ 机器学习技能:容易◆ 编程技能:难◆ 专业知识要求:中◆ 可用教程:有一些可作为比较标准的代码(benchmark code)。6.Facebook招聘——人还是机器人目标:如果你有意愿要了解一个新的领域,你必须解决这个问题。给你一些投标数据,期望你能区分投标人到底是人还是机器人。这是当时Kaggle比赛中可以获得数据最丰富的一个数据集。
困难度:◆ 机器学习技能:中◆ 编程技能:中◆ 专业知识要求:中◆ 可用教程:因为是一个招聘竞赛,没有任何可资利用的支持。注意:上述说明中没有涵盖提供了奖金的Kaggle竞赛,因为那些竞赛都跟某个领域密切相关。我们来看看不同的人,拥有不同技术组合,处在人生的不同阶段如何正确选择一个适合自己的方式来开始Kaggle之旅。Case 1:我有编程背景,但是是机器学习的初学者。◆ 第一步:你应该参与第一个Kaggle题目是⑦出租车轨迹预测。原因是,这个问题有一个复杂的数据集,包括JSON格式,其中一列揭示出租车已经访问过的一系列坐标。如果你能解析这个信息,那么在目标目的地或时间上获得一些初步估计就不需要用到机器学习。这样,你可以凭借你的编程能力在工业界找到实现自己价值的机会。◆ 第二步:你下一步应该做的是:①泰坦尼克。原因是,你现在应该已经明白如何操作一个复杂数据集。这样,现在正是搞一搞纯粹的机器学习的好时机了。有很丰富的解决方案和脚本可以利用,你应该能创建一个很好的解决方案。◆ 第三步:你现在应该尝试大一点的东西了。试试Facebook招聘。这会帮助你意识到理解某个领域的知识如何在机器学习上帮助你得到最好的结果。一旦你完成了上述所有的尝试,你尝试Kaggle上任何一个问题都没有问题可。Case 2:我在数据分析行业以及有两年以上经营,但是不擅长R或者python。◆ 第一步:你的第一个尝试应该是①泰塔尼克。原因是,你已经了解如何创建预测算法。你现在应该努力学习像R和Python这样的编程语言。有很丰富的解决方案和脚本可以利用的条件下,你应该能用R和Python完成不同的模型。这个问题也可以帮你了解一点更高级的机器学习算法。◆ 第二步:下一步是Facebook招聘。原因是,给你简单的数据结构和丰富的数据内容,你将可以结合正确的表,在这个问题上给出预测算法。这会帮助你意识到理解某个领域的知识如何在机器学习上帮助你得到最好的结果。建议:你现在要准备好离开你待得非常舒服的领域,尝试完全不同的东西。阅读一些问题,比如糖尿病视网膜病变检测,Avinto上下文广告点击,犯罪分类并找到你感兴趣的领域。现在尝试将你学到的任何知识都应用一下。现在是时候尝试一下对更复杂的东西编程了。试一下出租车轨迹预测问题或者脏文件去噪声问题。一旦你各项准备都齐全了,你可以尝试Kaggle上的任何问题。Case 3:我擅长编码和机器学习,需要找一下有挑战的工作。◆ 第一步:你在Kaggle上有很多选择。首选是掌握一种新语言比如Julia。你可以开始迈出Julia的第一步。原因是,这将在Python和R之外显示Julia的强大之处。◆ 第二步:第二个现在就是发展另一个领域的技能。你可以尝试Avito竞赛、搜索相关或者Facebook——人vs机器人Case 4:我对于机器学习和编程语言都是新手,但是我想学。◆ 第一步:你应该用①泰塔尼克来作为你Kaggle之旅的开始。原因是,你的第一步应该是学习编程语言如R和Python。有很多可资利用的解决方案和脚本的情况下,你应该能用R和Python建立不同的模型。这个问题也帮助你了解一些机器学习算法。◆ 第二步:然后你应该着手的是:Facebook招聘。原因是,给你简单的数据结构和丰富的数据内容,你将可以结合正确的表,在这个问题上给出预测算法。这会帮助你意识到理解某个领域的知识如何在机器学习上帮助你得到最好的结果。一旦你完成了这些,你应该在Kaggle选择任何一个你感兴趣的问题了。Kaggle上公平竞争中的一些骇客方法这不是一个骇客方法的完全列表,只不过想要给你一个好的起点。完全的列表值得另开一个帖子来说明。1.确认你在最后期限之前提交了一个解决方案(即使最简单的提交也算完成任务),如果你未来还希望继续参加这个竞赛的话。2.在你处理数据之前,了解该领域的专业知识。例如,在机器人vs人的比赛中,开始你的数据之旅前,你需要了解在线竞标平台的知识。3.自己做一个模拟Kaggle竞赛评分标准的评估算法。一个简单的10折交叉验证通常就可以很好的工作。4.从训练数据中切割出尽可能多的特征——特征工程通常能将你的成绩从40%的位置推升到前10%。5.单纯一个模型通常不能把你推升到前10.你需要做很多很多模型,然后将他们集成起来。可以是许多不同模型的集成,也可以是同一算法的不同变量集。结束语在参加Kaggle比赛后,我意识到很多好处。我已经习惯了R和python。我相信这是学习编程语言方面最好的方式。另外,在论坛中给人们交互会帮助你加深对机器学习和领域知识的理解。在本文中,我们介绍了各种Kaggle问题,将他们的基本属性按照难度水平做了区分。我们也列举了真实生活中的各种情形,阐述了参加Kaggle比赛的各种方法。你怎么参加Kaggle比赛呢?你能否看到参加的各种巨大益处呢?有什么想法,欢迎在之后评论。作者:TAVISH SRIVASTAVA链接:/blog/2015/06/start-journey-kaggle/为什么在实际的 kaggle 比赛中 gbdt 和 random forest 效果非常好? - 简书
为什么在实际的 kaggle 比赛中 gbdt 和 random forest 效果非常好?
马超Terminal SOTON数据分析转载:
为什么在实际的 kaggle 比赛中 gbdt 和 random forest 效果非常好? 从这个调查中我们发现,除了类似于图像识别这种基于 deep learning 的比赛,绝大多数的 winning solution 都用的是 gbdt (xgboost)或者 random forest. 为什么传统机器学习教课书里 svm, LR 好像并没有很好的表现?
作者:马超链接: tree-ensemble 的机器学习方法,在实际的 kaggle 比赛中效果非常好?通常,解释一个机器学习模型的表现是一件很复杂事情,而这篇文章尽可能用最直观的方式来解释这一问题。我主要从三个方面来回答楼主这个问题。1. 理论模型 (站在 vc-dimension 的角度)2. 实际数据3. 系统的实现 (主要基于 xgboost)通常决定一个机器学习模型能不能取得好的效果,以上三个方面的因素缺一不可。(1)站在理论模型的角度统计机器学习里经典的 vc-dimension 理论告诉我们:一个机器学习模型想要取得好的效果,这个模型需要满足以下两个条件:1. 模型在我们的训练数据上的表现要不错,也就是 trainning error 要足够小。2. 模型的 vc-dimension 要低。换句话说,就是模型的自由度不能太大,以防overfit.当然,这是我用大白话描述出来的,真正的 vc-dimension 理论需要经过复杂的数学推导,推出 vc-bound.vc-dimension 理论其实是从另一个角度刻画了一个我们所熟知的概念,那就是 bias variance trade-off.好,现在开始让我们想象一个机器学习任务。对于这个任务,一定会有一个 “上帝函数” 可以完美的拟合所有数据(包括训练数据,以及未知的测试数据)。很可惜,这个函数我们肯定是不知道的 (不然就不需要机器学习了)。我们只可能选择一个 “假想函数” 来 逼近 这个 “上帝函数”,我们通常把这个 “假想函数” 叫做 hypothesis.在这些 hypothesis 里,我们可以选择 svm, 也可以选择 logistic regression. 可以选择单棵决策树,也可以选择 tree-ensemble (gbdt, random forest).
现在的问题就是,为什么 tree-ensemble 在实际中的效果很好呢?区别就在于 “模型的可控性”。“模型的可控性” 这个词是我自己发明的,因为我没有从其它的机器学习的教科书或者课程中找到类似的术语。先说结论,tree-ensemble 这样的模型的可控性是好的,而像 LR
这样的模型的可控性是不够好的(或者说,可控性是没有 tree-ensemble 好的)。为什么会这样?别急,听我慢慢道来。我们之前说,当我们选择一个 hypothsis 后,就需要在训练数据上进行训练,从而逼近我们的 “上帝函数”。我们都知道,对于 LR 这样的模型。如果 underfit,我们可以通过加 feature,或者通过高次的特征转换来使得我们的模型在训练数据上取得足够高的正确率。而对于 tree-enseble 来说,我们解决这一问题的方法是通过训练更多的 “弱弱” 的 tree.
所以,这两类模型都可以把 training error 做的足够低,也就是说模型的表达能力都是足够的。但是这样就完事了吗?没有,我们还需要让我们的模型的 vc-dimension 低一些。而这里,重点来了。在 tree-ensemble 模型中,通过加 tree 的方式,对于模型的 vc-dimension 的改变是比较小的。而在 LR 中,初始的维数设定,或者说特征的高次转换对于 vc-dimension 的影响都是更大的。换句话说,tree-ensemble 总是用一些 “弱弱” 的树联合起来去逼近 “上帝函数”,一次一小步,总能拟合的比较好。而对于 LR 这样的模型,我们很难去猜到这个“上帝函数”到底长什么样子(到底是2次函数还是3次函数?上帝函数如果是介于2次和3次之间怎么办呢?)。所以,一不小心我们设定的多项式维数高了,模型就 “刹不住车了”。俗话说的好,步子大了,总会扯着蛋。这也就是我们之前说的,tree-ensemble 模型的可控性更好,也即更不容易 overfit.(2)站在数据的角度除了理论模型之外, 实际的数据也对我们的算法最终能取得好的效果息息相关。kaggle 比赛选择的都是真实世界中的问题。所以数据多多少少都是有噪音的。而基于树的算法通常抗噪能力更强。比如在树模型中,我们很容易对缺失值进行处理。除此之外,基于树的模型对于 categorical feature 也更加友好。除了数据噪音之外,feature 的多样性也是 tree-ensemble 模型能够取得更好效果的原因之一。通常在一个kaggle任务中,我们可能有年龄特征,收入特征,性别特征等等从不同 channel 获得的特征。而特征的多样性也正是为什么工业界很少去使用 svm 的一个重要原因之一,因为 svm 本质上是属于一个几何模型,这个模型需要去定义 instance 之间的 kernel 或者 similarity (对于linear svm 来说,这个similarity 就是内积)。这其实和我们在之前说过的问题是相似的,我们无法预先设定一个很好的similarity。这样的数学模型使得 svm 更适合去处理 “同性质”的特征,例如图像特征提取中的 lbp 。而从不同 channel 中来的 feature 则更适合 tree-based model, 这些模型对数据的 distributation 通常并不敏感。(3)站在系统实现的角度除了有合适的模型和数据,一个良好的机器学习系统实现往往也是算法最终能否取得好的效果的关键。一个好的机器学习系统实现应该具备以下特征:1. 正确高效的实现某种模型。我真的见过有些机器学习的库实现某种算法是错误的。而高效的实现意味着可以快速验证不同的模型和参数。2. 系统具有灵活、深度的定制功能。3. 系统简单易用。4. 系统具有可扩展性, 可以从容处理更大的数据。到目前为止,xgboost 是我发现的唯一一个能够很好的满足上述所有要求的 machine learning package. 在此感谢青年才俊 陈天奇。在效率方面,xgboost 高效的 c++ 实现能够通常能够比其它机器学习库更快的完成训练任务。在灵活性方面,xgboost 可以深度定制每一个子分类器,并且可以灵活的选择 loss function(logistic,linear,softmax 等等)。除此之外,xgboost还提供了一系列在机器学习比赛中十分有用的功能,例如 early-stop, cv 等等在易用性方面,xgboost 提供了各种语言的封装,使得不同语言的用户都可以使用这个优秀的系统。最后,在可扩展性方面,xgboost 提供了分布式训练(底层采用 rabit 接口),并且其分布式版本可以跑在各种平台之上,例如 mpi, yarn, spark 等等。有了这么多优秀的特性,自然这个系统会吸引更多的人去使用它来参加 kaggle 比赛。综上所述,理论模型,实际的数据,良好的系统实现,都是使得 tree-ensemble 在实际的 kaggle 比赛中“屡战屡胜”的原因。
Institute of Software Chinese Academy of Sciences
Spark Contributor/commit这是一份为数据科学初学者准备的Kaggle竞赛指南2 months ago23收藏分享举报{&debug&:false,&apiRoot&:&&,&paySDK&:&https:\u002F\\u002Fapi\u002Fjs&,&wechatConfigAPI&:&\u002Fapi\u002Fwechat\u002Fjssdkconfig&,&name&:&production&,&instance&:&column&,&tokens&:{&X-XSRF-TOKEN&:null,&X-UDID&:null,&Authorization&:&oauth c3cef7c66aa9e6a1e3160e20&}}{&database&:{&Post&:{&&:{&isPending&:false,&contributes&:[],&title&:&这是一份为数据科学初学者准备的Kaggle竞赛指南&,&author&:&yimi-jian-fang-wen-hua-chuan-bo-you-xian-gong-si&,&content&:&\u003Cp\u003E我从哪里开始?\u003C\u002Fp\u003E\u003Cp\u003E我会面对经验丰富的博士级研究人员团队么?\u003C\u002Fp\u003E\u003Cp\u003E如果我没有获胜的机会,那么还值得竞争吗?\u003C\u002Fp\u003E\u003Cp\u003E这就是数据科学?(如果在Kaggle做得不好,那么我在数据科学方面还有未来吗?)\u003C\u002Fp\u003E\u003Cp\u003E我的未来将如何发展?\u003C\u002Fp\u003E\u003Cp\u003E当你第一次接触Kaggle时,是否也有这些困惑?好,那你来对地方了!\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E这份入门指南详细介绍了一些参加Kaggle竞赛必知的知识,以及如何在Kaggle竞赛中打怪升级,争夺排位,“登上人生巅峰”!\u003C\u002Fp\u003E\u003Cp\u003E对于数据科学初学者来说,Kaggle是一个很受欢迎的竞赛平台。毕竟,这里的一些竞赛中有超过1000000美元的奖金池和数以百计的行业高手。而这里的顶尖团队也拥有数十年的综合经验,曾处理过很多高大上的问题,如改善机场安全或分析卫星数据等。\u003C\u002Fp\u003E\u003Cp\u003E虽然Kaggle如此有吸引力,但是当你首次参与时也要hold住自己,一定要理清以下内容。\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cb\u003EKaggle 和日常数据科学的差异\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E首先,我们需要知道的是:Kaggle比赛与日常使用的数据科学是有重要差异的。但是,如果你以正确的心态去了解它们,还是能获取很多宝贵经验的。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003EKaggle比赛\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E本质上,比赛(获奖)必须符合以下3个标准:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E1. 问题一定很难。\u003C\u002Fb\u003E比赛问题不可能一个下午就能解决。为了获得最好的投资收益,主办方会提交使他们的效益最大,同时也是最难解决的问题。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E2. 解决方案必须是新的。\u003C\u002Fb\u003E为了赢得最新的比赛,你通常需要进行扩展研究、制定算法、训练高级模型等。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E3. 必须与他人竞争。\u003C\u002Fb\u003E因为比赛的目标就是赢得冠军,所以你的解决办法必须与他人的竞争,而且争取获胜。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E日常的数据科学\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E相比之下,日常数据科学不需要达到相同的标准。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E1. 解决问题的方法越简单越好。\u003C\u002Fb\u003E事实上,数据科学家应该尝试事半功倍的方法:能够快速有效地解决有影响力的项目。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E2. 解决方案必须成熟。\u003C\u002Fb\u003E大多数常见的任务(如探索性分析、数据清理、A\u002FB测试、经典算法)已经有了证明框架。只需要重新设计架构即可。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E3. 不需要与他们竞争成为第一。\u003C\u002Fb\u003E一个解决方案即使只是胜过之前的测试基准一点点,也可能是非常有价值的。\u003C\u002Fp\u003E\u003Cp\u003EKaggle竞赛鼓励你发挥出最优秀的表现,而日常中的数据科学提倡效率和最大化的商业影响。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E那么,Kaggle是值得学习的吗?\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E尽管Kaggle和日常数据科学有很大的不同,但是对于初学者来说,Kaggle仍然是一个很好的学习工具。以下是Kaggle竞赛的3大优势:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E1. 每场比赛都是各自独立的。\u003C\u002Fb\u003E你不需要再扩展自己上一个项目,并收集数据,这可以让你把心思放在其他技能上。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E2. 实践就是实践。\u003C\u002Fb\u003E学习数据科学的最好方法是通过实践学习。你没有必须赢得每一场比赛的压力,同时可以遇到许多有趣的问题。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E3. 相互讨论和优胜者访谈对你都有启发性。\u003C\u002Fb\u003E每一场比赛都有讨论区以及优胜者访谈。你可以深入了解更有经验的数据科学家的思维过程。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-79befcf8d6aabd2b6aa48_b.png\& data-rawwidth=\&576\& data-rawheight=\&356\& class=\&origin_image zh-lightbox-thumb\& width=\&576\& data-original=\&https:\u002F\\u002Fv2-79befcf8d6aabd2b6aa48_r.png\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='576'%20height='356'&&\u002Fsvg&\& data-rawwidth=\&576\& data-rawheight=\&356\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&576\& data-original=\&https:\u002F\\u002Fv2-79befcf8d6aabd2b6aa48_r.png\& data-actualsrc=\&https:\u002F\\u002Fv2-79befcf8d6aabd2b6aa48_b.png\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cb\u003E如何开始Kaggle的工作\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E接下来是一个循序渐进的行动计划,让你在Kaggle上可以轻松提升自己,参与竞争。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E步骤1:选择一种编程语言\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E首先,你需要选择一种编程语言并坚持使用它。在Kaggle和更广泛的数据科学社区论坛中,Python和R都很受欢迎。\u003C\u002Fp\u003E\u003Cp\u003E如果这俩你都没有接触过,推荐Python,因为它是一种通用的编程语言,你可以端到端使用它。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E步骤2:学习数据的基础知识\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E加载、导航和绘制数据(即探索性分析)的能力是数据科学的第一步,因为它告诉了你在整个模型训练过程中所做的各种决策。\u003C\u002Fp\u003E\u003Cp\u003E如果你选择了Python语言,那么建议你使用专门为此而设计的Seaborn数据库。 它有许多绘制最常见和有用的图表的高级功能。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E步骤3:训练你的第一个机器学习模型\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E在进入Kaggle之前,建议你在更容易、更易于管理的数据集上对模型进行训练。这可以让你熟悉机器学习库和空间布局。\u003C\u002Fp\u003E\u003Cp\u003E关键是要养成良好的习惯,比如,将数据集分解为单独的训练集和测试集,交叉验证以避免过度使用,并使用合适的性能指标。\u003C\u002Fp\u003E\u003Cp\u003E对于Python来说,最好的通用机器学习库是“scikit-Learn”。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E步骤4:着手准备入门赛\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E现在我们已经作好技术准备,该来了解一下Kaggle了!\u003C\u002Fp\u003E\u003Cp\u003EKaggle最常见的比赛类型包括以下4种:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E特色赛:\u003C\u002Fb\u003E通常是由公司、组织,甚至是政府赞助的。他们有最大的奖金池。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E研究赛:\u003C\u002Fb\u003E面向研究,几乎没有奖金。他们也有非传统的提交过程。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E招聘赛:\u003C\u002Fb\u003E是由想招聘数据科学家的公司赞助的,比较少见。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E入门赛:\u003C\u002Fb\u003E有很多比较有特色的比赛,但是没有奖金池。它们提供了易于处理的数据集、大量的教程和循环的提交窗口,这样你可以随时参加比赛。\u003C\u002Fp\u003E\u003Cp\u003E入门赛比较适合初学者,因为它给了你一个低风险的学习环境。同时,你还能得到许多社区、论坛创建的教程。\u003C\u002Fp\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-cb5a1be6399_b.png\& data-rawwidth=\&575\& data-rawheight=\&273\& class=\&origin_image zh-lightbox-thumb\& width=\&575\& data-original=\&https:\u002F\\u002Fv2-cb5a1be6399_r.png\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='575'%20height='273'&&\u002Fsvg&\& data-rawwidth=\&575\& data-rawheight=\&273\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&575\& data-original=\&https:\u002F\\u002Fv2-cb5a1be6399_r.png\& data-actualsrc=\&https:\u002F\\u002Fv2-cb5a1be6399_b.png\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E步骤5: 学习经验教训,而不是关注收益\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E有了上述基础,大显身手的时候到了!\u003C\u002Fp\u003E\u003Cp\u003E一般来说,参加Kaggle比赛需要很多时间和精力,还要合理安排。因此,建议你明智地选择对手。尽量参加能使你实现长期目标的竞赛,获取其中的技术和技巧。\u003C\u002Fp\u003E\u003Cp\u003E虽然奖金很诱人,但更有价值(更可靠)的奖励是你可以获得为自己的职业发展所需要的技能。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cb\u003E在Kaggle比赛中节约时间的7个小技巧\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E技巧1:设定递增目标\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E如果你玩过“Addicting Games”游戏,就会知道递增目标的魅力。这就是能让你着迷的,很牛的游戏的手段。每一个目标都足够大,足以让人有成就感,但却足够现实,让你触手可及。\u003C\u002Fp\u003E\u003Cp\u003E大多数的参赛者都不可能一上来就赢得一场比赛,如果你把赢一场作为你的第一个目标,那么很容易感到气馁,在尝试了几次之后就失去动力了。循序渐进的目标会使你的kaggle之旅更加愉快。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E例如:\u003C\u002Fp\u003E\u003Cp\u003E 1.在一场比赛中得分居于前50%。\u003C\u002Fp\u003E\u003Cp\u003E 2.在一场比赛中得分居于前25%。\u003C\u002Fp\u003E\u003Cp\u003E 3.在一场比赛中得分居于前10%。\u003C\u002Fp\u003E\u003Cp\u003E 4.赢得比赛!\u003C\u002Fp\u003E\u003Cp\u003E这个策略可以让你在参赛过程中衡量自己的进步和改变。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E技巧2:查看最流行的参赛者内核\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003EKaggle有一个很棒的特点,参赛者可以提交内核——一种简短的脚本,可以探索一个概念,展示一种技术,甚至可以共享一个解决方案。\u003C\u002Fp\u003E\u003Cp\u003E当你开始一场比赛,或者当你达到一个顶峰时,回顾流行的内核可以激发出更多的想像。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-8ce90b1e664fba567c247_b.png\& data-rawwidth=\&568\& data-rawheight=\&419\& class=\&origin_image zh-lightbox-thumb\& width=\&568\& data-original=\&https:\u002F\\u002Fv2-8ce90b1e664fba567c247_r.png\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='568'%20height='419'&&\u002Fsvg&\& data-rawwidth=\&568\& data-rawheight=\&419\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&568\& data-original=\&https:\u002F\\u002Fv2-8ce90b1e664fba567c247_r.png\& data-actualsrc=\&https:\u002F\\u002Fv2-8ce90b1e664fba567c247_b.png\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E技巧3:在论坛上提问\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E不要害怕问“愚蠢” 的问题。你会有很多收获,包括来自经验丰富的数据科学家的建议和指导。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E技巧4:独立开发核心技能\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E一开始,建议你单独工作。这将迫使你独立处理应用机器学习过程的每一个步骤,包括探索性分析、数据清理、特性工程和模型培训。\u003C\u002Fp\u003E\u003Cp\u003E如果你过早地开始合作,你可能会错过发展这些基础性技能的机会。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E技巧5:利用团队合作突破瓶颈\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E也就是说,在未来的比赛中进行合作可能是一个很好的方式,向其他人学习,突破个人局限。过去,许多赢家都是团队,他们联合起来就意味着把更多优秀的知识结合起来。\u003C\u002Fp\u003E\u003Cp\u003E此外,一旦你掌握了机器学习的技术,你就可以与比你有更多领域知识的人合作,进一步拓展自己的能力。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E技巧6:记住,Kaggle也可能只是一个垫脚石\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E记住,你并不一定要成为一个长期的“竞技高手”。如果你发现你不喜欢这种模式,那也没什么大不了的。\u003C\u002Fp\u003E\u003Cp\u003E事实上,许多人在开始自己的项目或成为全职数据科学家之前,只是把Kaggle当作垫脚石。\u003C\u002Fp\u003E\u003Cp\u003E这也是你应该尽可能多地专注于学习的另一个原因。从长远来看,参加Kaggle最好的目标是获得相关经验,而不是追逐最多的奖金。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E技巧7:不要担心等级低\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E一些初学者不敢参加比赛,因为他们担心别人看到自己的低级别而感到难为情。当然,竞技焦虑是一种真实的现象,并不只局限于Kaggle。\u003C\u002Fp\u003E\u003Cp\u003E然而,低级别并不是什么大问题。没有人可以评判你,因为他们都是初学者。\u003C\u002Fp\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\\u002Fv2-e5ba5d264fc7b3c9faf9e_b.png\& data-rawwidth=\&573\& data-rawheight=\&425\& class=\&origin_image zh-lightbox-thumb\& width=\&573\& data-original=\&https:\u002F\\u002Fv2-e5ba5d264fc7b3c9faf9e_r.png\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='573'%20height='425'&&\u002Fsvg&\& data-rawwidth=\&573\& data-rawheight=\&425\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&573\& data-original=\&https:\u002F\\u002Fv2-e5ba5d264fc7b3c9faf9e_r.png\& data-actualsrc=\&https:\u002F\\u002Fv2-e5ba5d264fc7b3c9faf9e_b.png\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E即便如此,如果你仍然对个人资料中的低排名感到担忧,那么也可以创建一个单独的练习账号来学习技巧。一旦你感觉时机成熟,就可以使用自己的 “主账号”进击排行榜了。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cblockquote\u003E来源:Elitedatascience\u003Cbr\u003E智能观 编译整理
\u003Cbr\u003E\u003Cbr\u003E想知道AI加教育领域有哪些最新研究成果?请在智能观(zhinengguanym)对话界面回复“\u003Cb\u003E论文\u003C\u002Fb\u003E”;\u003Cbr\u003E想要AI领域更多的干货?请在对话界面回复“\u003Cb\u003E干货\u003C\u002Fb\u003E”;\u003Cbr\u003E想了解更多专家的“智能观”,请在对话界面回复“\u003Cb\u003E观点\u003C\u002Fb\u003E”,去获取你想要的内容吧。\u003C\u002Fblockquote\u003E\u003Cp\u003E\u003C\u002Fp\u003E&,&updated&:new Date(&T00:52:46.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:0,&collapsedCount&:0,&likeCount&:23,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&titleImage&:&https:\u002F\\u002Fv2-d7d81e675ecedd_r.png&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&reviewers&:[],&topics&:[{&url&:&https:\u002F\\u002Ftopic\u002F&,&id&:&&,&name&:&Kaggle&},{&url&:&https:\u002F\\u002Ftopic\u002F&,&id&:&&,&name&:&数学&},{&url&:&https:\u002F\\u002Ftopic\u002F&,&id&:&&,&name&:&人工智能&}],&adminClosedComment&:false,&titleImageSize&:{&width&:635,&height&:330},&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&tipjarState&:&closed&,&annotationAction&:[],&sourceUrl&:&&,&pageCommentsCount&:0,&hasPublishingDraft&:false,&snapshotUrl&:&&,&publishedTime&:&T08:52:46+08:00&,&url&:&\u002Fp\u002F&,&lastestLikers&:[{&bio&:&测试与分析&,&isFollowing&:false,&hash&:&72e70caf334a1df2e8f526fed597c021&,&uid&:849500,&isOrg&:false,&slug&:&peng-qiu-yang&,&isFollowed&:false,&description&:&站在35岁的分割线上的男人&,&name&:&彭秋阳&,&profileUrl&:&https:\u002F\\u002Fpeople\u002Fpeng-qiu-yang&,&avatar&:{&id&:&a7a1b8d9fe95d4d1339c55&,&template&:&https:\u002F\\u002F50\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&人生刚开始&,&isFollowing&:false,&hash&:&a4ad19bd4&,&uid&:749900,&isOrg&:false,&slug&:&guo-jing-00-00&,&isFollowed&:false,&description&:&&,&name&:&MRgj&,&profileUrl&:&https:\u002F\\u002Fpeople\u002Fguo-jing-00-00&,&avatar&:{&id&:&v2-1b53e6eff934458bcad1573f&,&template&:&https:\u002F\\u002F50\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&mfc&,&isFollowing&:false,&hash&:&d8e23c33ac8bc9c73abe1e4c1f616a7e&,&uid&:00,&isOrg&:false,&slug&:&wei-yuan-88-25&,&isFollowed&:false,&description&:&&,&name&:&Sunnyuanovo&,&profileUrl&:&https:\u002F\\u002Fpeople\u002Fwei-yuan-88-25&,&avatar&:{&id&:&da8e974dc&,&template&:&https:\u002F\\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&快快乐乐。&,&isFollowing&:false,&hash&:&b2edbeb7cca9ceb5398830b&,&uid&:956100,&isOrg&:false,&slug&:&guai-guai-guai-guai-xiao-hai&,&isFollowed&:false,&description&:&&,&name&:&怪怪怪怪小孩&,&profileUrl&:&https:\u002F\\u002Fpeople\u002Fguai-guai-guai-guai-xiao-hai&,&avatar&:{&id&:&v2-0c3e3b095cf49cf0e44e2&,&template&:&https:\u002F\\u002F50\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&ingress\u002F猫\u002F重庆GDG组织者&,&isFollowing&:false,&hash&:&03c11b7dc876d5bc234c754&,&uid&:203300,&isOrg&:false,&slug&:&leo-kuri&,&isFollowed&:false,&description&:&喵&,&name&:&leo kuri&,&profileUrl&:&https:\u002F\\u002Fpeople\u002Fleo-kuri&,&avatar&:{&id&:&d912e8cb1b&,&template&:&https:\u002F\\u002F50\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}],&summary&:&\u003Cimg src=\&https:\u002F\\u002F50\u002Fv2-79befcf8d6aabd2b6aa48_200x112.png\& data-rawwidth=\&576\& data-rawheight=\&356\& class=\&origin_image inline-img zh-lightbox-thumb\& data-original=\&https:\u002F\\u002F50\u002Fv2-79befcf8d6aabd2b6aa48_r.png\&\u003E我从哪里开始?我会面对经验丰富的博士级研究人员团队么?如果我没有获胜的机会,那么还值得竞争吗?这就是数据科学?(如果在Kaggle做得不好,那么我在数据科学方面还有未来吗?)我的未来将如何发展?当你第一次接触Kaggle时,是否也有这些困惑?好,那你…&,&reviewingCommentsCount&:0,&meta&:{&previous&:null,&next&:null},&annotationDetail&:null,&commentsCount&:0,&likesCount&:23,&FULLINFO&:true}},&User&:{&yimi-jian-fang-wen-hua-chuan-bo-you-xian-gong-si&:{&isFollowed&:false,&name&:&一米见方文化&,&headline&:&欢迎关注我们的微信公众号:智能观\n(zhinengguanym)&,&avatarUrl&:&https:\u002F\\u002F50\u002Fv2-a0f201d583a35bdd7ff0e4ab5d3f9f92_s.jpg&,&isFollowing&:false,&type&:&org&,&slug&:&yimi-jian-fang-wen-hua-chuan-bo-you-xian-gong-si&,&bio&:&智能观——关注人工智能如何对教育和出版领域赋能的新媒体
&,&hash&:&a425bdac91e920c467748d&,&uid&:925100,&isOrg&:true,&description&:&欢迎关注我们的微信公众号:智能观\n(zhinengguanym)&,&badge&:{&identity&:null,&bestAnswerer&:null},&profileUrl&:&https:\u002F\\u002Forg\u002Fyimi-jian-fang-wen-hua-chuan-bo-you-xian-gong-si&,&avatar&:{&id&:&v2-a0f201d583a35bdd7ff0e4ab5d3f9f92&,&template&:&https:\u002F\\u002F50\u002F{id}_{size}.jpg&},&isOrgWhiteList&:true,&isBanned&:false}},&Comment&:{},&favlists&:{}},&me&:{},&global&:{&experimentFeatures&:{&ge3&:&ge3_9&,&ge2&:&ge2_1&,&nwebStickySidebar&:&sticky&,&androidPassThroughPush&:&getui&,&newMore&:&new&,&liveReviewBuyBar&:&live_review_buy_bar_2&,&liveStore&:&ls_a2_b2_c1_f2&,&searchHybridTabs&:&pin-3&,&isOffice&:&false&,&homeUi2&:&default&,&answerRelatedReadings&:&qa_recommend_with_ads_and_article&,&remixOneKeyPlayButton&:&headerButton&,&asdfadsf&:&asdfad&,&qrcodeLogin&:&qrcode&,&newBuyBar&:&livenewbuy3&,&isShowUnicomFreeEntry&:&unicom_free_entry_on&,&newMobileColumnAppheader&:&new_header&,&zcmLighting&:&zcm&,&favAct&:&default&,&appStoreRateDialog&:&close&,&mobileQaPageProxyHeifetz&:&m_qa_page_nweb&,&iOSNewestVersion&:&4.2.0&,&default&:&None&,&wechatShareModal&:&wechat_share_modal_show&,&qaStickySidebar&:&sticky_sidebar&,&androidProfilePanel&:&panel_b&,&nwebWriteAnswer&:&experiment&}},&columns&:{&next&:{}},&columnPosts&:{},&columnSettings&:{&colomnAuthor&:[],&uploadAvatarDetails&:&&,&contributeRequests&:[],&contributeRequestsTotalCount&:0,&inviteAuthor&:&&},&postComments&:{},&postReviewComments&:{&comments&:[],&newComments&:[],&hasMore&:true},&favlistsByUser&:{},&favlistRelations&:{},&promotions&:{},&draft&:{&titleImage&:&&,&titleImageSize&:{},&isTitleImageFullScreen&:false,&canTitleImageFullScreen&:false,&title&:&&,&titleImageUploading&:false,&error&:&&,&content&:&&,&draftLoading&:false,&globalLoading&:false,&pendingVideo&:{&resource&:null,&error&:null}},&drafts&:{&draftsList&:[],&next&:{}},&config&:{&userNotBindPhoneTipString&:{}},&recommendPosts&:{&articleRecommendations&:[],&columnRecommendations&:[]},&env&:{&edition&:{},&isAppView&:false,&appViewConfig&:{&content_padding_top&:128,&content_padding_bottom&:56,&content_padding_left&:16,&content_padding_right&:16,&title_font_size&:22,&body_font_size&:16,&is_dark_theme&:false,&can_auto_load_image&:true,&app_info&:&OS=iOS&},&isApp&:false},&message&:{&newCount&:0},&pushNotification&:{&newCount&:0}}}

我要回帖

更多关于 数据分析 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信