求助有关数据分析师和fm2016足球总监推荐

点击联系发帖人 时间：2016-12-04 10:38

数据分析求助

数据分析师职位要求_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
数据分析师职位要求
上传于||文档简介
&&数据分析师岗位介绍和职位要求
阅读已结束，如果下载本文需要使用1下载券
想免费下载本文？
定制HR最喜欢的简历
你可能喜欢数据分析师_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
数据分析师
上传于||暂无简介
阅读已结束，如果下载本文需要使用0下载券
想免费下载更多文档？
定制HR最喜欢的简历
你可能喜欢2016中国数据分析师行业峰会：千名大数据从业者齐聚
[摘要]峰会吸引了3000多名数据分析从业者及爱好者参会，创下了中国数据分析师行业峰会三届以来参会人数之最，是首屈一指的行业盛会。CDAS2016中国数据分析师行业峰会现场9月3日至9月4日，CDAS 2016中国数据分析师行业峰会在北京国际会议中心成功举办。在为期两天的会议中，近百名国内外专家分享了他们对于大数据行业以及数据人才发展的观点与建议。此次峰会吸引了3000多名数据分析从业者及爱好者参会，创下了中国数据分析师行业峰会三届以来参会人数之最，是首屈一指的行业盛会。冷门不冷大数据渗透各行各业本次峰会设置了主论坛以及15个分论坛，涉及互联网、金融、电商、数据库、通讯、生物医疗等行业。其中，金融、互联网、电子表格、商业BI等“传统强项”的会场人数爆满，而人力资源管理、交通旅游、人才教育等这些听起来“冷门”的行业，也座无虚席。峰会期间，数十家企业在会展区进行了业务展示。据峰会筹备组相关负责人介绍，与往届相比，此次参展企业除了IBM这类大厂，还增加了许多细分领域的创业公司，如专注金融数据分析平台的数库、基于互联网数据进行消费者及市场研究的数说故事、针对互联网企业进行用户行为分析的神策数据、利用数据解决企业员工福利及关爱问题的关爱通等。数说故事创始人徐亚波介绍，近年来，传统的市场研究领域发生了很多变化，以前常用以调研为主的小数据，但是最近两年都开始用互联网数据，数说故事就是以此为基础，利用数据帮助品牌更好地读懂用户。数据分析行业在细分的同时，也不断走向开放与融合。北京市政交通一卡通公司数据运营总监张翔在本次峰会主论坛分享了北京市政一卡通的相关数据，以及在此基础上的挖掘应用。据悉，这些数据体量大，价值高，但其研究成果极少公开。张翔告诉记者，他还是第一次参加像CDAS 2016中国数据分析师行业峰会这样大规模的非政府会议，“以前都是参加各政府部门间的交流，现在我们很乐意走出来，与行业同仁多多沟通，寻求更多用好数据的机会”。“数据分析师是初级的数据科学家”中国数据分析师行业峰会至今已经举办三届。作为峰会主办方，经管之家旗下的CDA数据分析师多年来专注于数据分析人才培养，数据分析师行业的人才发展是历届峰会绕不开的话题。在9月3日主论坛的圆桌对话环节，来自IBM大数据大学的数据专家与国内行业同仁就此话题进行了交流。不管在国内还是在国外，数据科学家都是稀缺资源。而要成为数据科学家，首先要成为优秀的分析师。IBM大数据大学首席数据科学家Saeed Aghabozorgi认为，数据科学家有多年数据分析的经验，可以回答管理者的问题，帮助管理者进行决策，提供决策依据报告；但数据分析师的工作相对简单，可以每日接触数据，如果有必要创立新的算法，也可以做算法方面的研发，“数据分析师可能是初级的数据科学家”。但在国内许多企业里，数据分析师的工作并不那么简单。火据科技创始人王安讲到，“我曾在一个企业里面任过数据分析师，我推动公司整个数据的政策，帮助企业内部推广数据的理念……会建模，也会做模型和机器学习。但是我定义自己是数据分析师，因为我更注重从业务的角度来看待问题”。不管是数据分析师还是数据科学家，对数据的深刻理解离不开对业务的深入认识。对此，CDA数据分析研究院院长常国珍介绍，CDA数据分析师在建立之初就比较偏重于业务，在逐步建立课程体系的过程当中，也注重引入企业案例课程，培养数据分析师的实战能力。另一方面，IBM大数据大学（BDU）和CDA数据分析师已达成深度的合作伙伴关系，双方将共同致力于推进数据科学社区的建设、数据分析和大数据培训的发展。作为BDU大使和深度的合作伙伴，CDA将结合BDU的优质课程资源运用于其在线课程、现场班、公益训练营课程、社区活动以及会议当中，同时CDA系列的第一门课程：《数据挖掘导论》也已经在IBM大数据大学上面正式发布。未来，双方将合作开展全国地区的数据科学训练营、大数据竞赛、数据黑客马拉松等各类线下聚会活动，并将携手构建数据分析师认证标准。
正文已结束，您可以按alt+4进行评论
相关阅读：
相关搜索：
看过本文的人还看了
[责任编辑：chloexi]
热门搜索：
Copyright & 1998 - 2016 Tencent. All Rights Reserved苹果/安卓/wp
积分 11806, 距离下一级还需 6494 积分
权限: 自定义头衔, 签名中使用图片, 隐身, 设置帖子权限, 设置回复可见, 签名中使用代码
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发, 提升卡, 沉默卡, 千斤顶, 变色卡下一级可获得
道具: 置顶卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 158 天连续签到: 1 天[LV.7]常住居民III
背景Web Scraping
在大数据时代，一切都要用数据来说话，大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗，抽取，变形和装载数据的分析，探索和预测数据的展现
其中首先要做的就是获取数据，并提炼出有效地数据，为下一步的分析做好准备。数据的来源多种多样，以为我本身是足球爱好者，而世界杯就要来了，所以我就想提取欧洲联赛的数据来做一个分析。许多的网站都提供了详细的足球数据，例如：网易
这些网站都提供了详细的足球数据，然而为了进一步的分析，我们希望数据以格式化的形式存储，那么如何把这些网站提供的网页数据转换成格式化的数据呢？这就要用到的技术了。简单地说，Web Scraping就是从网站抽取信息，通常利用程序来模拟人浏览网页的过程，发送http请求，从http响应中获得结果。Web Scraping 注意事项在抓取数据之前，要注意以下几点：阅读网站有关数据的条款和约束条件，搞清楚数据的拥有权和使用限制友好而礼貌，使用计算机发送请求的速度飞人类阅读可比，不要发送非常密集的大量请求以免造成服务器压力过大因为网站经常会调整网页的结构，所以你之前写的Scraping代码，并不总是能够工作，可能需要经常调整因为从网站抓取的数据可能存在不一致的情况，所以很有可能需要手工调整
Python Web Scraping 相关的库Python提供了很便利的Web Scraping基础，有很多支持的库。这里列出一小部分BeautifulSoup
webscraping
当然也不一定要用Python或者不一定要自己写代码，推荐关注Web Scraping 代码下面，我们就一步步地用Python，从腾讯体育来抓取欧洲联赛13/14赛季的数据。
首先要安装Beautifulsoup[size=1em][size=1em]1pip install beautifulsoup4
我们先从球员的数据开始抓取。球员数据的Web请求是，返回的内容如下图所示：该web服务有两个参数，lega表示是哪一个联赛，pn表示的是分页的页数。首先我们先做一些初始化的准备工作[size=1em][size=1em]1from urllib2 import urlopen
[size=1em]2import urlparse
[size=1em]3import bs4
[size=1em]4
[size=1em]5BASE_URL = &http://soccerdata.&
[size=1em]6PLAYER_LIST_QUERY = &/playerSearch.aspx?lega=%s&pn=%d&
[size=1em]7league = ['epl','seri','bund','liga','fran','scot','holl','belg']
[size=1em]8page_number_limit = 100
[size=1em]9player_fields = ['league_cn','img','name_cn','name','team','age','position_cn','nation','birth','query','id','teamid','league']
urlopen,urlparse,bs4是我们将要使用的Python库。BASE_URL,PLAYER_LIST_QUERY,league,page_number_limit和player_fields是我们会用到的一些常量。下面是抓取球员数据的具体代码：[size=1em][size=1em]01def get_players(baseurl):
[size=1em]02& & html = urlopen(baseurl).read()
[size=1em]03& & soup = bs4.BeautifulSoup(html, &lxml&)
[size=1em]04& & players = [ dd for dd in soup.select('.searchResult tr') if dd.contents[1].name != 'th']
[size=1em]05& & result = []
[size=1em]06& & for player in players:
[size=1em]07& && &&&record = []
[size=1em]08& && &&&link = ''
[size=1em]09& && &&&query = []
[size=1em]10& && &&&for item in player.contents:
[size=1em]11& && && && &if type(item) is bs4.element.Tag:
[size=1em]12& && && && && & if not item.string and item.img:
[size=1em]13& && && && && && &&&record.append(item.img['src'])
[size=1em]14& && && && && & else :
[size=1em]15& && && && && && &&&record.append(item.string and item.string.strip() or 'na')
[size=1em]16& && && && && & try:
[size=1em]17& && && && && && &&&o = urlparse.urlparse(item.a['href']).query
[size=1em]18& && && && && && &&&if len(link) == 0:
[size=1em]19& && && && && && && && &link = o
[size=1em]20& && && && && && && && &query = dict([(k,v[0]) for k,v in urlparse.parse_qs(o).items()])
[size=1em]21& && && && && & except:
[size=1em]22& && && && && && &&&pass
[size=1em]23& && && && &
[size=1em]24& && &&&if len(record) != 10:
[size=1em]25& && && && &for i in range(0, 10 - len(record)):
[size=1em]26& && && && && & record.append('na')
[size=1em]27& && &&&record.append(unicode(link,'utf-8'))
[size=1em]28& && &&&record.append(unicode(query[&id&],'utf-8'))
[size=1em]29& && &&&record.append(unicode(query[&teamid&],'utf-8'))
[size=1em]30& && &&&record.append(unicode(query[&lega&],'utf-8'))
[size=1em]31& && &&&result.append(record)
[size=1em]32& & return result
[size=1em]33& &
[size=1em]34result = []
[size=1em]35for url in [ BASE_URL + PLAYER_LIST_QUERY % (l,n) for l in league for n in range(page_number_limit) ]:
[size=1em]36& & result = result +&&get_players(url)
我们来看看抓取球员数据的详细过程：首先我们定义了一个get_players方法，该方法会返回某一请求页面上所有球员的数据。为了得到所有的数据，我们通过一个for循环，因为要循环各个联赛，每个联赛又有多个分页，一般情况下是需要一个双重循环的：[size=1em][size=1em]1for i in league:
[size=1em]2& & for j in range(0, 100):
[size=1em]3& && &&&url = BASE_URL + PLAYER_LIST_QUERY % (l,n)
[size=1em]4& && &&&## send request to url and do scraping
Python的list comprehension可以很方便的通过构造一个列表的方式来减少循环的层次。另外Python还有一个很方便的语法来合并连个列表： list = list1 + list2好我们再看看如何使用BeautifulSoup来抓取网页中我们需要的内容。首先调用urlopen读取对应url的内容，通常是一个html，用该html构造一个beautifulsoup对象。beautifulsoup对象支持很多查找功能，也支持类似css的selector。通常如果有一个DOM对象是&xx class='cc'&,我们使用以下方式来查找：[size=1em][size=1em]1obj = soup.find(&xx&,&cc&)
另外一种常见的方式就是通过CSS的selector方式，在上述代码中，我们选择class=searchResult元素里面，所有的tr元素，过滤掉th也就是表头元素。[size=1em][size=1em]1for dd in soup.select('.searchResult tr') if dd.contents[1].name != 'th'
对于每一行记录tr，生成一条球员记录，并存放在一个列表中。所以我们就循环tr的内容tr.contents,获得对应的field内容。
对于每一个tr的content，我们先检查其类型是不是一个Tag,对于Tag类型有几种情况，一种是包含img的情况，我们需要取出球员的头像图片的网址。另一种是包含了一个链接，指向其他数据内容所以在代码中要分别处理这些不同的情况。对于一个Tag对象，Tag.x可以获得他的子对象，Tag['x']可以获得Tag的attribute的值。所以用item.img['src']可以获得item的子元素img的src属性。对已包含链接的情况，我们通过urlparse来获取查询url中的参数。这里我们利用了dict comprehension的把查询参数放入一个dict中，然后添加到列表中。[size=1em][size=1em]1dict([(k,v[0]) for k,v in urlparse.parse_qs(o).items()])
对于其它情况，我们使用Python 的and or表达式以确保当Tag的内容为空时，我们写入‘na’，该表达式类似C/C++或Java中的三元操作符 X ? A : B然后有一段代码判断当前记录的长度是否大于10，不大于10则用空值填充，目的是避免一些不一致的地方。[size=1em][size=1em]1if len(record) != 10:
[size=1em]2& & for i in range(0, 10 - len(record)):
[size=1em]3& && &&&record.append('na')
最后，我们把query中的一些相关的参数如球员的id，球队的id，所在的联赛代码等加入到列表。[size=1em][size=1em]1record.append(unicode(link,'utf-8'))
[size=1em]2record.append(unicode(query[&id&],'utf-8'))
[size=1em]3record.append(unicode(query[&teamid&],'utf-8'))
[size=1em]4record.append(unicode(query[&lega&],'utf-8'))
最后我们把本页面所有球员的列表放入一个列表返回。好了，现在我们拥有了一个包含所有球员的信息的列表，我们需要把它存下来，以进一步的处理，分析。通常，csv格式是一个常见的选择。[size=1em][size=1em]01import csv
[size=1em]02def write_csv(filename, content, header = None):
[size=1em]03& & file = open(filename, &wb&)
[size=1em]04& & file.write('\xEF\xBB\xBF')
[size=1em]05& & writer = csv.writer(file, delimiter=',')
[size=1em]06& & if header:
[size=1em]07& && &&&writer.writerow(header)
[size=1em]08& & for row in content:
[size=1em]09& && &&&encoderow = [dd.encode('utf8') for dd in row]
[size=1em]10& && &&&writer.writerow(encoderow)
[size=1em]11
[size=1em]12write_csv('players.csv',result,player_fields)
这里需要注意的就是关于encode的问题。因为我们使用的时utf-8的编码方式，在csv的文件头，需要写入\xEF\xBB\xBF，详见好了现在大功告成，抓取的csv如下图：因为之前我们还抓取了球员本赛季的比赛详情，所以我们可以进一步的抓取所有球员每一场比赛的记录抓取的代码如下[size=1em][size=1em]01def get_player_match(url):
[size=1em]02& & html = urlopen(url).read()
[size=1em]03& & soup = bs4.BeautifulSoup(html, &lxml&)
[size=1em]04& & matches = [ dd for dd in soup.select('.shtdm tr') if dd.contents[1].name != 'th']
[size=1em]05& & records = []
[size=1em]06& & for item in [ dd for dd in matches if len(dd.contents) & 11]: ## filter out the personal part
[size=1em]07& && &&&record = []
[size=1em]08& && &&&for match in [ dd for dd in item.contents if type(dd) is bs4.element.Tag]:
[size=1em]09& && && && &if match.string:
[size=1em]10& && && && && & record.append(match.string)
[size=1em]11& && && && &else:
[size=1em]12& && && && && & for d in [ dd for dd in match.contents if type(dd) is bs4.element.Tag]:
[size=1em]13& && && && && && &&&query = dict([(k,v[0]) for k,v in urlparse.parse_qs(d['href']).items()])
[size=1em]14& && && && && && &&&record.append('teamid' in query and query['teamid'] or query['id'])& &
[size=1em]15& && && && && && &&&record.append(d.string and d.string or 'na')& && && && && && &&&
[size=1em]16& && &&&records.append(record)
[size=1em]17& & return records[1:]&&##remove the first record as the header
[size=1em]18
[size=1em]19def get_players_match(playerlist, baseurl = BASE_URL + '/player.aspx?'):
[size=1em]20& & result = []
[size=1em]21& & for item in playerlist:
[size=1em]22& && &&&url =&&baseurl + item[10]
[size=1em]23& && &&&print url
[size=1em]24& && &&&result = result + get_player_match(url)
[size=1em]25& & return result
[size=1em]26match_fields = ['date_cn','homeid','homename_cn','matchid','score','awayid','awayname_cn','league_cn','firstteam','playtime','goal','assist','shoot','run','corner','offside','foul','violation','yellowcard','redcard','save']& &
[size=1em]27write_csv('m.csv',get_players_match(result),match_fields)
抓取的过程和之前类似。下一步做什么现在我们拥有了详细的欧洲联赛的数据，那么下一步要怎么做呢，我推荐大家把数据导入BI工具来做进一步的分析。有两个比较好的选择：
Tableau在数据可视化领域可谓无出其右，Tableau Public完全免费，用数据可视化来驱动数据的探索和分析，拥有非常好的用户体验
Splunk提供一个大数据的平台，主要面向机器数据。支持每天免费导入500M的数据，如果是个人学习，应该足够了。当然你也可以用Excel。
支持楼主：、
购买后，论坛将把您花费的资金全部奖励给楼主，以表示您对TA发好贴的支持
载入中......
很好的帖子，很专业
太强大了，务必好好研究；。
学习学习。
excel也不错，支持楼主新方法
shoucang,mark
提供数据抓取服务，有需求的朋友可以联系QQ
无限扩大经管职场人脉圈！每天抽选10位免费名额，现在就扫& 论坛VIP& 贵宾会员& 可免费加入
加入我们,立即就学扫码下载「就学」app& Join us!& JoinLearn&
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向，请联系（010-）；
邮箱：service@pinggu.org
投诉或不良信息处理：（010-）
京ICP证090565号
京公网安备号
论坛法律顾问：王进律师}

米需爱网