怎么做HG体育赛事怎样做数据有效性分析的有效性 ?

怎样做数据统计?如何保证数据的有效性-互联网的一些事
您的位置:
怎样做数据统计?如何保证数据的有效性
来源: 作者:浩峰
  在当今互联网普及的社会中,几乎每一个人都会和统计数字接触,例如各种经济数据、证券信息、房地产投资可行性报告、公司财务报告、以及与互联网相关的各种页面数据点击量、网页流量、用户量统计、用户趋势分析报告等;数据分析正在以从未想象过的方式影响着我们的生活;然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用,相反,往往还对读者形成误导,与此同时带来的问题是越来越多的人员会通过数据造假来蒙蔽对数据知识不是特别了解的人员,从而达到他们背后的目的;所以当我们在面对这些真假难分的数据时,我们又该如何去鉴别?
  在之前读过的《How to lie with statistics》一书中提到当我们接触一个统计资料时,提5个简单的问题可分辨大部分的统计资料,分别是:谁说的,他是如何知道的,遗漏了什么,是否有人偷换了概念以及这个资料有意义吗。
  谁说的?
  经常会遇到利用数据图表进行问题说明的情况,这时我们往往会关注于这些数据到底是什么意思而忽略这些数据的来源和它的时效性。当遇到数据的来源是某权威人士、权威机构时,这些话往往是为了掩盖真实的资料来源。有些数据图表虽然确实引用了权威的数据,但是很有可能的是别有用心的只截取了其中的一部分数据,虽然数据是权威可信的,但结论却是自己加的,以偏概全的结果是得到与原来数据完全相反的结论。另外当在问数据来源时,一定要补上问一句这是什么时候的数据了;数据是非常具有时效性的,如果用之前的数据来解释当前的现象,也会造成错误的结论。
  比如下面这两个图表是前后相隔半年针对图片软件使用情况所做的调查,可以看到变化很大;假如我们也要做一款全新的图片软件,参考这两张不同时间的调查图表可能会导致产品定位的截然不同。
  所以当我们在看到一个统计图表的时候,首先要想这个图表是从哪里来的,是什么时候的图表,我们应该问一句:&谁说的?&接着我们应该接着我们还应追加第二个问题:他是如何知道的?
  他是如何知道的?
  主要是看这些数据是怎么得到的,也就是调查的样本是否足够大,样本是否有偏,调查的人群是否涵盖了所有的用户。
  下面是两张针对播放器用户所做的亮点功能调查,一个是样本量100的结果,一个是样本量2000的结果,在样本量不一样时结果差异会很大。
  在互联网产品设计中,还有一个比较常见的问题是,当遇到一个设计或者一个功能不确定时,往往会直接询问周围同事的建议,可这并不能代表整个用户,导致结果的偏差。
  还有比如在一款新产品发布时,经常会做产品的可用性测试,得到的结论是一半的用户在某个功能的操作上存在问题,也许会觉得问题挺严重,实际可能是50%背后一共测试了两个用户,其中有一个用户遇到了问题。
  是否遗漏了什么?
  也就是看对结论有影响的因素是否都列举出来。比如说,调查表明公司的员工平均月薪是2万,调查涵盖了公司所有员工,外界一看,哇,该公司的员工工资好高啊,其实背后的原始数据没有纰漏出来,该公司有100个员工,总经理的工资是100万,而剩下的员工平均工资是1万,一平均,就说该公司的平均月薪是2万。
  比如在做一次竞品之间的满意度调查时发现自己产品的满意度明显高于竞争产品,大家看了都觉得很开心,但是却忽略了调查的方法,实际上该调查的对象都是最常使用自己产品的用户,那结果肯定是不言而喻。
  再说满意度的问题,如果针对自己的用户进行了产品的满意度调查,结果是85分(百分制),可能觉得产品还不错,可是缺少了和竞品的比较,85分到底是怎样一个水平,不得而知,实际情况是竞品用户的满意度都是在90分以上。下面两张分别是只有自己产品的满意度和有竞品满意度的图表,效果截然不同。
  是否偷换了概念?
  在看统计资料时,从收集原始资料到得出结论的整个过程,是否存在着概念的偷换。比如在收集数据时问题问的是可支配收入,下结论说的是收入;问题问的是使用过什么产品,结论说是经常使用什么产品;实际调查只针对某几项因素,下结论时却不加定语限制,让人觉得是整体的情况描述,就似现在国内大学排名,不同机构采用不同的指标排出不同的结果,实际公布时对采用的指标只字不提,结果往往误导和迷惑读众。
  给我印象深刻的是在2008年奥运会结束后四大门户网站都对外称自己在奥运会期间的报道取得了第一,让网友摸不着头脑的同时也让业界疑虑丛生。其实导致这种结果的第一个原因是不同公司排名所采用的指标不一样,指标分别有&用户访问量&、&网页流量&、&平均每位用户停留时间&、&访问速度&、&冠军访谈数量&等,这样四大门户都可以对外声称在奥运报道上取得了第一;第二个原因是引用的数据源不一样,导致数据上的差异,甚至不同公司引用同一家调研公司的数据都是不一样的,摘录其中一段调研公司的解释:&新浪、搜狐用的是我们两次不同的调查数据,这两次调查的城市范围、方法等都不一样,两方面数据结果根本没有可比性。新浪公布的那个结果是我们在国内128个城市采取计算机辅助电话访问的调查结果,而搜狐公布的那份结果是我们在北京、上海、广州、青岛、南京5个重要城市采取街访方式的调查结果。那5个最重要的城市和其他128个城市的网络普及率、人对网络的偏好都不一样,数据结果反映的东西肯定也不同&,普通网民在关注到&第一&的同时会去关注这些背后的数据吗?
  另外就是同一个数据,但是图表的基准值、刻度等不一样,也会导致图表表达出的效果截然不同,比如下面两个图,左边第一眼给人的感觉是2名用户之间的上网时长差异不大,而右边这个给人的感觉是差异非常大。
  这个资料有意义吗?
  许多统计资料在我们一眼就能看出是有误的。比如前一阵因为BT事件,一调查机构宣称:在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina;有时在对用户进行分类时,对于分类结果,分成的各个类别的用户是否都能在现实中找到对应的人群,或者说周围认识的每一个人是否都能找到属于自己的类别,这都是一眼能够看出是否有意义的。
  最后再举一个最常见但也最经常被误导的两个例子:
  很多人在学生时代肯定都听过老师有过这样的计算:离某某考试还有1个月时间,扣去一天8小时共10天的睡眠时间,扣去一天约4小时共5天的进餐活动等时间,再扣掉每周两天共8天的双休日,这时余下的学习时间就只剩7天了,这时一听都觉得很紧张,但是感觉没有这么短啊,其实是我们被老师忽悠了;一个产品开发项目计划本来总时长是1个月,后来因为某种变更,需求规划时间要增加15%,界面设计时间要增加20%,开发的时间要增加10%,测试时间要增加5%,则总时间要增加50%?实际总时间增加肯定不到20%。
  在这个信息爆炸的时代,统计本是一个通过数据揭露本质的有力工具,但遗憾的是,统计未必能够揭示真实,有时候还可能成为假象的帮凶。当我们面对生活中形形色色的统计数据时,还要多保持一些理智和清醒,并要有所保留地看待问题。因为&如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。&
,转载时请注明出处。
(转载请保留)
互联网的一些事,已超50万小伙伴关注!行业趋势数据
国际经济预测
国际旅游热点趋势
体育赛事数据【 读文献】2013年新加坡A*star用illumina-HGv4芯片做的信号通路-芯片数据处理-生信技能树 -
Powered by Discuz! Archiver
【 读文献】2013年新加坡A*star用illumina-HGv4芯片做的信号通路
该文章发在cancer discovery上面,杂志很不错。从数据处理的角度,我只关心figure6的芯片数据处理,就用了一个illumina-HGv4芯片,可以上12个样本,正好分成4组,每组3个重复,理论上我们应该对同样的芯片数据分析得到同样的结果。
数据见:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE30669
paper见:http://cancerdiscovery.aacrjournals.org/content/3/10/1156.long
分组是: HEK-PDK1, -MYC, or -E545K as compared with HEK-vector control cells.
文章的差异分析结果如下:
Significant analysis of microarray identified 1,750, 1,080, and 297 differentially expressed genes in these transformed cells when compared with nontransformed control cells, respectively (false discovery rate & 0.05; P & 0.01;
http://cancerdiscovery.aacrjournals.org/content/candisc/3/10/1156/F6.large.jpg?width=800&height=600&carousel=1
当然,把数据处理到同样的结果只是这篇论坛的一小步,如何看懂他们是如何来解释这些结果的才是最重要的。
我可以把数据拿下了从头到尾进行差异分析,但是文章没有描述那12个样本的分组信息,所以我的代码是:/jmzeng1314/my-R/blob/master/9-microarray-examples/illuminaHGv4/GSE30669_DEG.R
Jimmy你好!
借帖请教关于 illumina bead array 的两个小问题:
1. 看了你的 GSE30669_DEG.R 脚本和博文[用 lumi 包来处理 illumina 的 bead 系列表达芯片]介绍,似乎 GSE30669_HEK_Sample_Probe_Profile.txt 经过lumi.N.Q等步骤质控之后的数据 A,和直接读入从 GEO 下载的 GSE30669_series_matrix.txt 的数据 B,是等同的(即 A=B)?
你的博文中也提到“明显可以看到前面得到的dataMatrix 和后面得到的 exprSet 都是我们想要的表达矩阵 ## 因为你有时候获取别人处理好的表达矩阵,不符合你的 normalization 要求”。但是后面这句话让我很困惑,GSE30669_series_matrix.txt 直接读入的数据:
数据看起来确实已经 normalize 过了,所以我的理解没错?A=B?
2. 如果使用 GSE30669_series_matrix.txt 读入数据 B 直接进行下游 DE 分析,那么还是像 GSE30669_DEG.R 脚本里直接用 limma 做吗?
3. 我注意到同样是 Illumina HumanHT-12 V4.0 expression beadchip 的芯片数据,GSE65021 数据集提供 GSE65021_non-normalized.txt.gz,我读入 R 后去掉简单处理列名并去掉 P 值列后是这样:
显然和上面的 series_matrix.txt 文件内容比起来是 non-normalized 了。如果恰好 GSE65021_series_matrix.txt “不符合你的 normalization 要求”,这个GSE65021_non-normalized.txt.gz 数据就是要分析的,那么下面的 normalize 要怎么做呢?log2(ttt+1)?
我看页面并没有给出 GSE65021_non-normalized到 GSE65021_series_matrix 之间是何种关系,读入 GSE65021_series_matrix.txt 看了一下数据看起来也不像是上面 GSE30669_series_matrix.txt 那样的经过 normalize 的数据,似乎 GSE65021_non-normalized.txt 和 GSE65021_series_matrix.txt 都没有normalize。很不明白要怎么处理这种情况。
问题不知道说清楚了没有。
尚目目 发表于
Jimmy你好!
借帖请教关于 illumina bead array 的两个小问题:
1. 看了你的 GSE30669_DEG.R 脚本和博文[用 ...
看起来在这个GSE30669里面的GSE30669_series_matrix.txt 记录的不是纯粹的表达矩阵了,我们一般不用你截图的这个东西的。
芯片的log2表达矩阵,绝大部分value必须在3~15之间,一定要用boxplot看一下。
我建议你读取non-normalized.txt.gz里面的文件,然后用lumi 包来处理得到表达矩阵,代码如下:
x.lumi &- lumiR.batch(fileName) ##, sampleInfoFile='sampleInfo.txt')
pData(phenoData(x.lumi))
## Do all the default preprocessing in one step
lumi.N.Q &- lumiExpresso(x.lumi)
### retrieve normalized data
dataMatrix &- exprs(lumi.N.Q)
exprSet=dataMatrix
Jimmy 发表于
看起来在这个GSE30669里面的GSE30669_series_matrix.txt 记录的不是纯粹的表达矩阵了,我们一般不用你截 ...
多谢Jimmy的解答:handshake
尚目目 发表于
Jimmy你好!
借帖请教关于 illumina bead array 的两个小问题:
1. 看了你的 GSE30669_DEG.R 脚本和博文[用 ...
这个问题我遇到过,raw.data 这个就是其实就是注释文件 ,no normalize这个文件其实不是lumibatch对象,所以不能用lumi包读取。我看了部分GEO beadarray只提供看了 raw.data这个文件都是26.2M大小,这个文件没有什么用处,还有就是no normalize文件。里面有个表达,后面有detection pval。这个不是所谓的官方beststuio或者geomestudio导出的数据,也就是lumibatch对象文件。所以只能用下载matrix去分析。
Jimmy 发表于
看起来在这个GSE30669里面的GSE30669_series_matrix.txt 记录的不是纯粹的表达矩阵了,我们一般不用你截 ...
这个non normalize txt文件不是lumibatch对象所以不能用lumi包处理。有的就没有提供beststudio或者genomestudio软件导出的lumibatch对象文件。non normalize 文件内容格式和lumibatch文件内容格式也不一样。
渊梦无痕 发表于
这个问题我遇到过,raw.data 这个就是其实就是注释文件 ,no normalize这个文件其实不是lumibatch对象, ...
但是在不知道别人的 normalized _matrix 是怎么得来的情况下,我觉得直接用也不是一个好的选择啊
尚目目 发表于
但是在不知道别人的 normalized _matrix 是怎么得来的情况下,我觉得直接用也不是一个好的选择啊 ...
我看了一些帖子说可能需要用到probe file 和sample info文件& &然后genomestudio软件处理才能得到lumi包的lumibatch对象。
渊梦无痕 发表于
我看了一些帖子说可能需要用到probe file 和sample info文件& &然后genomestudio软件处理才能得到lumi ...
我都不敢用 series_matrix 了,有 RAW_data 都是直接选下载原始数据自己处理了。
查看完整版本:标签:至少1个,最多5个
四周昏暗,是一家小城的酒肆,屋外正是大雪纷飞。
林葱抖了抖外套,进的店里来,叫了两斤熟牛肉,一壶烧酒。
“小二,最近什么工作有前途啊?”
小二打量了一眼林葱,只见眼前的客官浓眉大眼,身穿一件半旧西装,一副黑框眼镜半藏衣袋之中。远看像个老坏蛋,近看好像朱时茂一般,越看越觉得有一个工作适合他。
“小二你瞪得我发毛”
“客官,你且等我细说”说罢用指头蘸了一点桌上的茶水,就画起了百度指数的图来:
在百度指数上,数据分析师的搜索指数也是不断增长。
林葱听得兴起,搬着凳子坐进,只见小二凭空画出了一个浏览器,细看正是代表未来的ie8.0的界面!
“来来来,我输入 www.zaoshu.io,就是造数科技,我们趴一下网上数据分析师的数据吧”
小二说得兴起,已经进入无人之境。
“在爬取了招聘网站上几千条数据后,得出了一些有意思的结论,来看看公司到底需要哪样的人才。”
首先,大家最关心的薪水
可以很明显的看出10K—30K是分布最多的,同时也要看到10K以下的部分。数据分析师真的算是高薪职位了。
先别高心的太早了,我们往下看。
多数公司都有职位上的经验要求,3-5年最后,其次是1-3年。虽说有10%公司没有经验要求,对于毫无经验的应届生,可能比较难以找到数据分析工作。
学历上要求并不高,超过80%的公司要求是本科学历,6.2%的公司要求硕士学位。
最后我们来看看技能数。
去掉一些无用字以后,依次是:
数据分析师一定要学习数据库相关的知识,同时也可以学习Python增强竞争力。
看完了数据分析师的技能要求,我们来看看公司的数据。是不是优质的公司在招我们的大侠呢?
100—499人的公司对数据分析师的需求最强烈,大公司需要很多数据分析师。
初创公司对数据分析师需求最小。
很多公司不需要融资、或者已经上市。不需要融资的公司代表:
“当然,很多图,你看我空手可以画,没有这个神功必须要用bdp才行, @小草莓 ”
林葱听着已经十分有感触,说着就要去投递简历。
小二眼见说完了,说罢自顾自走上了客房,指着上面这一番美景说道:“当然分析上面这样的图形也很有意思!”
数据分析师是一个高薪职位,需要一定的工作经验,一定要掌握数据库相关知识。
最后,给出一些助你学习数据分析的网站
0 收藏&&|&&2
你可能感兴趣的文章
1 收藏,1.4k
用Python做数据分析还不如用Python搞数据科学
用Python做数据分析还不如用Python搞数据科学
啊啊啊,造数君没有明白你的意思额
啊啊啊,造数君没有明白你的意思额
分享到微博?
你好!看起来你挺喜欢这个内容,但是你还没有注册帐号。 当你创建了帐号,我们能准确地追踪你关注的问题,在有新答案或内容的时候收到网页和邮件通知。还能直接向作者咨询更多细节。如果上面的内容有帮助,记得点赞 (????)? 表示感谢。
明天提醒我
我要该,理由是:}

我要回帖

更多关于 怎样做数据有效性 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信