天下武功，天下功夫唯快不破破对吗

点击联系发帖人 时间：2015-04-30 04:09

唯快不破是什么意思

快速链接：
21/26&&第21篇
选择字号：
曾李青第1节天下武功唯快不破&
天下武功唯快不破
三人团队是最佳组合，而且还要有排序：老大懂产品，老二懂技术，老三懂市场和推广。
根据我的经验，有很多情况不能进行投资：1.富人二次创业；2.大学生没打过工就直接创业；3.夫妻公司；4.单一股东太大，创业团队的能力覆盖有明显缺陷；5.创业者很自负，认为自己比马化腾还强。
在职业生涯里，我扮演过多种角色，打工者、创业者、投资人等，这是一个人的成长过程。打工，是为了生活；创业，是为了实现理想；成功后投资，是回报社会，把过去的经验和资本交给年轻人。
小业靠勇，中业靠智，大业靠德。能做成多大的事情，创业公司和创业者正直的品德很重要。
我们和创业者沟通时更多讲的是方法论，让他们自己去思考、去作分析、去作判断。我们从来不越界，他们的生和死必须要由自己负责。
我们投的钱只够你这个公司干一件事情，如果不成功就要关门，第一件事情成功了以后才有可能讨论来干第二件事情。所以，我们只给创业者一次机会，创业者要对这个事情最专业才行，不成功再去转型还不如直接关门。
天下武功唯快不破，要以最快的速度静悄悄地迅速占据市场。最可怕的敌人是黑暗中拿着利器和利剑的人，所以要很迅速、很安静地进入市场。
人品要很正，品德要高尚，我们对品德的要求很高，我们是不会和一些品德不高尚的人一起合作的。
我们更希望创业者要有职业经理人的心态，不要天天觉得自己是老板。
刚开始做天使投资的人，要作好最开始至少交几千万元学费的思想准备。
微心得 &创业成本越来越高，天使投资可以帮助新创业者
每个人对天使投资的理解不一样，我的理解有这么三点：首先是很早期、高风险、高回报；第二，一般情况下都是行业内有经验的从业人员转型出来，必须具备对行业的了解才能够比较好地去做投资；第三，我同意雷军的观点，做天使投资有1/3是在做慈善公益事业，也就是你的钱是从这个行业来的，有一部分要再回归到这个行业里帮助一些企业。
从现在整个社会的发展来看，创业的成本一直在上升，没有天使投资人有些项目真的不太可能做起来。现在随便一个项目启动都要二三百万元，一个毕业四五年的大学生纯粹靠自己的积蓄比较难，拿不出创业所需的资本，所以现在越来越需要天使投资人。
天使投资的作用和意义很大：一是让更多的资本进入股权融资领域，中国企业传统的融资渠道只有银行贷款和企业发债；二是增加了年轻人实现创业梦想的机会，现在的社会成本结构导致自己创业很难，而天使投资对新创业者的帮助很大；最后，让整个行业的发展更健康和活跃，而不是只有一些巨头控制和垄断，这对行业是一个有效激励。
天使投资在美国的发源也是在电子、计算机行业发展之后，覆盖的范围更广泛，而我们国家现在天使投资都大部分还只在TMT（Technology，Media，Telecom）领域，而且美国资本聚集和散去的速度更快，资本的力量很强，十几年就出一批新公司，资本流动性和资本效应的附加效果更强。在美国如果有一个巨头快起来了，其他VC就不会再乱投相似的企业，但在中国任何行业竞争都很激烈，相对来说产生创新企业的速度也慢，因为巨头进入的速度快，所以你永远很难超过巨头。
我认为，天使投资成功与否的标准有三点：能否培养出优秀的企业和企业家是唯一标准，其次是自己做得是否开心和快乐，最后是能否获得社会对自己的尊重和认同。
21/26&&第21篇
&收藏书:&&收藏书:&在目前创业成为一种时尚、一种生活方式时，如何提前创业的成功率...&收藏书:&&收藏书:&&收藏书:&&推荐书:&很不错的书&收藏书:&&收藏书:&&收藏书:&&收藏书:&&收藏书:&&收藏书:&&收藏书:&goog&收藏书:&good&收藏书:&good
爱书人上一页1/10下一页
《商业评论》天下武功唯快不破
西班牙1∶1 意大利
意大利队球员迪纳塔莱在比赛中庆祝进球。新华社发
克罗地亚3∶1爱尔兰
克罗地亚前锋曼祖基奇头球破门瞬间。
本报记者郑昆
“意大利人不是来踢球的，他们是来踢我们的！”本届欧洲杯最具分量的一场比赛结束之后，西班牙队队长哈维的愤怒声讨已经表明，欧洲杯的火药味越来越浓。在一场令人眼花缭乱的快速攻防转换中，两大世界冠军的交锋，最终以1∶1收场。
接下来克罗地亚与爱尔兰的角逐，更是宛如《速度与激情》的翻版，开场仅仅2分37秒，克罗地亚人就头球破门，创造了本届欧洲杯的最快进球。
《功夫》里的火云邪神说过：天下武功，唯快不破。这句话，11日凌晨在绿茵场上得到了最好的诠释。
无锋西班牙令人担忧
在德国1球小胜葡萄牙之后，他们在夺冠赔率榜上已经超越了之前的最大热门西班牙排名第一。博彩公司的眼光是敏锐的，西班牙锋线不力的结果，的确已经影响到他们的夺冠前景。
西班牙和意大利的对决，是世界足坛截然不同的两种风格的极致演绎。但昨天西班牙的首发阵容一亮相，全世界都瞠目结舌，11名球员中，居然没有一名前锋。在433的阵形名义下，西班牙祭出的实际是“460”的怪阵。
即便如此，看西班牙人的比赛依然是一种享受，加上意大利这样一个重量级的对手，全场比赛的攻防转换之快，各种行云流水的配合，让人目不暇接。在如此节奏的对抗中，速度决定了进球，意大利的快速反击，让他们率先进球。而仅仅几分钟之后，西班牙在对方禁区前沿的一系列配合，法布雷加斯如鬼魅一般的迅速前插射门扳平了比分。西班牙在比赛的最后关头终于派出了他们的前锋托雷斯，但他上场之后就浪费了两个单刀机会，或许这说明了“460”阵形的无奈，在比利亚无法随队出征欧洲杯后，西班牙的锋线确实无人可用。
比赛之后，全世界都对意大利的惊艳表现赞不绝口。在取得一场平局之后，意大利人却像击败了对手一样骄傲。从侧面来说，这更反映了所有球队对西班牙队的敬畏。
昔日中国队就一直被人诟病：“临门一脚是大问题”。如今西班牙队好像也遭遇到这个问题，前不久他们与中国队的热身赛，也仅仅1∶0小胜。西班牙也沦落到了中国队的地步？这完全是一个让人无法接受的冷笑话。
克罗地亚尽情摇滚
2008年的欧洲杯，克罗地亚小组赛3战全胜力压德国以第一名出线，让格子军团赚足了眼球，而激情四射的少帅比利奇在场边手舞足蹈的画面，也成了一道亮丽的风景线。如今，这位出过唱片、兼职摇滚歌手的少帅，又指挥他的队伍，在本届欧洲杯上制造了一出摇滚风暴。
克罗地亚队的凶猛和快速，在昨天的比赛中得到淋漓尽致的展现。整场比赛，格子军团都在一种迅捷的模式中冲击着对手的防线，开场仅2分37秒的进球，不仅是本届欧洲杯的最快进球，在欧洲杯历史上也排名第6。在爱尔兰队扳平比分后，克罗地亚没有让对手的幻想持续多久，他们在半场结束前再次改写比分。而下半场一开始，他们又闪电般地再进一球，彻底粉碎了爱尔兰人反扑的信心。
在西班牙、意大利、荷兰、德国、葡萄牙等强队纷纷亮相之后，我们发现，只有俄罗斯和克罗地亚队为我们奉献了进球大餐。我们太需要这样的进攻风暴，来刺激我们在深夜看球时昏昏欲睡的神经。
力压西班牙和意大利小组出线？克罗地亚已经触摸到了希望。赛后比利奇表示，自己的球队已经踏上了晋级八强之路。如果他们真能出线，那对全世界球迷都是好事，因为他们迅雷般的摇滚表演，我们百看不厌。
感谢您阅读：
虚假新闻投诉致电023-　
[责任编辑：
| 重报集团 | 日报简介 |
| 广告业务 |
Copyright (C) , All Rights Reserved.
重庆日报版权所有未经书面授权不得复制或建立镜像
地址：重庆市渝中区较场口85号大元广场4楼邮编：400010 广告招商：023- 传真：023-
渝ICP备号经营许可证编号：渝B2-不知道从什么时候开始，不管是写独立博客，还是网络应用，甚至写托管博客的人都会朝着“大”网站看齐，去追求网站的响应速度，通俗点说，就是白屏时间，因为据各种报告说，网站打开速度更快一些，带来的用户体验就更好一些，从而带来更多的附加利益。但是对于用户来说，快，并不是简简单单请求数目尽可能少，和服务器吞吐能力尽可能大。那么，怎么快？由于本人水平有限，内容可能有误，欢迎拍砖斧正，和帮助补充。谈到速度（参考物和例子稍后一起提），我们首先能想到的事物有：服务器机器性能服务器机房带宽资源服务器软件性能DNS查询速度页面资源压缩（服务端+客户端）页面提供资源数量页面资源加载时机用户终端某时刻性能用户终端浏览器性能用户直观感受[附加]异常流量情况如果有兴趣，不妨和我一起逐一聊聊吧：服务器性能说到服务器性能，可能多数人会停留在几核几G几百G这种概念上，但是对于网站服务器，我们关注的应该是单机/VPS的数字运算能力和IO读写能力，如果不是单机服务器，那么请关注自己实际能使用的资源数量，尤其是高峰时刻，具体请参考VPS虚拟化常见方案:OpenVZ/Xen/KVM/VMWare/Hyper-V等方案在其他实例占用CPU过高的时候，对其他实例的影响（部分虚拟化方案，会因为某些实例锁死时间片而使用过高影响其他实例）。就博客/网站主来说，我们应该使用尽可能更好的资源，但是非土豪的话，资源好到什么程度呢，答曰：够用。够用是什么程度呢，满足最大的调用程度，且有余力。这个“有余力”是你对网站/应用的访问量有评估后，并进行压测，观察机器负载得到的。如果你的网站有大量文件IO/数据库读写操作，那么为了保证最佳性能，不妨尝试使用SSD，或者进行内存缓存等操作，一旦你使用内存缓存，那么整体的性能瓶颈多数情况下会从机器整体性能变为网卡/带宽，是不是可喜可贺。在正确设置服务器软件配置以满足自己需求场景后，如果你对运行程序优化得当，那么最佳体验应该是内存有30%cache，swap占用极少，或不占用，负载0.5以下。（以防突发流量）说到压测，不得不继续说下面的话题了。机房带宽资源带宽资源或许是除了高端存储设备外，价格最贵的资源之一了。所以，评估带宽是否满足你的站点，是特别重要的事情。一般来说小站点，1~2M的带宽绝对够用。如果不知道你的机器的带宽能力，不妨登录机器后台观察流量图峰值，或者机器安装speedtest-cli，来进行数据收集。诸如我用过的机器，突发状况下能力为：Linode 测速12345678910111213Testing from Linode(X.X.X.X)...&Selecting best server based on latency...&Hosted byT-Mobile(West Norriton,PA)[104.63km]:79.475ms&Testing download speed........................................&Download:53.68Mbits/s&Testing upload speed..................................................&Upload:32.51Mbits/sHK 机房测速12345678910111213Testing from HK DataCenter(X.X.X.X)...&Selecting best server based on latency...&Hosted by FPT Telecom(Hong Kong)[5.98km]:28.453ms&Testing download speed........................................&Download:77.30Mbits/s&Testing upload speed..................................................&Upload:4.45Mbits/s观察两者，会发现前者上传比较大，嗯，没错，服务器的上行带宽，即是我们常说的网站带宽，一般而言，此数值越大，提供的访问能力就越强。但是，综合现实因素，诸如政策和地理位置的原因，网站响应速度和机房有重大关系，比如，BGP机房线路智能负载后的响应时间可以达到10ms甚至以下，或者你可以尝试ping一下自己的本地服务器，响应时间感人，但是在祖国大地，如果你直接访问一些美帝国或者欧洲大陆机房则可能速度会增大几十到几百倍，甚至出现访问不能的状况。基于这个状况，如果你的网站的受众包括国外友人，那么你的选择：国内无所谓，自己能访问就好，国外快快的：
美帝机房/加拿大机房/日本机房/韩国机房/欧洲机房国内国外速度相对快的机房
港澳台机房/日本机房/韩国机房/欧洲机房国内快速，国外可能访问不了的机房
各省市机房/学校机房/港澳台机房当然，你也可以根据自己情况选择CDN加速方案：国内机房+国内外CDN国外机房+国内外CDN当然，如果你和我的网站一样，是一个自己的无事写几笔的小站，那么选择国内的阿里云，或者香港机房都是不错的选择。硬件说完了，我们聊聊第一节中提到的软件。服务器软件性能“尺有所短，寸有所长”，软件也是一样，小站点，资源有限的情况下：如果你以前使用apache，且没有使用一些三方模块，或者不需要使用apache软件套装里的高级功能，或者没有软件必须依赖apache，以及三方模块能在nginx中找到替代的，可以考虑替换为nginx。如果你的程序允许实现数据库缓存/站点内容缓存，但是没有使用缓存的，请开启缓存功能。如果你的程序使用了文件缓存，在内存资源有富裕的情况下，请使用内存缓存（自己考虑缓存策略）。如果你的程序原来的运行环境执行速度不够快，那么请考虑升级或运行环境，诸如php5.2-&php.5.6+，或者php5.6-&hhvm 3.x，asp/php-&nodejs。如果你的程序中多数功能你用不到，考虑使用更轻便的小程序。如果你启用了缓存，且数据库（关系数据库）读取热数据频率高于冷数据，且访问量不是特别大，不需要考虑数据库效率，否则需要考虑数据库进行分库分表和建立适当的索引，以提高数据库吞吐能力。根据自己情况适当调整nginx/mysql/redis/memcache等软件的数据分块大小。优化程序关键逻辑的流程，尽可能让程序始终遵循最短路径结束任务。尽可能让TCP链接重用，或者适当调整持久链接的时间和数量（Keep-Alive），以及考虑使用SPDY。防火墙/服务器代理软件/程序对访客限制流量。过滤或者禁止能力范围内的异常流量。DNS查询速度DNS对于站点首次打开速度至关重要，所以请尽可能选择靠谱的DNS提供商来解决DNS查询问题。国内有两家DNS提供商比较不错：DNSPODDNSLA除此之外，对于webkit支持DNS预缓存的浏览器，可以在页面头部尽少和尽合理的添加要缓存的DNS，以加快页面展示速度。比如，我的页面中可能存在资源域名和附件域名。如果页面在加载的时候，同时进行这两个域名的DNS缓存操作，接下来请求这两个域名的资源的速度会更加的快。XHTML12&link rel="dns-prefetch"href="//"&&link rel="dns-prefetch"href="//"&但是是否分离域名，请根据自己情况来。因为分离域名之后，不可否认的是，会带来额外的查询操作（查询本地缓存也算）。但是分离资源，可以使得程序更容易维护，以及对于程序整体安全性带来提高。解释一下最后一句话，当初还在新浪的时候，翻看现在已然是大boss的ppt，其中提过这么一句话“执行不可写，可写不执行”。如果你的目录允许上传，那么上传目录的文件一定要限定不可执行，以及可以执行的目录，不可以进行写入操作，以免网页木马的上传，提高系统安全性。另外，如果你将网站数据分离，那么网站的迁移操作，将会变的十分简单。比如，我将网站在国内国外迁移了若干次，只是需要先同步附件和页面资源域名，然后改变这两个域名的指向，然后同步程序文件，改版域名指向即可。接下来，我们说说节约带宽和提高速度的一个大杀器：压缩。页面资源压缩（服务端+客户端）提到压缩，正常用户会想到的是rar/zip/7z，媒体爱好者想到的会是ABR/CBR/VBR/H.264，我们这类代码爱好者恐怕是gzip，如果你也是前端，可能你还会想到js compressor。服务器根据CPU能力，尽可能输出gzip后的资源。为什么是尽可能输出gzip呢，因为可能你的页面需要支持古老手机端浏览器，一些古老的MID或者性能不太好的MID设备，或者是古老的IE6？如果不需要，那么请一律输出GZIP后的页面。替换或者提高压缩算法和策略。如果你有特别的客户端，可以考虑使用自定义的更高压缩比的压缩方式，这个做手机应用的童鞋或许接触过，和十年前大家压缩MP3以及做软件压缩包一样，使用自己软件算法和策略替代市面上已有的算法和策略。如果没有特别的客户端，那么我们不妨对图片和视频使用更好的压缩格式，比如webp和webm，以及适当情况下的gif替代png等。对静态资源内容适当排序。如对最后生成的css文件进行排序可以提高gzip压缩比。适当添加页面额外内容，提高压缩比。可以将页面的通用样式或者脚本混合在页面里，提高页面压缩比。使用脚本去掉多余的空格和换行。虽然对于gzip效果甚微，但是对于缓存读取和写入有特别大的差异。使用缩略图/响应式图片来替代页面中展示的原始图片。传统模式下，我们可以使用服务端脚本thumb类库/CDN提供的图片缩略服务来进行资源的缩略图，来替换原始图片，并增加一些交互文本，对用户实现降级访问。如果用户浏览器支持CSS3，那么我们可以使用Media Queries特性来对内容图片进行切换。如果用户浏览器支持HTML5，我们可以使用image-set标签来进行图片响应式输出。接下来我们来说说另外一种变相的数据压缩，减少请求。页面提供资源数量尽可能减少同一时间的资源请求数量。对于静态样式和脚本，使用合并策略。针对单页面程序，你可以将所有样式或者脚本都合并为一个单独的文件。但是针对多页面，以及带有皮肤策略的站点，则考虑抽象基础的Base内容和额外的内容，并通过前后端脚本进行策略加载。对于图片和视频资源，在交互允许的情况下，使用延时加载，跨屏预加载一定数量，来取代页面文档加载完成后就加载全部的策略。对不同浏览器使用不同的脚本。差异对待浏览器，对古老浏览器不使用一些功能，以及差异对待浏览器使用的基础脚本库。如果你使用下一节提到的JS加载器，那么这个很容易做到。页面增量更新。如果你的内容支持异步增量更新，那么使用接口更新增量内容的模式，来替换打开新页面的模式。曾几何时，这个被称作ajax页面局部刷新。客户端缓存此处深坑，稍后留写一篇详叙，简单的说，尽可能给所有资源使用最长时间的缓存，对于不支持200 cache的客户端提供304 Modified缓存（前者不需要额外HTTP请求）。客户端本地缓存。对于变化不大的站点，配合脚本，对支持使用本地缓存的客户端进行适当的数据缓存，这个是深坑，且有一定的安全风险，稍后写篇具体的内容来描述。上面提到的内容，多数属于道，现在我们来聊聊术。页面资源加载时机做网站时间比较久的童鞋或许还记得yahoo slow总结出的几条“规则”：把css放在文档顶部。把js放在文档底部。减少inline脚本的存在。这里或许应该为：将页面主要样式尽可能放在文档顶部。将三方不可合并脚本尽可能放置页面底部。将页面inline脚本尽可能替换为配置内容。将基础样式放置于文档顶部，可以让页面渲染基础内容更快，如果前几点你都做到了，或者做到大多数，项目复杂度不高的话，那么把所有的样式打包合并放在此处也无关系。将三方不可合并的内容放在页面底部，一方面是出于维护的考虑，一方面是因为我们要使用JS加载器来控制资源的加载（这里需要将原本页面中的脚本替换为具体执行脚本所需要的inline脚本配置）。做到如此，页面将会首屏渲染极快，以及页面卡顿大幅减少（大量动画情况另说）。用户终端某时刻性能这个不是我们所能控制的，因为受限于客户端宿主机性能以宿主机网络环境。和最开始提到的服务器性能一样，CPU时间片被其他程序占用时，或者硬件古老，以及网络被其他程序占用的时候，会带来浏览的不畅。如果你对网站的一般访问速度有信心（通过收集到的数据的反馈），且网站属于内容展示类的，可以在适当的位置加诸如以下的提示（程序打底提示）：页面加载过慢，不妨检查网络环境是否有其他软件占用（下载工具/在线视频），并刷新页面。资源加载失败，请刷新重试。待页面加载完成，干掉以上提示。但是请权衡此内容的存储位置和脚本执行时机，考虑搜索引擎将提示和内容都缓存的情况。用户终端浏览器性能如果你的用户使用者古老的浏览器，软件性能成为页面数据下载和渲染瓶颈，那么不妨给其一个提示，或者强制其使用新版本的浏览器进行访问：请更新浏览器以获得更加体验。本站仅支持新的浏览器：A,B,C。为了您的访问速度和安全考虑，我们推荐您安装：X,Y,Z。您是不是打开太多页面了，请考虑关闭无用的页面，加快本页面打开速度（这招请考虑道德问题）。当然，在页面资源数量一节中，有提到一些，这里补充一条，对于支持HTML5video标签的客户端，不妨使用其来替换flash，减少客户端CPU使用率。用户直观感受终于写到这里了，本节内容，其实上面的小节都有提到一些。一句话以蔽之，用上面的方法，不要放过任何可以加快数据展示的方法，给用户尽可能最快的体验。当然，这里有个偷懒的方式，你只需要尽可能战胜同类型网站就好。[附加]异常流量情况异常流量可能存在以下状况：搜索引擎蜘蛛不约而同的来采集你的网站内容。适当干掉一些你不喜欢和需要的蜘蛛，诸如俄罗斯的一堆等，或者小众浏览器搜索引擎。在sitemap中增加访问时间间隔，或者考虑对不同蜘蛛输出不同时间。内容添加缓存。内容引发热点，真实访问量大增。内容确实有趣/有争议/有实用价值，用户访问量增加，如果你是盈利的，那么加机器吧，如果你是非盈利的，兴趣驱动，无广告的，诸如我这类小博客的，加缓存，或者加免费CDN，或者使用DNS进行多机负载。三方无聊的恶作剧/利益相关的恶意攻击/错误的域名指向无聊的恶作剧，包括扫描，这个避免不了，但是你可以在fail2ban、iptables、nginx/apache过滤掉一些机器人和恶作剧。如果是SYN的话，瓶颈在带宽资源/机器资源/机器流量限制，可以考虑切换DNS（前提是有备份机器）。如果是最近的错误域名指向的问题，比如国外最大视频站点突然IP指向到你的机器，那么请毫不犹豫的去换IP吧。如果是恶意攻击的话，这里区分两种状况：你是盈利的，对用户承诺SLA，那么请考虑加硬件，加CDN，过滤IP。你是非盈利的，诸如我这类blog，加内容缓存就好了，自己实测，压满了带宽，机器负载还是0.5以下，当然如果带宽大的话，那么机器估计压挂。如果你有备份机器，那么切换下DNS，或者除了当前域名外，使用三方托管页面进行博客备份，诸如Github Page/Issue、新浪博客之类的BSP。暂时先写到这里，稍后把客户端缓存/参考物和优化后的对比的坑填了。—EOF—晓白，分类:,大数据漫谈之四：Velocity--天下武功，唯快不破
天下武功，唯快不破。这句话滥觞于《拳经》，经过雷军等人的演绎，几乎成了互联网时代商业致胜的不二法则。那么，大数据的快又从何说起呢？话说道哥（Doug Laney）当年创立三V经，背景是电子商务：Velocity衡量的是用户“交互点”（Point-of-Interaction），如网站响应速度、订单完成速度、产品和服务的交付速度等。假设交互点是一个黑盒子，一边吸入数据，经过黑盒子处理后，在另一边流出价值，那Velocity指的是吸入、处理和产生价值的快速度。随后“快”进入了企业运营、管理和决策智能化的每一个环节，于是大家看到了形形色色描述“快”的文字用在商业数据语境里，例如real-time（实时），lightning fast（快如闪电的），speed of light（光速），speed of thought(念动的瞬间),Time to Value（价值送达时间），等等。本篇试图讨论“快”的四个问题：* 为什么要“快”？* “快”的数据和处理模型* 怎么实现“快”？* “快”的代价是什么？为什么要“快”?“快”，来自几个朴素的思想：1）时间就是金钱。时间在分母上，越小，单位价值就越大。面临同样大的数据矿山，“挖矿”效率是竞争优势。Zara与H&M有相似的大数据供应，Zara胜出的原因毫无疑问就是“快”。2）像其它商品一样，数据的价值会折旧。过去一天的数据，比过去一个月的数据可能都更有价值。更普遍意义上，它就是时间成本的问题：等量数据在不同时间点上价值不等。NewSQL的先行者VoltDB发明了一个概念叫做Data Continuum：数据存在于一个连续时间轴（time continuum）上，每一个数据项都有它的年龄，不同年龄的数据有不同的价值取向，“年轻”（最近）时关注个体的价值，“年长”（久远）时着重集合价值。3）数据跟新闻和金融行情一样，具有时效性。炒股软件免费版给你的数据有十几秒的延迟，这十几秒是快速猎食者宰割散户的机会；而华尔街大量的机构使用高频机器交易（70%的成交量来自高频交易），能发现微秒级交易机会的吃定毫秒级的。物联网这块，很多传感器的数据，产生几秒之后就失去意义了。美国国家海洋和大气管理局的超级计算机能够在日本地震后9分钟计算出海啸的可能性，但9分钟的延迟对于瞬间被海浪吞噬的生命来说还是太长了。大家知道，购物篮分析是沃尔玛横行天下的绝技，其中最经典的就是关联产品分析：从大家耳熟能详的“啤酒加尿布”，到飓风来临时的“馅饼（pop-tarts）加手电筒”和“馅饼加啤酒”。可是，此“购物篮”并非顾客拎着找货的那个，而是指你买完帐单上的物品集合。对于快消品等有定期消费规律的产品来说，这种“购物篮”分析尚且有效，但对绝大多数商品来说，找到顾客“触点（touch points）”的最佳时机并非在结帐以后，而是在顾客还领着篮子扫街逛店的正当时。电子商务具备了这个能力，从点击流（clickstream）、浏览历史和行为（如放入购物车）中实时发现顾客的即时购买意图和兴趣。这就是“快”的价值。那传统零售业是不是只能盯着购物清单和顾客远去的背影望“快”兴叹了呢？也不见得，我有空时会写一篇小文“O4O：Online for Offline”专门写传统零售业怎么部署数据实时采集和分析技术突破困局。“快”的数据和处理模型设想我们站在某个时间点上，背后是静静躺着的老数据，面前是排山倒海扑面而来的新数据。前文讲过，数据在爆炸性产生。在令人窒息的数据海啸面前，我们的数据存储系统如同一个小型水库，而数据处理系统则可以看作是水处理系统。数据涌入这个水库，如果不能很快处理，只能原封不动地排出。对于数据拥有者来说，除了付出了存储设备的成本，没有收获任何价值。如上图所示，按照数据的三状态定义，水库里一平如镜（非活跃）的水是“静止数据（data at rest）”，水处理系统中上下翻动的水是“正使用数据（data inuse）”，汹涌而来的新水流就是“动态数据（data in motion）”。“快”说的是两个层面：一个是“动态数据”来得快。动态数据有不同的产生模式。有的是burst模式，极端的例子如欧洲核子研究中心（CERN）的大型强子对撞机(Large Hadron Collider，简称LHC)，此机不撞则已，一撞惊人，工作状态下每秒产生PB级的数据。也有的动态数据是涓涓细流的模式，典型的如clickstream，日志，RFID数据，GPS位置信息，Twitter的firehose流数据等。二是对“正使用数据”处理得快。水处理系统可以从水库调出水来进行处理（“静止数据”转变为“正使用数据”），也可以直接对涌进来的新水流处理（“动态数据”转变为“正使用数据”）。这对应着两种大相迥异的处理范式：批处理和流处理。如下图所示，左半部是批处理：以“静止数据”为出发点，数据是任尔东西南北风、我自岿然不动，处理逻辑进来，算完后价值出去。Hadoop就是典型的批处理范式：HDFS存放已经沉淀下来的数据，MapReduce的作业调度系统把处理逻辑送到每个节点进行计算。这非常合理，因为搬动数据比发送代码更昂贵。右半部则是流数据处理范式。这次不动的是逻辑，“动态数据”进来，计算完后价值留下，原始数据加入“静止数据”，或索性丢弃。流处理品类繁多，包括传统的消息队列（绝大多数的名字以MQ结尾），事件流处理（Event Stream Processing）/复杂事件处理（Complex Event Processing或CEP）（如Tibco的BusinessEvents和IBM的InfoStreams），分布式发布/订阅系统（如Kafka），专注于日志处理的（如Scribe和Flume），通用流处理系统（如Storm和S4）等。这两种范式与我们日常生活中的两种信息处理习惯相似：有些人习惯先把信息存下来（如书签、To Do列表、邮箱里的未读邮件），稍后一次性地处理掉（也有可能越积越多，旧的信息可能永远不会处理了）；有些人喜欢任务来一件做一件，信息来一点处理一点，有的直接过滤掉，有的存起来。没有定规说哪种范式更好，对于burst数据，多数是先进入存储系统，然后再来处理，因此以批处理范式为主；而对于流数据，多采用流范式。传统上认为流处理的方式更快，但流范式能处理的数据常常局限于最近的一个数据窗口，只能获得实时智能（real-time intelligence），不能实现全时智能（all-timeintelligence）。批处理擅长全时智能，但翻江倒海捣腾数据肯定慢，所以亟需把批处理加速。两种范式常常组合使用，而且形成了一些定式：* 流处理作为批处理的前端：比如前面大型强子对撞机的例子，每秒PB级的数据先经过流处理范式进行过滤，只有那些科学家感兴趣的撞击数据保留下来进入存储系统，留待批处理范式处理。这样，欧洲核子研究中心每年的新增存储存储量可以减到25PB。* 流处理与批处理肩并肩：流处理负责动态数据和实时智能，批处理负责静止数据和历史智能，实时智能和历史智能合并成为全时智能。怎么实现“快”？涉及到实现，这是个技术话题，不喜可略。首先，“快”是个相对的概念，可以是实时，也可以秒级、分钟级、小时级、天级甚至更长的延迟。实现不同级别的“快”采用的架构和付出的代价也不一样。所以对于每一个面临“快”问题的决策者和架构师来说，第一件事情就是要搞清楚究竟要多“快”。“快”无止境，找到足够“快”的那个点，那就够了。其次，考虑目前的架构是不是有潜力改造到足够“快”。很多企业传统的关系型数据库中数据量到达TB级别，就慢如蜗牛了。在转向新的架构（如NoSQL数据库）之前，可以先考虑分库分表（sharding）和内存缓存服务器（如memcached）等方式延长现有架构的生命。如果预测未来数据的增长必将超出现有架构的上限，那就要规划新的架构了。这里不可避免要选择流处理结构，还是批处理结构，抑或两者兼具。Intel有一位老法师说：any big data platform needs tobe architected for particular problems（任何一个大数据平台都需要为特定的问题度身定做）。在下不能同意更多。为什么呢？比如说大方向决定了要用流处理架构，我们前面列举了很多品类，落实到具体产品少说上百种，所以要选择最适合的流处理产品。再看批处理架构，MapReduce也不能包打天下,碰到多迭代、交互式计算就无能为力了；NoSQL更是枝繁叶茂，有名有姓的NoSQL数据库好几十种。这时候请一个好的大数据咨询师很重要（这也是我在这里说大数据咨询服务有前景的原因）。总体上讲，还是有一些通用的技术思路来实现“快”：1）如果数据流入量太大，在前端就地采用流处理进行即时处理、过滤掉非重要数据。前段时间王坚把大数据和无人机扯一块，这无人机还真有个流处理的前端。它以每秒几帧的速度处理视频，实时匹配特殊形状（如坦克）和金属反光（武器），同时把处理过的无用视频帧几乎全扔了。2) 把数据预处理成适于快速分析的格式。预处理常常比较耗时，但对不常改动的惰性数据，预处理的代价在长期的使用中可以忽略不计。谷歌的Dremel，就是把只读的嵌套数据转成类似于列式数据库的形式，实现了PB级数据的秒级查询。3）增量计算--也即先顾眼前的新数据，再去更新老数据。对传统的批处理老外叫做reboil the ocean，每次计算都要翻江倒海把所有数据都捣腾一遍，自然快不了。而增量计算把当前重点放在新数据上，先满足“快”；同时抽空把新数据（或新数据里提炼出来的信息）更新到老数据（或历史信息库）中，又能满足“全”。谷歌的Web索引自2010年起从老的MapReduce批量系统升级成新的增量索引系统，能够极大地缩短网页被爬虫爬到和被搜索到之间的延迟。我们前面说的“流处理和批处理肩并肩”也是一种增量计算。4）很多批处理系统慢的根源是磁盘和I/O，把原始数据和中间数据放在内存里，一定能极大地提升速度。这就是内存计算（In-memory computing）。内存计算最简单的形式是内存缓存，Facebook超过80%的活跃数据就在memcached里。比较复杂的有内存数据库和数据分析平台，如SAP的HANA，NewSQL的代表VoltDB和伯克利的开源内存计算框架Spark（Intel也开始参与）。斯坦福的John Ousterhout（Tcl/Tk以及集群文件系统Lustre的发明者）搞了个更超前的RAMCloud，号称所有数据只生活在内存里。未来新的非易失性内存（断电数据不会丢失）会是个game changer。Facebook在3月宣布了闪存版的Memcached，叫McDipper，比起单节点容量可以提升20倍，而吞吐量仍能达到每秒数万次操作。另一种非易失性内存，相变内存（Phase Change Memory），在几年内会商用，它的每比特成本可以是DRAM的1/10，性能比DRAM仅慢2-10倍，比现今的闪存（NAND）快500倍，寿命长100倍。除内存计算外，还有其它的硬件手段来加速计算、存储和数据通讯，如FPGA（IBM的Netezza和Convey的Hybrid-Core），SSD和闪存卡（SAP HANA和Fusion IO），压缩PCIe卡，更快和可配置的互联（Infiniband的RDMA和SeaMicro SM15000的Freedom Fabrics）等。此处不再细表。5）降低对精确性的要求。大体量、精确性和快不可兼得，顶多取其二。如果要在大体量数据上实现“快”，必然要适度地降低精确性。对数据进行采样后再计算就是一种办法，伯克利BlinkDB通过独特的采用优化技术实现了比Hive快百倍的速度，同时能把误差控制在2-10%。“快”的代价是什么？这世界上没有免费的午餐，实现了“快”必然要付出代价。要么做加法，增加硬件投入、改变架构设计；要么做减法，降低精确性、忍受实时但非全时的智能。其实，这个好比看报纸，时报、日报信息快，需要采编投入，但因为短时间内所能获得信息的局限性，缺乏深度和全景式的文章；周报、月刊则反之。“快”很贵。有些行业，肯定是越快越好的，比如说金融领域，所以他们愿意买贵得离谱的SAP HANA或IBM Netezza。对绝大多数企业来说，需要精打细算。关键还是，对每一个问题，仔细调研清楚“足够快”的定义。心里有底，做事不慌。“快”容易错。丹尼尔·卡尼曼在《思考，快与慢》中讲到快思考容易上当，在那一瞬间，“眼见为实”、厌恶损失和持乐观偏见等习惯常常引导我们作出错误的选择。基于“快”数据的分析同样会有这样的问题，可能是数据集不够大导致了统计偏差，或是因为“快”而牺牲了精确性。再进一步，“快”出错了常常“覆水难收”。Wolters Kluwer的一个高级分析师Marcia Richards Suelzer说：“我们现在可以在几纳秒内作出灾难性的错误计算，随即将其广播到世界的各个角落。我们不再具有计算延迟带来的缓冲性”。技术带来了分析的快速性和全球的连接性，同时也把我们创造破坏的能力放大了。美国新闻向来是求“快”，彭博社误报“中国经济刺激计划”导致全球股市大涨，至少结果还不错，CNN在2008年误报乔布斯有心脏病导致苹果股价大跌就不那么美好了（彭博社还在同年误报乔布斯的死讯）。简单地总结，Variety和Velocity是Volume的左右护法，它们修正和充实了“大”的内涵。Velocity带来了诸般好处，也需要付出代价。下一篇讲Veracity 鱼龙混杂、真假难辨。
*文章为作者独立观点，不代表虎嗅网立场
授权虎嗅网发表，并经虎嗅网编辑。转载此文章须经作者同意，并请附上出处()及本页链接。原文链接/article/15106/1.html
点此全站设置为大字体
本设置保留在浏览器内
分享到朋友圈
分享到微信朋友圈，炫耀你的微信影响力!～
您可能感兴趣的文章
要评论？请先
没有帐号？点击
看了四篇连载，还是很有收获，由于缺乏专业知识，很多内容不能消化
登录后可点评，点击登录
有启发~~~~
登录后可点评，点击登录
看完了相当有收获，还是非常体系的理解了大数据。
登录后可点评，点击登录
Think Bold and Different
?本周活跃排名
收录此文章的文集}

米需爱网