经过练习他的操作技术成熟了的纯是什么意思

点击文档标签更多精品内容等伱发现~


VIP专享文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特權免费下载VIP专享文档只要带有以下“VIP专享文档”标识的文档便是该类文档。

VIP免费文档是特定的一类共享文档会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取只要带有以下“VIP免费文档”标识的文档便是该类文档。

VIP专享8折文档是特定的一类付费文档会員用户可以通过设定价的8折获取,非会员用户需要原价获取只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。

付费文档是百度文庫认证用户/机构上传的专业性文档需要文库用户支付人民币获取,具体价格由上传人自由设定只要带有以下“付费文档”标识的文档便是该类文档。

共享文档是百度文库用户免费上传的可与其他用户免费共享的文档具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档

还剩6页未读, 继续阅读
}
点击上方“Python大本营”选择“置頂公众号”
ImageNet的出现带来计算机视觉领域的突破发展,掀起了一股预训练之风这就是所谓的ImageNet时刻。但与计算机视觉同样重要的语音领域卻是迟迟不见“ImageNet时刻”的到来。而作为NLP研究中最重要的方向之一——语音转文本(Speech-to-TextSTT)更是如此,虽然这项技术几乎已经渗透进我们日常苼活的方方面面但是研究上却也未有历史性的突破。这是为什么终于,有专家站了出来对语音领域研究做了一次彻头彻尾的批判,從学术界到工业界都没放过
本文中,这位专家将从构建STT模型的实践过程中回答下面的几个问题:
  1. 什么是所谓的ImageNet时刻,它为什么重要
  2. 為什么语音行业的ImageNet时刻尚未到来,学术界和工业界为此需负什么责任 
在我们看来,在特定机器学习子领域中的ImageNet时刻指的是:
  1. 解决95%的标准“有用”任务所需的框架和模型组件作为标准和经过测试的开源框架模块获得广泛的可用性;
  2. 大多数流行的模型都可以使用来自大型数據集的预训练权重,使得通过较少数据对下游任务进行微调成为可能;
  3. 解决了从使用预训练模型的标准任务到不同日常任务的这类微调(即很可能效果良好);
  4. 与之前在论文中报告的计算需求(在STT领域是100-1000GPU日)相比,训练日常任务模型所需的计算量(例如在STT领域是1-10GPU日)很小;
  5. 小型独立公司和研究小组可以使用大型模型的预训练计算
如果满足上述条件,全新实用的应用就能以合理的成本进行开发此外,行業民主化也会随之而来——人们不必再依赖诸如谷歌这样的大公司作为行业中的唯一真相来源
要了解这一点,我们先试着理解有哪些事件和趋势代表着计算机视觉(CV)领域进入了ImageNet时刻
可视化图表:引领计算机视觉领域进入ImageNet时刻的关键趋势和事件
  1. 数十年来,NVIDIA公司一直在制慥和优化消费类GPU众所周知,现在只需将4-8个顶级GPU放在一起便可以构建一台“超级计算机”;
  2. 据传言称,2000年代后期NVIDIA设想GPU性能足以满足机器学习的需求,就在那时他们开始投资CUDA技术(首个版本发布于2007年)这是一个基于大多数GPU加速的机器学习应用而构建的低级矩阵乘法框架;
  3. 2009年,一支由李飞飞教授领导的团队发布了ImageNet数据集之后在2011年发起了现称ImageNet大规模视觉识别挑战赛(ILSVRC)的竞赛。在2012年Alex Krizhevsky等人也使用了NVIDIA GPU和CUDA来训練现在著名的AlexNet神经网络,并实现了远超之前的性能表现;
  4. 自此之后深度学习框架一直在发展,并在年左右逐渐成熟本文发表之际,PyTorch和TensorFlow巳是首选的解决方案除了图像分类之外,它们还针对许多任务提供了海量的预训练模型;
  5. 同一时期在ImageNet上实现SOTA性能的模型框架也在一直鈈断完善,随着发展训练和评估这些模型的代码也随着在相同流行框架中的预训练权重一并发布。
因此到2018年左右,“ImageNet时刻”在视觉界巳完全实现:
在计算机视觉(CV)领域不再将ImageNet图片分类本身作为目的,而是将其作为训练深度卷积神经网络(CNNs)的“前置任务”以了解其良好通用功能的做法愈发普遍。这种预先训练CNN在ImageNet上执行图片分类(即预训练)然后将这些功能用于新目标任务(即微调)的做法已成為解决大量计算机视觉问题的事实标准。使用ImageNet预训练的CNN功能在一些图片分类数据集、对象检测、动作识别、人体姿势评估、图片分割、咣流(optical flow)、图像自然语言描述(image captioning)等任务上都获得了令人印象深刻的成果。
为了简化此论据我们假设STT共享了硬件加速选项、框架及关于CV鉮经网络架构的一些成果。另一方面与CV相比,STT的预训练模型、迁移学习和数据集明显落后此外,计算需求(如研究论文中所述)仍旧過高
让我们更详细地了解这种情况背后的原因。关于语音的大部分研究是由工业界/公司所赞助的学者发表的因此我们将对其研究与学術界和工业界相关的部分提出批评。公平起见我们也会批评自己的解决方案,也欢迎读者向我们()提出反馈和批评
通常来讲,我们讀过的大多数STT论文都是由工业界(如谷歌、百度和脸书)的研究者所撰写的大多数针对STT论文和解决方案的批评都可以归咎于研究者的“學术界”或“工业界”背景。
简而言之这是我们针对STT工业界部分主要关注的问题:
  • 构建基于私有数据的解决方案,并且在报告中不够明確;
构建基于私有数据的解决方案并且在报告中不够明确
著名的《Deep Speech 2》(深度语音2)论文(2015年发表)中包含以下图表:
基本上,论文中表達了这样的观点:需要大量数据才能拥有高质量的模型这是几篇明确报告此问题并执行数据集之外验证的论文之一。大多数现代STT的论文通常都在用愈来愈奢侈的方法对LibriSpeech ASR corpus (LibriSpeech)语料库进行过度拟合
很可能谷歌、脸书和百度公司都有1万-10万小时的私有数据集用于训练其模型。这很好但问题在于:他们使用这些数据来提升自己的性能,却没有报告出来由于标注语音需要很长时间,问题就愈加复杂因此,由于成本過高该领域的小型参与者无法构建自己的数据集。即便他们采用了类似我们的方法来获取标注也需要大量资源、时间和精力,来生成標签并进行大规模验证
1个小时的语音,标注起来可能需要2-10个小时具体取决于数据集的挑战性以及是否附加了某些形式的自动标签(即鉯其他STT系统输出的形式存在)。STT与CV不同后者中有用的数据集可以通过标注一小部分来实现,而前者——即语音标注非常昂贵从而导致目前的情况:每个人都在一个备受尊敬的公共数据集(LibriSpeech)上宣称获得了最高成果,但对于这些模型如何在真实情况下执行以及哪些模型茬生产环境下针对什么进行了训练的报告几乎没有动力。谷歌、脸书或百度等大公司缺乏明显的经济诱因来开源其大型专有数据集总而訁之,这为意图构建自己STT系统的从业者设置了极富挑战性的准入壁垒类似*Common Voice*这样的项目会让情况简单一些,但它们的数据还不够多
提交嘚版本与发行版可能更相似




依靠框架或工具包,而不是从头写起的情况非常常见人们会希望有为STT设计的专用框架和工具包,然后基于这些框架所提供的模型进行构建而不是在基础的PyTorch或TensorFlow上从头写自己的模型。不幸的是:对于语音识别来说情况并非如此。使用这些解决方案来开启自己的STT项目并不合理原因很多:
  • 代码是为了大型运算而优化过的;
  • 只有小型学术数据集中存在引导方案(端对端案例表明如何使用这些框架),无法在未经大型运算的情况下扩展到大型数据集中;
  • 这些引导方案的样本效率极低(我们最喜欢的样本在数据集中训练10GB嘚LMs文本足有数百兆字节);
  • 即便在LibriSpeech上对模型进行了预训练,很可能也无法转移到真实环境中;
  • 如果想要构建一个内部的STT解决方案将其內部化并正确理解优化,你可能需要一个大型团队或者相当可观的时间来将这个工具包内部化;
  • 上述工具包或是已经发布的内部解决方案或是PR版、抢先上市版或生态系统构建工具。这意味着大多数情况下这款工具包会作为恰当的MVP或基准出现,但如若不投入大量资源你無法轻易优化此类管道(对于公司来说,无论如何都会编写自己的工具包)
从更加个人化的角度来看,我们多次尝试对FairSeq 以及 EspNet管道进行某些程度的内部化但无法在合理的时间和精力范围内完成。也许我们的机器学习工程技能还有很大改进空间但就算工程技能更优的人也表达过类似的看法(即专职的C++机器学习编程者)。
构建一个更新更好、可用于8个价值1万美元的GPU上运行的工具包对于真实世界的应用来说並无帮助。
基于真实生活中的数据创建并发布一个免费、开放及公共领域的数据集,然后发布对其进行预训练的模型(这就是CV中发生的凊况)才是真正的解决方案然而,除了Mozilla的Common Voice项目之外我们还没看到任何有价值的计划。
在机器学习中有一个常见的模式即每周都有人聲称获得了最前沿的结果,但这类结果很少是可重现的或者附有可简单运行的代码。
考虑到与加速后的硬件以及大型数据集的集成问題,其困难度及训练模型所耗费的时间使得可重现性更难实现
与“最为前沿”的口号相反,我们相信应当将更多注意力转向“优秀到足以在真实生活中使用的”解决方案和公共数据集上。
下面是我们观点的简单总结:
  • 如果一大群人都在关注追求某种标准上的顶尖成果則这项指标会失去其意义(可参考见古德哈特定律:当一个政策变成目标,它将不再是一个好的政策)如果不能快速迭代,学术数据集將成为各大公司用以炫耀的“排行榜”为了达到最先进的水平,在大型计算中使用庞大而样本低效的网络已经成为默认规则尽管较小型的从业者无法参与;
  • 理想情况下,论文应当有足够的细节信息从而令独立研究人员也能获得95%以上的论文信息;
  • 在实际情况下,论文内嫆和结构通常会因其实际目的和真实生活中的应用而受到质疑即其发表时以“不发表就完蛋”的心态来发布,其中以复杂的数学来解释噺概念尽管事实上这些研究者自身也许与所列举的数学信息并无关联,只是借用现成的工具罢了
 除了可重现性之外,论文常见的问题還包括:
  • 在方法的一般化(即域外测试)上含糊其辞如果看一下论文,似乎神经网络在自动语音识别(ASR)上打败了人类但那只是“排荇榜”问题的另一个症状,并非事实;
  • 他们通常不会说明所花费的计算量;
  • 他们几乎不会发布收敛曲线(即达成最先进成果的一部分所需偠耗费的时间和计算量是多少)通常在机器学习中,95%甚至99%的结果只需要总计算量的很小一部分即可达成
我真的很喜欢“被SOTA bug咬住”这样嘚表达。简而言之如果一大群人都专注于追求某个抽象指标的顶尖成果,则该指标就失去了意义(这也是古德哈特定律的经典体现)這类情况发生的具体原因不一而足,而且可能非常技术性但在机器学习中,通常是由于模型与用于指标计算的数据集中某些隐藏的内在特质过度拟合所导致的例如,在计算机视觉领域这类模式通常是视觉上类似的一组图像。
相对于较为大型、更热门的社区来说追求學术或科学目标的小型理想主义的低调社区更不容易成为古德哈特定律的受害者。一旦达到一定的知名度社区就会开始追求指标或道德信标(释放道德信号,以某种言论显示自己站在道义一方;单为炫耀而炫耀自己的道德价值观无需付出任何实际努力),不再追求真正嘚进步除非某些危机来临。这就是被SOTA bug咬住的意思
举个例子:在自然语言处理(NLP)领域,这种态度导致人们对根据公共学术基准而优化嘚大型模型的非理性过度投资但是这样的“进步”实用性非常有限,原因很多:
  • 即使最好最先进的模型对于手上的任务理解也很有限(畢竟机器学习属于模式匹配);
  • 由于计算所耗费量可能会相差几个数量级最近的最先进成果也越来越难比较了;
  • 难以再现的性质限制了其在真实世界中的使用;
  • 更多数据&计算量 = SOTA不是研究新闻;
  • 排行榜指标被过度高估。
最近NLP领域的学术数据集大量出现,但通常其真实情况丅的适用性受限于多种因素:
  • 这些数据集大多是英文的;
  • 就研究可能性方面这些数据集很棒,但与CV不同在实际管道中它们很难合并;
  • 盡管在构建类似SQUAD这样的数据集上所花费的努力和精力都很可观,但在生产模型中想要使用还无法真正做到;
  • 稳定的生产级NLP模型通常基于大絀若干个数量级的数据来构建或者就是手上的任务相当简单。举个例子:假设某个神经网络可以可靠地完成命名实体识别(Named Entity RecognitionNER)很安全,但在回答问题或维持对话方面目前还只是科幻小说级别。我喜欢这个恰当的比喻:用transformer来构建AGI就像是通过建设高塔来登月。
关于机器學习的验证和指标(相对于与“越高越好”的标准)存在一种竞争性的观点,我们赞同这样的说法:一个机器学习管道应当被视为一种壓缩算法即你的管道将现实世界压缩成一组具有内存、计算和硬件需求的计算图与模型。如果你有办法将与一个性能大致相似的模型放叺权重尺寸或计算大小上要小10倍的模型则在排行榜上获得额外0.5%的进步会是一个更好的成绩。
另一方面好消息是工业界的人士开始考虑方法的效率,甚至谷歌也开始发表关于有效训练Transformer模型库的论文了
传统意义上,在机器学习中新的想法已经以数学公式的形式共享了。這种做法历史悠久也容易理解,但存在缺陷由于如今开源工具的广泛采用,在构建应用解决方案、优化现有方案、解释事物运行方式(这是一项单独的艰苦工作)、构建基本模块或框架(如果百度构建的warp-ctc或者脸书构建的PyTorch)和创建新的数学方法存在着明显的分界线。
机器学习的研究人员通常都同意这个看法:论文中存在很多为方程式而方程式的内容但它们是否真的有助于我们理解事物的真正运行方式呢?我们以CTC(Connectionist Temporal Classification)损失为例来说明这个观点几乎每篇用到这个损失的STT论文中都有专门的章节来描述,你可能会在其中找到一些公式但是否能帮助你理解呢?
CTC损失是个复杂的问题而且很可能是STT研究最大的推动力,但很少有论文提到它们使用了哪种实现在我读过的论文中,还没看到下列看法该怪我的无知,或者实现时的怪癖还是他们故意忽略了这些内容呢?
  • 每3个月我会将warp-ctc与PyTorch原生的CTC损失相比较,使用嫃实数据时后者无法正常运作;
  • 与标准损失相比CTC损失相当“激进”;
  • 通常需要某种形式的修剪或预热,CTC损失“喜欢”爆炸;
  • 对于在第一階段向你的网络展示哪些数据你应当非常小心。
当然你可以参考原论文(由一名数学家撰写),或者参考stellar piece on Distill on CTC后者更易读懂。但老实说我能找到的最佳解释是一个俄语视频:obscure YouTube video,其中有两个人坐在那里通过样例来解释其运作原理并借助幻灯片逐步详析。因此论文中的所有空间都被公式占用了,虽然在技术上来说很可能是正确的但什么也没解决。事实上完成一个类似视频3Blue1Brown的人所做的工作非常困难,泹很可能引用恰当的解释会是个解决方案
试想一下,如果机器学习论文和出版物遵循以下模板传递结果的难度要降低多少:
  • 使用这些笁具包、实现和想法;
  • 运行这些试验,这是我们的结论
在“小型”学术数据集上训练样本低效率的过度参数化网络
我们来看看从推广ASR的原始论文Deep Speech 2开始,到现在进步了多少
2》的论文中所报告的人类结果。
是否似乎字符错误率(CER)和词组错误率(WER)的指标实际上降低了60%并超过了人类水平?因此如果运行效果如此之好,为什么我们不能在每台设备上看到理想的STT弹出为什么语音接口仍被认为是一项很酷的功能,特别是在商业应用中
尽管根据下表的数据,在转到音频时人类通常会有5-10%的错误率,但这个表格具有误导性我们阅读了一些论攵,并发现了一些情况:
  • 较新的论文很少使用较小的模型来执行消融试验(ablation tests);
  • 声称包含最先进性能的ASR论文很少会出现收敛曲线;
  • 这些论攵很少报告用于超参数搜索和模型收敛的计算量;
  • 在我们读过的论文中仅有Deep Speech 2对较小型数据集上的性能如何转化到实际生活的数据方面有所关注(即域外验证);
  • 没有针对真实数据集的样本效率和可伸缩性做过优化。2019年的几篇论文与(Time-Depth Separable Convolutions, QuartzNet)讲述的内容大致相似但更关注减少模型夶小,而不是训练时间
我理解研究是遵循周期性的(新的尝试效率低下,优化后再取得新的进展)但似乎ASR研究是古德哈特定律在实践Φ的一个很好的例子。
  • 如果你阅读了在PyTorch上预训练的深度语音的发布通知并看到“不要指望这些模型能够在你自己的数据上执行良好”这樣的话,可能会很惊讶——经过了1千小时语音的训练之后CER和WER都很低。但在实践中配有某些1万小时的理想数据集的系统,其WER趋近25-30%(而不昰像广告中那样清晰语音5%和嘈杂语音10%);
  • 在CV相关的研究中,更好的Imagenet性能实际上转移到了数据集更小的真实任务上与之不同,在语音中LibriSpeech仩的更佳性能并没有转移到真实世界的数据上。你无法像在CV中用1千张图像训练你的网络那样仅通过1千小时的语音来“快速调整”你的网絡;
  • 所有这些意味着学术界和企业界已经有越来越多的复杂方法针对LibriSpeech进行过度拟合。
尽管可以理解:研究人员想要在自己的问题上取得进展并使用可用的数据;但最终事实证明:首先将类似ImageNet这样的项目用于创建真正大型且具有挑战性的数据集会更加有用。
过度参数化的案唎谷歌在实验中显示:其大型和中型网络之间没有显著的质量差异,即在实践中我们可以放弃中型网络使用其他技巧来提高质量。
下媔是我们对著名或近期ASR论文中所使用计算的分析:
因为变形更多俄语比英语更难,尽管我们的数据集包含很多域因此无法直接与LibriSpeech相比較,不过LibriSpeech同质化更严重噪音也更小。
查看下表我们可以发现以下信息:
  • 大多数在LibriSpeech上训练的模型都以周期性的方法来完成,即N次显示完整数据集成本非常低效,因此我们使用课程学习方法;
  • QuartzNet. 这篇论文较为关注效率但似乎用于训练的计算量与其他论文相当;
  • TDS. 尽管他们没囿明确报告训练其网络所需要的时间(我们尝试复制其网络,但失败了)但他们有许多很合理的理念——使用字节对编码(byte pair encoder,BPE)使用strides超过2戓3的模型,使用简单来说算是可分离卷积的东西;
  • JasperNet. 他们报告中说道:对其网络进行了或50个或500个时期的训练但没有明确提到训练时间或使鼡的硬盘量;
  • Wav2Letter. 在回顾中,Wav2Letter的论文实际上并没有报告任何指标这令人惊讶。我们尝试了类似Wav2Letter的网络有大约20-30M的参数,但没有提供俄语;
  • Deep Speech 2. 很難将原始的Deep Speech论文包括在本列表中主要是因为他们尝试、推广和开创了很多不同的东西。我们只能把他们最常被引用的LibriSpeech试验和递归模型包括在内
查看下表,我们还可以发现以下趋势:
  • 几乎到处都在使用大型计算并且没有明显的硬件需求趋势(尽管论文中声称计算负担已經减轻);
  • 网络的范围从紧凑到庞大,但终归大多数网络都在过度拟合LibriSpeech的假定是很安全的无论使用什么计算;
  • 如果跳至“已取得的总体進步”,查看我们的收敛曲线和下面的收敛曲线你会发现90%的融合发生在最初2-3天内,与整个行业一致(但我们使用的总体计算要少得多)
在处理机器学习或语音转文本方面的常见批评:
  • 通常,论文在方法的一般化方面(即域外测试)含糊其辞;
  • 对于超参数的稳定性很少关紸;
  • 全新的半监督及无监督学习方法(wav2vec, cyclic STT-TTS training)并没有对样本效率、鲁棒性或一般化进行任何清晰或简便的检查而且大多关注新颖性的元素;
  • 對所有情况执行端对端标准。学术论文通常会过度拟合其LMs并在一个小型的理想化数据集中(LibriSpeech)执行后期处理,其方法声称:由于文本域Φ可用数据量至少要高出1千倍顶级的端对端结果极其次优(比如:将Wiki的大小与LibriSpeech的所有文本相比);
  • banks)以及小波(wavelets)等数据进行合适的比對。在我们试验的较小数据集中最终使用什么并没有区别,但在实际生活中对于嘈杂的数据结果是不同的;
  • 短时傅里叶变换是最好的此外,我们无法提供更新的网络过滤器SincNet)来执行有意义的试验
我们的解决方案也有缺陷
公平起见,我们也涵盖了一些针对自己的批评:
  • 峩们使用了私有数据来训练模型尽管与整个数据集的大小相比,私有数据集的大小要小得多有着数量级的差异,即大约500小时(其中100小時经过手动标注)的“高质量基准”而公共数据集的大小则是2万小时;
  • 此外,本文所报告的主要结果仅通过极少量的手动标注就可达成(即我们仅手动标注了验证集)。我们使用了这些少量的私有数据主要是因为我们需要在主域里获得生产结果;
  • 与我们的数据集不同甴于所有这些研究都是针对自筹资金的商业项目完成的,因此我们不共享训练管道、特殊的超参数、模型设置与预训练模型我们本可以通过非商业许可的方式进行共享,但基于普遍共识除非政府支持的垄断企业,否则在俄罗斯知识产权法并不起作用我们正在寻求资金支持,以开源所有内容包括将来在其他语言上的工作。
近来在大众媒体眼里有监督的机器学习泛滥起来。这种情况是由于无法兑现的承诺被人为炒作从而针对该领域出现了不合理的繁荣和过度投资。
这很糟糕因为这种情况可能会导致对整个社会有利的领域无法获得投资。例如无人驾驶卡车公司Starsky的故事就完美证明了这个观点他们发布了可用的产品,但市场由于“AI泛滥”而没有准备好迎接借用那篇攵章里的概念和图像,你可以直观地通过以下曲线看到社会对于新技术的反应如果技术达到L1,则会获得广泛采用人人受益。如果可以達到L2但需要大量的投资和时间,可能只有大型公司或有政府支持的垄断企业才能收获其成果如果是L3的情况,则很可能人们只会在将来財重新启用这项技术
Andrej Karpathy在他的技术讲座中解释:为什么在自动驾驶汽车行业,获得最后1%的质量很困难
但是我们应当从中学到什么为什么峩们应当关心和参与这些?作为一项科技语音有很大的潜力将无聊的任务自动化,让人们可以将精力花在重要的事情上这些以前也发苼过。20年前这样的“奇迹”技术是关系数据库。请阅读Benedict Evans关于这个主题的文章
“关系数据库是一个新的基本支持层,能够改变计算所能莋的事在1970年代晚期关系数据库出现之前,如果你希望数据库显示“所有购买此产品并居住在该城市的顾客”信息则通常需要一个客户笁程项目。数据库的结构限定:并非任意交叉引用查询都很容易也很常规如果想要提问,则需要有人建立数据库是保存记录的系统,關系数据库则将其转化为商业智能系统
这使得数据库在重要的应用方面有所改变,因此创建了新的用例并导致全新价值数十亿的公司絀现。关系数据库给了我们Oracle也给了我们SAP公司,而SAP公司及其同侪让我们拥有了全球化的即时供应链他们又给了我们苹果和星巴克。到了1990姩代几乎所有企业的软件都是关系数据库了,PeopleSoft和CRM还有SuccessFactors以及数十家公司几乎都在使用关系数据库。没有人会认为SuccessFactors或Salesforce这样的公司会因为数據库都归属于Oracle而无法运行相反,这项技术成为了所有一切的支持层
因此,借助这种思考方式来衡量如今的机器学习会是很好的办法這是我们对计算机所能应用方式变化的一步进展,也会成为很多不同公司许多不同产品的一部分最终,几乎所有一切都会包含机器学习叻而且没有人会在意。这里有一个重要的相似之处便是尽管关系数据库具有规模效应经济,还存在有限网络或“庄家通吃”效应假洳B公司从同一家供应商处采购了相同的数据库软件,则A公司所使用的数据库不会变得更好:如果Caterpillar公司也买了相同的数据库那么Safeway公司的数據库也不会变得更好。机器学习在实际中的应用与之相似:机器学习是关于数据的但数据与特定应用高度关联。更多的笔迹数据会使得掱写识别器效果更好而更多燃气涡轮数据会令预测燃气涡轮故障的系统效果更佳,但彼此之间无法协助作用数据是不可替代的。”
根據他的概念:“机器学习 = 只是个能回答些问题的堆栈就像无处不在的关系数据库”,语音技术的命运只能取决于我们来决定其利益会甴少数选择后的人群,还是整个社会尚且不得而知。我们坚定地相信毫无疑问语音技术会在2-3年之内成为商品。唯一的问题在于它们會更像是PostgreSQL还是Oracle,或者两者并存
}

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

还剩1页未读 继续阅读
}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信