缺了激光雷达:特斯拉是如何实现“全自动驾驶”

盖世汽车 中字

Google 和特斯拉两方的表态表面上似乎也印证了微博讨论中双方的观点:数据为王 VS 算法为王。那实际情况究竟如何?

我们不妨考虑另一个类似的现象:大多数人认为 Google 的搜索比微软的 Bing 搜索在质量上做得略好一点的原因是 Google 的算法好。

但在前 Google 工程师吴军博士看来,「这种看法在 2010 年之前是对的,因为那时 Bing 在技术和工程方面明显落后于 Google。但今天这两家公司在技术上已经相差无几了,Google 还能稍稍占优,很大程度上靠的是数据的力量。」

与搜索算法尚不成熟的 2000 年不同,今天已经不存在一个未知的方法,仅凭它就能将准确率提高哪怕一个百分点。Google 凭借 PageRank 算法给搜索结果带来了质的变化,而好的搜索结果能吸引更多的用户使用 Google 的搜索引擎,这不知不觉间给 Google 提供了大量的点击数据。

有了这些数据之后,Google 可以训练出更精确的「点击模型」,而点击模型贡献了今天搜索排序至少 60% 到 80% 的权重,这将吸引更多的用户,整个过程是一个典型的不断自我强化的正反馈过程。

在 Google 内部,产品经理们都遵循这样一个规则:在没有数据之前,不要给出任何结论。由此可见,Google 的企业使命已经融入了员工的日常工作中。Google 正是充分利用了大数据的力量,顺利成为了对整张互联网举足轻重的枢纽节点,非常自然地实现了对互联网的垄断。

再举一个例子,9 月 27 日 Google 发布了新版本的神经机器翻译系统(Google Neural Machine Translation,GNMT),宣称该系统的翻译质量接近人工笔译。

大多数网友在实际测试过后,表示眼前一亮。与此同时,这也引起了某些翻译工作者的恐慌:「作为翻译看到这个新闻的时候,我理解了 18 世纪纺织工人看到蒸汽机时的忧虑与恐惧。」而这其实也是充分利用大数据的结果。

其实早在 2005 年,Google 的机器翻译质量就让全世界从事自然语言处理的人震惊不已了:从来没有从事过机器翻译的 Google,在美国国家标准技术研究所(National Institute of Standards and Technology,NIST)的年度测评中遥遥领先。

如下图所示,在阿拉伯语到英语翻译的封闭测试集中,Google 系统的 BLUE 评分为 51.31%,领先第二名将近 5%,而提高这 5 个百分点在过去需要研究 5 到 10 年。

Google 究竟是做到的呢?除了 Google 一贯的行事风格——把该领域全世界最好的专家、南加州大学 ISI 实验室的弗朗兹-奥科(Franz Och)博士挖过来之外,最关键的还是 Google 手里握有改进机器翻译系统所需要的大数据。

机器翻译专家 Franz Och,供职于人类长寿公司(后来他又转行到了大数据医疗领域)

从奥科 2004 年加入 Google 到 2005 年参加 NIST 测试,期间只有一年时间,如此短的时间只够他将在南加大的系统用 Google 的程序风格重新实现一遍,完全没有额外的时间做新的研究。而从上图中我们可以看到,Google 和南加大系统的水平差了 5 到 10 年。

其中的秘密就在于:奥科在 Google 还是用的在南加大使用过的方法,但充分利用了 Google 在数据收集和处理方面的优势,使用了比其他研究机构多上万倍的数据,训练出一个机器翻译的六元模型(一般来讲 N 元模型的 N 值不超过 3)。当奥科使用的数据是其他人的上万倍时,量变的积累导致了质变的发生,而这就是当今人工智能领域最权威的几位专家之一杰弗里-辛顿(Geoffrey Hinton)教授所坚持的「多则不同」吧。

值得一提的是,上图中的排在末位的 SYSTRAN 公司是一家使用语法规则进行翻译的企业,在科学家们还没有想到或者有条件利用统计的方法进行机器翻译之前,该企业在机器翻译领域是最领先的。但现在与那些采用了数据驱动的统计模型的翻译系统相比,它的翻译系统就显得非常落后了。

经过上述分析,对本小结的问题终于可以下一个较安全的结论:在当下的企业竞争中,相比于算法或数学模型,数据的重要性的确要大得多,即数据为王。

因为前者往往由学术界在几十年前就已经发现了,所有企业都可以加以利用,但是多维度的完备数据并不是每一个企业都拥有的。

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存