说起大数据,很多朋友都听说过。但大数据具体是什么东西,它对我们究竟有哪些意义,可能很多人并不是特别知道。
带着这些问题,我和戴金权老师进行了深入沟通。他是英特尔的院士、大数据技术全球 CTO,也是大数据领域的国际知名专家。通过这次对谈,让我对大数据的发展和落地有了新的认识。
我把我们的对话进行了整理和采编,以飨读者,希望大家也能从中获益。
在开始这场 " 大数据知识 " 盛宴之前,我们还精剪了一个 3 分钟的短视频,以快问快答形式,让您能对本次访谈的重要片段先睹为快。
注:以下的 " 我 ",指的都是戴金权老师。
1、大数据究竟是什么?
顾名思义,大数据的关键核心,就是大量的数据。但同样重要的是产生大量数据以后,对数据的存储、分析处理、计算建模、人工智能等等一系列应用,都可以算在大数据的范畴里。
大数据的 " 大 ",首先指数据量比较大,最简单也最有挑战的问题是:当我有这么大的数据,怎样进行存储?除了数据量大,对数据处理和计算的要求其实也是非常大的。这些都代表了大数据的大。
2、人工智能与大数据:
先有鸡还是先有蛋?
人工智能本身不是一个新概念。最近一次人工智能从某种意义上的复兴,可能就是在 2021 年前后开始,以深度学习为代表的一系列的算法,能够在很多原来做不到的应用上带来非常好的效果。其中一个很大的促进作用,就是今天有了大量的数据,在大量数据的基础上去学习非常大的深度学习的模型,可以提高模型的准确率,从而使得模型从原来的可能不能用,到今天可以被用了,它的准确率达到一定的程度,这样就推动了人工智能的发展。
3、AI 与大数据:落地更重要?
老石:之前人工智能更关注性能,但最近人们更关注它的落地。对于大数据,是否也存在类似的思维方式的转变?
如何把人工智能技术从实验室应用到真实生产生活环境中,意味着两点:
第一,它需要能够和整个端到端的数据流很好的结合在一起,这样才能真正对现实的生产生活产生影响;
第二,性能并不是孤立的,而要考虑整个端到端的性能,因为很多时候你的瓶颈在你的端到端数据流里面的不同的地方,怎样把整个端到端的性能进行优化,这是很关键的。
举个例子,我们和韩国 SK 电讯有个合作,他们要对通讯网络进行分析,了解网络质量如何,并用人工智能的模型来进行判断。他们可能在一个很大的城市里有几十万个基站,基站设备每秒钟会产生非常多的网络数据。这些数据在产生之后,要从分散在城市中的各个基站进入到数据中心的大数据平台里,然后进行数据整理、分析、特征处理,然后去建模、训练,再根据模型去进行推理,推理之后根据出来的结果,可能会得出某个地方的网络质量有问题等等。
在这里," 端到端 " 是从开始到结束,而且它是动态的、每秒都会产生,并不是产生一次就结束了。
4、英特尔 BigDL 的作用及开发难点?
老石:您在行业的代表性工作,就是关于大数据的平台 BigDL。能否请您简单介绍一下 BigDL 到底是什么?
用一句话来说,BigDL 是英特尔开源的一个 " 端到端 " 的大数据到 AI 的平台、或者流水线。如我刚才所说,人工智能真正成功的重点,是怎样把实验室的算法、模型真正应用到生产环境中。这就需要一个 " 端到端 " 的软硬件平台,能够让用户很方便地做这件事情,这是做 BigDL 的目的。
开发这样一个 " 端到端 " 大数据 AI 平台,当然也遇到了一些重要的挑战。
第一,需要把 AI 和现有的大数据生态系统进行无缝连接。传统上,用户很多时候要从大数据平台里进行数据拷贝,然后移到另外一个深度学习的集群上,但这样其实非常不高效。因此需要 AI 和大数据平台的无缝连接。
第二,如何从单机的环境转到分布式的计算环境。大规模的分布式计算是支撑 AI 或大数据的关键,但这对于一般的数据科学家是一个非常大的挑战。
通常来说,数据科学家写完代码,要把代码扔过一堵无形的 " 墙 ",墙那边可能有个产品团队或工程团队,根据实际场景进行代码重写。