杨镇:从大数据与 AI 技术发展来看,跨链技术必要且必然

在不久将来,随着AI能做的事越来越多,必然会产生需要AI直接与其他AI进行交互的场景。那么,如何保证AI与AI之间的
摘要

大数据101

在不久将来,随着AI能做的事越来越多,必然会产生需要AI直接与其他AI进行交互的场景。那么,如何保证AI与AI之间的信息交互是安全可信且可审计的呢?是通过在不同...

在不久将来,随着 AI 能做的事越来越多,必然会产生需要 AI 直接与其他 AI 进行交互的场景。那么,如何保证 AI 与 AI 之间的信息交互是安全可信且可审计的呢?是通过在不同公司之间建立数据网关?还是简单地通过客户端转发?我想真正的答案就是智能合约 + 「跨链」技术。

原文标题:《从大数据和 AI 技术的发展看跨链技术的必要性和必然性》 作者:杨镇,资深软件工程师、架构师、独立讲师,具备 18 年软件开发经验,曾翻译《以太坊黄皮书》、《Solidity 官方文档》、《精通以太坊》,著有《深入以太坊智能合约开发》、《以太坊智能合约高级开发课程》、《工程师眼中的比特币和以太坊》

本文首先会对大数据和 AI 技术做一些概念扫盲,算是个小小的科普,也会涉及一些我认为有助于我们从本质上理解这些技术的关键点;我本人其实早就想聊聊这些内容,因为我见多太多人乃至很多公司都并不确切地知道这些最基本的概念,都只是在跟风或者被很多媒体、大公司的商业炒作所迷惑。所以本文的很多内容都可以看作是对从大众层面理解这些技术概念的误区的一种澄清。

当然,本文中也会聊聊我个人「略懂」的区块链以及时下热门的「跨链」话题,这也是我写本文的主要目的。希望本文能给专业的和非专业的朋友都提供一些有用的信息或者启发。

写作本文可以说是一时兴起,其中关于「跨链」的内容,灵感主要来自于前几天 Gavin Wood 博士说到的一个观点。

到底什么样的数据才是大数据

近些年,越来越多的企业、媒体在炒作「大数据(Big Data)」,我想无论是专业的技术人员还是普通大众,其实首先都要明确一个概念——到底多大的数据才能叫「大数据」?

我曾经供职于一家几乎所有中国人都知道的制造业公司,公司内部也曾说过要做大数据分析,要引入大数据概念内的技术工具和基础设施,其根据就是其业务数据量已经达到了 100 多 TB (1 TB 约等于 1 万亿字节)。但这显然忽略了一个重要因素,就是这 100 多 TB 数据是这家公司自成立以来的所有数据(20 多年的历史数据)。而 Facebook 每天产生的数据量早已超过了 10 TB,请注意,是每天 。这是一个量级么?有可比性么?

所以我们谈「大数据」,最重要的指标其实在于「数据增量大」,或者叫做「数据增速大」。仅仅是历史数据量大,谈不上「大数据」,因为不管历史数据再多,他们都是「历史数据」,是不会再修改的数据,分析一次就完事了;而如果「数据增速大」,其绝对数据量自然也就会非常大,那么它对于数据分析工具和相关技术的要求也就会相应提高。

而当我们以「数据增速大」作为关键指标来筛选的时候,我们就会发现:其实目前市面上 99.9% 的公司所谓的「大数据」分析,都只是给 20 多年前就出现了的 BI (Business Inteligence,即商业智能,因为篇幅原因,这里不做展开介绍)业务换了个新马甲而已。真正能称得上是「大数据」的业务,大概只有那些全球化的数据信息服务,或者信息化的社会公共基础服务。前者的代表就是全球化的社交媒体 / 内容平台(Facebook、Twitter、微信、早期的微博)、搜索引擎(Google、百度)、高流量的电商平台(Amazon、淘宝)、高流量的支付交易网关、高活跃度的移动智能设备系统服务等互联网应用;后者的代表则是类似运营商、公共基础设施服务(比如交通、能源)等一般由政府控制的社会公共基础服务。

「大数据」的概念首次被提出是在大概 10 年之前,目前业内广泛认同的 3V 指标是衡量大数据的最主要指标,它们包括 Volume (数据量)、Variety (多样性)、Velocity (增长速度),后来有业内人士在 3V 指标的基础上增加了 Veracity (真实度)和 Value (价值),将其扩展为 5V 指标。而在大数据的多样性和高速增长特性的共同影响下,非关系型数据库(Nosql database)也得到了大量的应用和快速的进化发展。

此外值得一提的就是近年来得到飞速发展的物联网(Internet of Things)公司。基于大量的终端设备 / 传感器所采集 / 传输的数据是有可能达到「大数据」的级别的,只是目前能支持到「数亿」量级终端设备的公司还并不多,但这已经是一个可以看到的未来方向了。