1.2 大数据的技术体系

大数据(Big Data)是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。(《促进大数据发展行动纲要》)

1980年,美国作家阿尔文·托夫勒所著的《第三次浪潮》(The Third Wave)中预测了信息爆炸所产生的社会变革,并称之为“第三次浪潮的华彩乐章”。在20世纪90年代开始,数据仓库之父比尔·恩门(Bill Inman)以及SGI公司的首席科学家约翰·马什(John R Mashey),都开始使用大数据这个名词。

2006年8月,谷歌公司提出了“云计算”(cloud computing)的概念,但含义既涵盖了现在的云的概念,如亚马逊的EC2、S3等云服务内容,也包含了现在大数据的内容,如Hadoop系统、MapReduce架构等。大约在2011年以后,大数据的概念逐渐升温,大数据和云计算成为两个截然不同的名词,其内涵也逐渐固定下来——云计算强调通过网络和租用方式使用IT资源,大数据则强调对数据内容进行价值挖掘。

目前,大数据并没有一个统一的定义,大数据这个名词和NoSQL有类似之处,即都属于很好听、易炒作的名词,因此虽然流传广泛,但并不够严谨。随着时代的发展,热点名词可能会发生演变,例如NoSQL演变出NewSQL、大数据演变出数据科学等概念,但名词之中包含的共性特点及发展趋势是较稳定的。和NoSQL一样,我们对大数据这一名词,也需要从其特征归纳、历史和发展趋势进行理解。

目前大数据已经获得全球政府和各行各业的广泛关注。美国在2012年发布的《大数据研究和发展计划》中,旨在提高从大型复杂数据集中进行价值挖掘的能力。欧盟、英国、日韩等也相继发布了自己的大数据战略规划。

2015年5月,我国首次明确对大数据产业进行规划,同年9月,国务院则印发了《促进大数据发展行动纲要》,指明我国大数据发展的主要任务是:加快政府数据开放共享,推动资源整合,提升治理能力;推动产业创新发展,培育新兴业态,助力经济转型;强化安全保障,提高管理水平,促进健康发展。

在互联网行业和传统工商业,到处都能看到大数据的蓬勃发展和成功案例,无论是商业精准营销、城市的电力消耗预测、基因组测序研究还是公路拥堵分析等场景中,都可以看到大数据发挥的作用。“用数据说话”的理念也在深入各行各业,通过数据来证明结论、支持决策可以带来更低的创新成本,提高决策的可信度和管理的精细度。

在技术上,大数据业务需要完成数据采集、数据的存储和管理、数据查询、数据处理、数据分析和可视化展示等一系列基本环节。由于容量大、持续增长等原因,大数据业务系统一般会基于分布式系统构建,考虑到分布式系统可能存在的节点、网络故障,以及可能产生的传输瓶颈等问题,分布式系统的建设难度远大于单机系统。此外,还要考虑大数据安全与隐私保护,以及大数据交易与计费等扩展问题。