大数据系统综述-中国大数据PDF_数字货币

[2021-02-10 07:11:56] 来源：编辑：wangjia 点击量：

评论 点击收藏

导读： 1.本站不保证该用户上传的文档完整性，不预览、不比对内容而直接下载产生的反悔问题本站不予受理。中国科学信息科学年第卷第期评述大数据系统综述*李学龙龚海刚中国科学院西安光学精密机 1.本站不保证该用户

1.本站不保证该用户上传的文档完整性，不预览、不比对内容而直接下载产生的反悔问题本站不予受理。中国科学信息科学年第卷第期评述大数据系统综述*李学龙龚海刚中国科学院西安光学精密机

1.本站不保证该用户上传的文档完整性，不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

中国科学信息科学年第卷第期评述大数据系统综述 * 李学龙龚海刚中国科学院西安光学精密机械研究所光学影像分析与学习中心(OPTIMAL), 西安 710119 电子科技大学计算机科学与工程学院, 成都 611731 * 通信作者. E-mail: xuelong li@ 收稿日期: 2014–09–30; 接受日期: 2014–11–21 国家自然科学基金(批准号: 资助项目摘要随着科学、技术和工程的迅猛发展近年来许多领域如光学观测、光学监控、健康医护、传感器、用户数据、互联网和金融公司以及供应链系统都产生了海量的数据更恰当的描述或许是无限的数据例如在光学观测和监控等应用中数据都是源源不断而来的形成了数据灾难大数据的概念也随之再次引起重视与传统的数据相比除了大容量等表象特点大数据还具有其他独特的特点例如大数据通常是无结构的并且需要得到实时分析因此大数据的发展需要全新的体系架构用于处理大规模数据的获取、传输、存储和分析本文对大数据分析平台进行了尽可能详尽的文献调研首先介绍了大数据的基本定义和大数据面临的一些挑战然后提出了大数据系统框架将大数据系统分解为数据生成、数据获取、数据存储和数据分析等个模块这个模块也构成了大数据价值链随后讨论了学术界和工业界中和大数据相关的方法和机制最后介绍了典型的大数据系统基准和大数据的一些科学问题本文意图为非专业读者提供大数据的全景知识也为高级读者定制自己的大数据解决方案提供辅助思想希望能够对大数据相关的科技和工程人员起到一些参考作用关键词大数据数据获取数据存储数据处理数据分析引言近年来, “大数据” 已广为人知, 并被认为是信息时代的新 “石油”, 这主要基于两点共识. 首先, 在过去 20 年间, 数据产生速度越来越快. 据国际数据公司 IDC 报道 , 2011 年产生和复制的数据量超过 1.8 Z 字节, 是过去 5 年数据增长的 9 倍, 并将以每两年翻倍的速度增长. 其次, 大数据中隐藏着巨大的机会和价值, 将给许多领域带来变革性的发展. 因此, 大数据研究领域吸引了产业界、政府和学术界的广泛关注. 例如, 产业界报告和公共媒体 ( , , 美国国家公共广播电台 ) 中充斥了大数据的相关信息; 政府部门设立重大项目加速大数据的发展 ; 和等期刊也发表了大数据挑战相关的论点. 毫无疑问, 大数据时代已经到来. 1) Economist T. Drowning in numbers – digital data will ﬂood the planet and help us understand it better. 引用格式李学龙龚海刚大数据系统综述中国科学信息科学李学龙等大数据系统综述大数据的数据集大小以难以想象的速度增长, 给数据处理带来了极大的挑战. 首先, 信息技术的发展使得数据的生成和消费变得更容易. 例如, 每分钟有 72 小时长度的视频被上传到Youtube 服务器 . 大数据的这种大容量特性使得数据难以可伸缩地从分布式的地点收集并集成. 第二, 数据采集后, 如何以最小的硬件和软件代价存储和管理这些海量异构数据是非常具有挑战性的问题. 第三, 由于大数据的异构性、规模性、实时性、复杂性和隐私性等特点, 大数据分析必须在不同层次 (建模、可视化、预测和优化) 高效地挖掘数据以提高决策效率. 这些挑战迫切地需要对整个数据管理系统的各个层次 (从体系架构到具体机制) 进行变革. 但是如果能有效地管理大数据, 就能够给许多领域, 如科学和环境建模、健康医护和能源保护带来巨大的变革. 国际策略咨询公司McKinsey 的研究报告表明, 全球个人位置信息的潜在价值达到7000 亿, 并且能降低产品开发和集成成本的一半以上. 然而, 传统的数据管理和分析系统是基于关系型数据库管理系统(RDBMS) 的. 这些系统在处理结构化数据时性能突出, 但是对半结构化或无结构化数据的处理却无法提供有力的支持. 此外, RDBMS 可以通过增加昂贵的硬件向上扩展 (scale up), 但是无法通过并行增加硬件实现向外扩展 (scale out). 显然, 传统的 RDBMS 无法处理如今大数据的规模和异构性. 为了解决这些挑战, 学术界和产业界从不同角度提出了大数据系统的解决方案. 而云计算平台可以作为大数据系统的基础设施层以满足特定的基础设施需求, 例如成本效率、灵活性以及向上或向下扩展的能力. 分布式文件系统和NoSQL 数据库适用于数据持久存储和模式自由 (scheme free) 的海量数据管理. MapReduce 编程框架在处理组聚合 (group-aggregation) 任务, 如网站排名方面, 获得了极大的成功. Hadoop 则集成了数据存储、数据处理、系统管理和其他模块, 提供了强大的系统级解决方案, 成为大数据处理的主流. 基于这些革新性的技术和平台, 可以构建多样的大数据应用. 本文对大数据领域进行系统性的介绍, 为理解大数据平台、开发大数据应用以及从事大数据的研究提供指导. 本文引入了大数据系统的通用框架, 该框架将大数据平台分为数据生成、数据获取、数据存储和数据分析4 个处理阶段, 并对每一个阶段的当前研究进展进行了调研, 提出了架构设计的工程级观点, 对大数据的不同分析实例进行了探讨. 此外, 本文还比较了大数据系统的评价基准, 并归纳了大数据存在的科学问题和研究方向. 大数据国内外现状大数据的快速发展, 使之成为信息时代的一大新兴产业, 并引起了国内外政府、学术界和产业界的高度关注. 国外研究现状早在 2009 年, 联合国就启动了 “全球脉动计划”, 拟通过大数据推动落后地区的发展, 而 2012 年 1 月的世界经济论坛年会也把 “大数据, 大影响” 作为重要议题之一. 在美国, 2009 年至今, D (美国政府数据库) 全面开放了40 万政府原始数据集, 大数据已成为美国国家创新战略、国家安全战略以及国家信息网络安全战略的交叉领域和核心领域. 2012 年3 月, 美国政府提出 “大数据研究和发展倡议”, 发起全球开放政府数据运动, 并投资 2 亿美元促进大数据核心技术研究和应用, 涉及 NSF, DARPA 等 6 个政府部门和机构, 把大数据放在重要的战略位置. 英国政府也将大数据作为重点发展的科技领域, 在发展 8 类高新技术的 6 亿英镑投资中, 大数据的注资占三成. 2014 年 7 月, 欧盟委员 4) Youtube Statistics. /yt/press/statistics.html. 中国科学信息科学第卷第期会也呼吁各成员国积极发展大数据, 迎接 “大数据” 时代, 并将采取具体措施发展大数据业务. 例如建立大数据领域的公私合作关系; 依托 “地平线” 科研规划, 创建开放式数据孵化器; 成立多个超级计算中心; 在成员国创建数据处理设施网络. 在学术界, 美国麻省理工大学 (MIT) 计算机科学与人工智能实验室 (CSAIL) 建立了大数据科学技术中心 (ISTC). ISTC 主要致力于加速科学与医药发明、企业与行业计算, 并着重推动在新的数据密集型应用领域的最终用户体验的设计创新. 大数据 ISTC 由MIT 作为中心学校, 研究专家们来自 MIT 、加州大学圣巴巴拉分校、波特兰州立大学、布朗大学、华盛顿大学和斯坦福大学等6 所大学. 通过明确和资助领域带头人、提供合作研究中心的方式, 目标是发掘共享、存储和操作大数据的解决方案, 涉及Intel, Microsoft, EMC 等多家国际产业巨头. 同时, 英国牛津大学成立了首个综合运用大数据的医药卫生科研中心, 该中心的成立有望给英国医学研究和医疗服务带来革命性变化, 它将促进医疗数据分析方面的新进展, 帮助科学家更好地理解人类疾病及其治疗方法. 该中心通过搜集、存储和分析大量医疗信息, 确定新药物的研发方向, 减少药物开发成本, 同时为发现新的治疗手段提供线索. 而以英国为首的欧洲核子中心(CERN) 也在匈牙利科学院魏格纳物理学研究中心建设了一座超宽带数据中心, 该中心将成为连接CERN 且具有欧洲最大传输能力的数据处理中心. 在产业界, 国外许多著名企业和组织都将大数据作为主要业务, 例如IBM, Microsoft, EMC, DELL, HP 等国际知名厂商都提出了各自的大数据解决方案或应用. IBM 宣布了收购Star Analytics (星分析公司) 软件产品组合的消息. 除了Star Analytics, 在IBM 最新的收购计划中, Splunk 和NetApp 是最热门的收购目标. 据不完全统计, 从2005 年起, IBM 花费超过 160 亿美元收购了35 家与大数据分析相关的公司. 此外, IBM 还和全球千所高校达成协议, 就大数据的联合研究、教学、行业应用案例开发等方面开展全面的合作. 无疑, 欧美等国家对大数据的探索和发展已走在世界前列, 各国政府已将大数据发展提升至战略高度, 大力促进大数据产业的发展. 国内研究现状我国政府、学术界和产业界也早已经开始高度重视大数据的研究和应用的工作, 并纷纷启动了相应的研究计划. 挂一漏万, 鉴于我们的了解面所限, 本文仅能够简要介绍其中的一些. 在政府层面, 科技部 “十二五” 部署了关于物联网、云计算的相关专项. 2012 年, 中国科学院院长白春礼院士呼吁中国应制定国家大数据战略. 同年3 月, 科技部发布的《“十二五” 国家科技计划信息技术领域2013 年度备选项目征集指南》中的 “先进计算” 板块己明确提出 “面向大数据的先进存储结构及关键技术”, 国家“973 计划” 、“863 计划” 、国家自然科学基金等也分别设立了针对大数据的研究计划和专项. 目前已立项“973 计划” 项目2 项, “973 计划” 青年项目2 项, 国家自然科学基金重点项目2 项. 地方政府也对大数据战略高度重视, 2013 年上海市提出了《上海推进大数据研究与发展三年行动计划》, 重庆市提出了《重庆市人民政府关于印发重庆市大数据行动计划的通知》, 2014 年广东省成立大数据管理局负责研究拟订并组织实施大数据战略、规划和政策措施, 引导和推动大数据研究和应用工作. 贵州、河南和承德等省市也都推出了各自的大数据发展规划. 在学术研究层面, 国内许多高等院校和研究所开始成立大数据的研究机构. 与此同时, 国内有关大数据的学术组织和活动也纷纷成立和开展. 2012 年中国计算机学会和中国通信学会都成立了大数据专家委员会, 教育部也在人民大学成立 “萨师煊大数据分析与管理国际研究中心”. 近年来开展了许多学术活动, 主要包括: CCF 大数据学术会议、中国大数据技术创新与创业大赛、大数据分析与管理国际研讨会、大数据科学与工程国际学术研讨会、中国大数据技术大会和中国国际大数据大会等. 李学龙等大数据系统综述在产业层面, 国内不少知名企业或组织也成立了大数据产品团队和实验室, 力争在大数据产业竞争中占据领先地位. 大数据基础本节首先介绍了大数据的一些主流定义, 随后介绍大数据的发展历史, 并讨论两种大数据处理方式: 流处理和批处理. 大数据定义随着大数据的流行, 大数据的定义呈现多样化的趋势, 达成共识非常困难. 本质上, 大数据不仅意味着数据的大容量, 还体现了一些区别于 “海量数据” 和 “非常大的数据” 的特点. 实际上, 不少文献对大数据进行了定义, 其中三种定义较为重要. 属性定义 (Attributive deﬁnition): 国际数据中心IDC 是研究大数据及其影响的先驱, 在 2011 年的报告中定义了大数据 : “大数据技术描述了一个技术和体系的新时代, 被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”. 这个定义刻画了大数据的4 个显著特点, 即容量 (volume)、多样性(variety)、速度(velocity) 和价值 (value), 而 “4Vs” 定义的使用也较为广泛. 类似的定义也出现在2001 年IT 分析公司META 集团 (现在已被Gartner 并购) 分析师Doug Laney 的研究报告中 , 他注意到数据的增长是三维的, 即容量、多样性和速度的增长. 尽管 “3Vs” 定义没有完整描述大数据, Gartner 和多数产业界巨头如IBM 和 Microsoft 的研究者们仍继续使用 “3Vs” 模型描述大数据 . 比较定义(Comparative deﬁnition): 2011 年, McKinsey 公司的研究报告中将大数据定义为 “超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集”. 这种定义是一种主观定义, 没有描述与大数据相关的任何度量机制, 但是在定义中包含了一种演化的观点(从时间和跨领域的角度), 说明了什么样的数据集才能被认为是大数据. 体系定义 (Architectural deﬁnition): 美国国家标准和技术研究院NIST 则认为 “大数据是指数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力, 需要使用水平扩展的机制以提高处理效率”. 此外, 大数据可进一步细分为大数据科学 (big data science) 和大数据框架 (big data frameworks). 大数据科学是涵盖大数据获取、调节和评估技术的研究; 大数据框架则是在计算单元集群间解决大数据问题的分布式处理和分析的软件库及算法. 一个或多个大数据框架的实例化即为大数据基础设施. 此外, 还有不少产业界和学术界对大数据定义的讨论. 然而对于大数据定义, 要达成共识非常困难. 一种逻辑上的选择是接受所有的大数据定义, 其中每种定义反映了大数据的特定方面. 本文采取这种方式理解大数据科学和工程的共同问题和相关机制. 前面提到的大数据定义给出了一系列工具, 用于比较大数据和传统的数据分析, 比较结果如表1 所示. 首先, 数据集的容量是区分大数据和传统数据的关键因素. 例如, Facebook 报道 2012 年每天有 27 亿用户登录并发表评论 . 其次, 大数据有三种形式: 结构化、半结构化和无结构化. 传统的数据通常是结构化的, 易于标注和存储. 而现在 Facebook, Twitter, YouTube 以及其他用户产生的绝大多数数据都是非结构化的. 第三, 大数据的速度意味着数据集的分析处理速率要匹配数据的产生速率. 对于 5) Grobelnik M. Big Data Tutorial. /eswc2012 grobelnik big data. 中国科学信息科学第卷第期表大数据和传统数据比较 Comparison between big data and traditional data Traditional data Big data Volume GB Constantly updated (TB or PB currently) Generated rate Per hour, day, ... More rapid Structure Structured Semi-structured or un-structured Data source Centralized Fully distributed Data integration Easy Diﬃcult Data store RDBMS HDFS, NoSQL Access Interactive Batch or near real-time Petabyte to Exabyte 2011 Terabyte to Petabyte 1990s IDC report Gigabyte to Terabyte 1980s GFS and MapReduce Megabyte to Gigabyte 10 10 Shared-nothing Megabyte(MB)=2 ×2 bytes 1970s Parallel database Gigabyte(BB)=210×210×210bytes Terabyte(TB)=210×210×210×210bytes Database machine Petabyte(PB)=210×210×210×210×210bytes Exabyte(EB)=210×210×210×210×210×210bytes 图大数据主要历史里程碑 Milestones of big data history 时间敏感的应用, 例如欺诈检测和 RFID 数据管理, 大数据以流的形式进入企业, 需要尽可能快地处理数据并最大化其价值. 最后, 利用大量数据挖掘方法分析大数据集, 可以从低价值密度的巨量数据中提取重要的价值. 大数据的历史以往对大数据的演化过程通常从单方面的观点描述, 例如从年代或技术里程碑等方面. 本文对大数据的演化过程则根据数据大小来刻画, 大数据的发展历史和有效存储管理日益增大的数据集的能力紧密联系在一起. 每一次处理能力的提高都伴随着新数据库技术的发展, 如图1 所示. 因此, 大数据的历史可以大致分为以下几个阶段. Megabyte 到Gigabyte: 20 世纪70 年代到80 年代, 历史上的商业数据从Megabyte 达到Gigabyte 的量级, 从而引入最早的 “大数据” 挑战. 当时的迫切需求是存储数据并运行关系型数据查询以完成商业数据的分析和报告. 数据库计算机 (database machine) 随之产生, 它集成了硬件和软件解决问题, 其思想是通过硬件和软件的集成, 以较小的代价获得较好的处理性能. 一段时间后, 专用硬件的数据库计算机难以跟上通用计算机的发展. 因此, 后来的数据库系统是软件系统, 对硬件几乎没有什么限制, 可以运行在通用计算机上. Gigabyte 到 Terabyte: 20 世纪 80 年代末期, 数字技术的盛行导致数据容量从 Gigabyte 达到李学龙等大数据系统综述 Terabyte 级别, 这超出了单个计算机系统的存储和处理能力. 数据并行化技术被提出, 用于扩展存储能力和提高处理性能, 其思想是分配数据和相关任务 (如构建索引和评估查询) 到独立的硬件上运行. 在此基础上, 提出了几种基于底层硬件架构的并行数据库, 包括内存共享数据库、磁盘共享数据库和无共享 (share nothing) 数据库. 其中, 构建在互连集群基础上的无共享数据库取得了较大的成功. 集群由多个计算机构成, 每个计算机有各自的 cpu 、内存和磁盘 . 在过去几年, 也出现了无共享数据库类型的产品, 包括 Teradata , Netazza , AsterData , Greenplum 和Vertica . 这些系统产品使用关系型数据模型和说明性关系查询语言, 并成为使用分治法并行化数据存储的先驱. Terabyte 到 Petabyte: 20 世纪 90 年代末期, web 1.0 的迅猛发展将世界带入了互联网时代, 随之带来的是巨量的达到 Petabyte 级别的半结构化和无结构的网页数据. 这需要对迅速增长的网页内容进行索引和查询. 然而, 尽管并行数据库能够较好地处理结构化数据, 但是对于处理无结构的数据几乎没有提供任何支持. 此外, 并行数据库系统的处理能力也不超过几个Teragbytes. 为了应对web 规模的数据管理和分析挑战, Google 提出了 GFS 文件系统和 MapReduce 编程模型 . GFS 和 MapReduce 能够自动实现数据的并行化, 并将大规模计算应用分布在大量商用服务器集群中. 运行 GFS 和 MapReduce 的系统能够向上和向外扩展, 因此能处理无限的数据. 2000 年代中期, 用户自主创造内容 (user generated contents, UGC)、多种多样的传感器和其他泛在的数据源产生了大量的混合结构数据, 这要求在计算架构和大规模数据处理机制上实现范式转变 (paradigm shift). 模式自由、快速可靠、高度可扩展的NoSQL 数据库技术开始出现并被用来处理这些数据. 2007 年 1 月, 数据库软件的先驱者 JimGray 将这种转变称为 “第 4 范式” . 他认为处理这种范式的唯一方法就是开发新一代的计算工具用于管理、可视化和分析数据. Petabyte 到 Exabyte: 根据现有的发展趋势, 大公司存储和分析的数据毫无疑问将在不久后从 Petabyte 级别达到Exabyte 级别. 然而, 现有的技术只能处理Petabyte 级别的数据, 目前仍没有革命性的新技术能够处理更大的数据集. 2011 年 7 月, EMC 发布了名为 “Extracting Value from Chaos” 的研究报告 , 讨论了大数据的思想和潜在价值. 该报告点燃了产业界和学术界对大数据研究的热情, 随后几年几乎所有重要的产业界公司, 如EMC, Oracle, Microsoft, Google, Amazon 和Facebook, 都开始启动各自的大数据项目. 2012 年 3 月, 美国政府宣布投资 2 亿美元推动大数据研究计划, 并涉及 DAPRA 、国家健康研究所NIH 、国家自然科学基金NSF 等美国国家机构. 大数据处理方式流式处理和批处理大数据分析是在强大的支撑平台上运行分析算法发现隐藏在大数据中潜在价值的过程, 例如隐藏的模式(pattern) 和未知的相关性. 根据处理时间的需求, 大数据的分析处理可以分为两类. 流式处理: 流式处理假设数据的潜在价值是数据的新鲜度 (freshness) , 因此流式处理方式应尽可能快地处理数据并得到结果. 在这种方式下, 数据以流的方式到达. 在数据连续到达的过程中, 由于流携带了大量数据, 只有小部分的流数据被保存在有限的内存中. 流处理理论和技术已研究多年, 代表性的开源系统包括 Storm, S4 和 Kafka . 流处理方式用于在线应用, 通常工作在秒或毫秒级别. 6) /. 7) /software/data/netezza/. 8) /. 9) /. 10) /. 中国科学信息科学第卷第期表批处理和流处理比较 Comparison between batch processing and stream processing Stream processing Batch processing Input Stream of new data or updates Data chunks Data size Inﬁnite or unknown in advance Known and ﬁnite Storage Not store or store non-trial portion in memory Store Hardware Typical single limited amount of memory Multiple CPUs and memory Processing A single or few pass(es) over data Multiple rounds Time A few seconds or even milliseconds Much longer Applications Web mining, sensor networks, traﬃc monitoring Widely adopted in almost every domain 批处理: 在批处理方式中, 数据首先被存储, 随后被分析. MapReduce 是非常重要的批处理模型. MapReduce 的核心思想是, 数据首先被分为若干小数据块 chunks, 随后这些数据块被并行处理并以分布的方式产生中间结果, 最后这些中间结果被合并产生最终结果. MapReduce 分配与数据存储位置距离较近的计算资源, 以避免数据传输的通信开销. 由于简单高效, MapReduce 被广泛应用于生物信息、web 挖掘和机器学习中. 两种处理方式的区别如表2 所示. 通常情况下, 流处理适用于数据以流的方式产生且数据需要得到快速处理获得大致结果. 因此流处理的应用相对较少, 大部分应用都采用批处理方式. 一些研究也试图集成两种处理方式的优点. 大数据平台可以选择不同的处理方式, 但是两种处理方式的不同将给相关的平台带来体系结构上的不同. 例如, 基于批处理的平台通常能够实现复杂的数据存储和管理, 而基于流处理的平台则不能. 在实际应用中, 可以根据数据特性和应用需求订制大数据平台. 本文将主要针对基于批处理的大数据平台进行探讨. 大数据系统架构本节主要介绍大数据价值链, 大数据价值链由4 个阶段构成: 数据生成、数据获取、数据存储和数据分析. 大数据系统价值链观点大数据系统是一个复杂的、提供数据生命周期 (从数据的产生到消亡) 的不同阶段数据处理功能的系统. 同时, 对于不同的应用, 大数据系统通常也涉及多个不同的阶段 . 本文采用产业界广为接受的系统工程方法, 将典型的大数据系统分解为 4 个连续的阶段, 包括数据生成、数据获取、数据存储和数据分析, 如图2 中水平轴所示. 数据生成阶段关心的是数据如何产生. 此时 “大数据” 意味着从多样的纵向或分布式数据源 (传感器、视频、点击流和其他数字源) 产生的大量的、多样的和复杂的数据集. 通常, 这些数据集和领域相关的不同级别的价值联系在一起 . 本文将集中在商业、互联网和科学研究这三个重要的领域, 因为这些领域的数据价值相对容易理解. 但是, 在收集、处理和分析这些数据集时存在巨大的技术挑战, 需要利用信息通信技术(ICT) 领域的最新研究技术提出新的解决方案. 李学龙等大数据系统综述 Generation Acquisition Storage Analytics Universe Logfiles Crawler Shared-nothing Data Web observation parallel database mining mining Data Webpage WDM Integration Statistical Multivariate statistical Government Radio Data NoSQL analysis analysis sector telescope cleansing Text mining 2000 e Bussiness Data n Multimedia Network i l compression Google file e data m analytic analytic i Social Sensor system T Environment 2005 network monitoring Deduplication Recommendation Large-scale UGC Optic MapReduce PNUTS MongoDB Mobile Social network scientific RFID experiment E-commerce interconnect DynaMo Dryad SimpleDB analytic analytic OFDM 3-tier tree Voldmort BigTable CouchDB Healthcare Redis Casandra HBase Community 2-tier tree detection 2010 All-pairs Mobile Pregel community detection 图大数据价值链及其技术地图 Big data value chain and technology map 数据获取则是指获取信息的过程, 可分为数据采集、数据传输和数据预处理. 首先, 由于数据来自不同的数据源, 如包含格式文本、图像和视频的网站数据, 数据采集是指从特定数据生产环境获得原始数据的专用数据采集技术. 其次, 数据采集完成后, 需要高速的数据传输机制将数据传输到合适的存储系统, 供不同类型的分析应用使用. 再次, 数据集可能存在一些无意义的数据, 将增加数据存储空间并影响后续的数据分析. 例如, 从监控环境的传感器中获得的数据集通常存在冗余, 可以使用数据压缩技术减少数据传输量. 因此, 必须对数据进行预处理, 以实现数据的高效存储和挖掘. 数据存储解决的是大规模数据的持久存储和管理. 数据存储系统可以分为两部分: 硬件基础设施和数据管理软件. 硬件基础设施由共享的ICT 资源池组成, 资源池根据不同应用的即时需求, 以弹性的方式组织而成. 硬件基础设施应能够向上和向外扩展, 并能进行动态重配置以适应不同类型的应用环境. 数据管理软件则部署在硬件基础设施之上用于维护大规模数据集. 此外, 为了分析存储的数据及其数据交互, 存储系统应提供功能接口、快速查询和其他编程模型. 数据分析利用分析方法或工具对数据进行检查、变换和建模并从中提取价值. 许多应用领域利用领域相关的数据分析方法获得预期的结果. 尽管不同的领域具有不同的需求和数据特性, 它们可以使用一些相似的底层技术. 当前的数据分析技术的研究可以分为6 个重要方向: 结构化数据分析、文本数据分析、多媒体数据分析、web 数据分析、网络数据分析和移动数据分析. 大数据的研究涉及许多学科技术, 图2 显示了大数据技术地图, 图中将大数据价值链不同阶段和相应的开源或专有技术联系在一起. 图2 反映了大数据的发展趋势. 在数据生成阶段, 大数据的结构逐渐复杂, 从结构化或无结构的数据到不同类型的混合数据. 在数据获取阶段, 数据采集、数据预处理和数据传输的研究则出现在不同的时期. 而数据存储的相关研究则大部分始于 2005 年. 数据分析的基本方法形成于2000 年前, 随后的研究则使用这些方法解决领域相关的问题. 从该图中, 可以在不同阶段选择合适的技术和方法定制大数据系统. 中国科学信息科学第卷第期 Application Level Recommen- Query Clustering Classification dation Computing Level File system Dremel Pregel SQL NoSQL MapReduce Dryad Integration Management Programming Model Infrastructure Level Computation Computation Computation Computation Network Network Network Storage Storage Storage Storage 图大数据系统的层次架构 Layered architecture of big data system 大数据系统层次观点另一方面, 从层次观点, 可以将大数据系统分解为3 层: 基础设施层、计算层和应用层, 如图3 所示. 这种层次观点仅提供概念上的层次以强调大数据系统的复杂性. 基础设施层: 由ICT 资源池构成, 可利用虚拟技术组织为云计算基础设施. 这些资源通过特定的服务级别协定 (service-level agreement, SLA) 以细粒度的方式提供给上层子系统, 资源的分配需要满足大数据需求, 同时通过最大化系统利用率、能量感知和操作简化等方式实现资源使用的有效性. 计算层: 将多种数据工具封装于运行在原始 ICT 硬件资源之上的中间件中, 典型的工具包括数据集成、数据管理和编程模型等. 数据集成是指从独立的数据源中获取数据, 并通过必要的预处理技术将数据集合成为统一形式. 数据管理是指提供数据的持久存储和高效管理的机制和工具, 例如分布式的文件系统和 SQL, NoSQL 数据存储. 编程模型实现应用逻辑抽象并为数据分析应用提供便利. MapReduce , Dryad , Pregel 和Dremel 是几个典型的编程模型. 应用层: 利用编程模型提供的接口实现不同的数据分析功能, 包括查询、统计分析、数据的聚类和分类等, 同时通过组合基本分析方法开发不同的领域相关应用. McKinsey 公司提出了 5 个潜在的大数据应用领域: 医疗康护、公众部门管理、零售、全球制造和个人位置信息. 李学龙等大数据系统综述大数据系统面临的挑战设计和实现一个大数据系统不是一个简单的任务, 如同大数据定义描述的, 大数据超出了现有硬件和软件平台的处理能力. 新的硬件和软件平台反过来要求新的基础设施和编程模型解决大数据带来的挑战. 最近的研究工作讨论了影响大数据应用的潜在障碍. 本文将大数据面临的挑战分为 3 类: 数据采集和管理、数据分析和系统观点. 近年来, 本文作者参加了一些学术界和工业界的相关座谈和讨论, 所以文中可能也包含了领域内一些同行们的见解. 数据采集和管理处理异构复杂的海量数据, 其面临的部分挑战包括: 数据表示. 许多数据集在类型、结构、语义、组织、粒度和可访问性等方面是异构的. 合适的数据表示方法能够反映数据的结构、层次和多样性, 并且需要设计一个集成技术实现跨数据集的有效操作. 冗余缩减 (Redundancy reduction) 和数据压缩. 通常在原始数据集中存在大量的冗余数据. 不损毁数据价值的冗余缩减和数据压缩是减少系统整体开销的有效方法. 数据生存周期管理: 普适的感知和计算以难以想象的速率和规模产生数据, 远超现有存储技术的发展. 一个迫切的挑战是现有的存储系统难以容纳海量数据. 而数据的潜在价值和数据新鲜度有关, 因此应该设置和隐藏价值相联系的数据重要性原则, 以决定哪部分数据需要存档, 哪部分数据可以丢弃. 数据隐私和安全. 随着在线服务和移动手机的增长, 与访问控制、个人信息分析相关的隐私和安全问题日益得到关注. 了解需要提供什么样的系统级别隐私保护机制至关重要. 大数据分析技术的发展为数据解释、建模、预测和模拟带来了重大的影响. 然而, 海量数据、异构数据结构和多样化的应用也带来了许多挑战. 近似分析: 随着数据集的增长和实时处理需求的提出, 对整个数据集的分析越来越难. 一个潜在的解决方案是给出近似结果, 例如使用近似查询. 近似的含义有两个方面: 结果的准确度和从输出中删除的数据组. 连接社交媒体: 社交媒体具有独特的性质, 如巨量性、统计冗余性和用户反馈的可用性. 不同的提取技术已成功用于标识从社交媒体到具体产品名称和位置等参照物. 通过连接领域间的数据和社交媒体, 应用能够获得更高的精确性. 深度分析: 大数据的一个令人兴奋的研究动机是期望获得新的领悟. 诸如机器学习等复杂的分析技术对发现新的知识非常必要, 而有效地使用这些分析工具包需要了解概率和统计. 安全和隐私机制的核心是强制的访问控制和安全通信, 多粒度访问控制, 隐私感知的数据挖掘和分析, 以及安全存储和管理. 最后, 大规模并行处理系统通常面临几个共同的问题, 而大数据的出现则放大了这些问题. 能量管理: 大规模计算系统的能量消耗从经济和环境的观点吸引了较大的关注. 随着数据量和分析需求的增长, 数据传输、存储和处理无疑将消耗更多的能量. 因此, 在大数据系统中必须提供系统级的能量控制和管理机制, 同时提供可扩展性和可访问性. 可扩展性: 大数据系统应该能够支持现在以及将来产生的巨大的数据集. 大数据系统中的所有组件都能扩展以解决复杂数据集的日益增长. 协作性: 大数据分析是一个交叉学科研究领域, 需要来自不同专业领域的专家协作挖掘数据中隐藏的价值. 因此需要建立一个综合的大数据基础设施, 允许不同领域的科学家和工程师访问多样的数据, 并应用各自的专业知识, 协作完成分析任务. 中国科学信息科学第卷第期阶段数据生成本节将介绍大数据源的两个方面: 大数据源的历史趋势和三种典型的数据源. 数据源大数据生成的发展趋势可由数据产生速率来描述. 随着技术的发展, 数据产生速率也不断增长. 事实上, IBM 认为现在世界上 90% 的数据是近两年产生的 . 数据爆炸的原因被广为争论. Cisco 认为数据的增长来自于视频、互联网和摄像头 . 由于数据实际上是能被计算机可读的信息抽象, 信息通信技术 (ICT) 是使得信息可读并且产生或捕获数据的主要驱动力. 因此本节首先从ICT 技术的发展开始, 以历史的观点解释数据爆炸的发展趋势. 数据生成的模式可分为3 个顺序的阶段. 阶段1 始于20 世纪90 年代. 随着数字技术和数据库系统的广泛使用, 许多企业组织的管理系统存储了大量的数据, 如银行交易事务、购物中心记录和政府部门归档等. 这些数据集是结构化的, 并能通过基于数据库的存储管理系统进行分析. 阶段 2 则始于web 系统的日益流行. 以搜索引擎和电子商务为代表的web 1.0 系统在 20 世纪 90 年代末期产生了大量的半结构化和无结构的数据, 包括网页数据和事务日志等. 而自 2000 年初期以来, 许多web 2.0 应用从在线社交网络 (如论坛、博客、社交网站和社交媒体网站等) 中产生了大量的用户创造内容. 阶段3 因移动设备(如智能手机、平板电脑、传感器和基于传感器的互联网设备) 的普及而引发. 在不久的将来, 以移动为中心的网络将产生高度移动、位置感知、以个人为中心和上下文相关的数据. 可以发现, 数据生成模式是从阶段 1 的被动记录到阶段2 的数据主动生成, 再到阶段 3 的自动生成. 除了用数据产生速率描述, 大数据源还与数据产生领域相关. 本文主要对商业、网络和科学研究这三个领域进行大数据相关技术的调研. 首先, 大数据和商业活动联系紧密, 许多大数据工具已经被开发并广泛使用; 其次, 大部分的数据是由互联网、移动网络和物联网产生的. 再次, 科学研究会产生大量的数据, 高效的数据分析将帮助科学家们发现基本原理, 促进科学发展. 这三个领域在对大数据的处理方面具有不同的技术需求. (1) 商业数据过去几十年中, 信息技术和数字数据的使用对商业领域的繁荣发展起到了重要的推动作用. 全球所有公司商业数据量每 1.2 年会翻番. 互联网上的商业事务, 包括B2B 和B2C 事务, 每天有4500 亿条 . 日益增长的商业数据需要使用高效的实时分析工具挖掘其价值. 例如, Amazon 每天要处理几百万的后端操作和来自第三方销售超过 50 万的查询请求. 沃尔玛每小时要处理上百万的客户事务, 这些事务被导入数据库, 约有超过2.5 PB 的数据量 . Akamai 每天则需分析7500 万事件, 以更好地实现广告定位 . (2) 网络数据网络(互联网、移动网络和物联网) 已经和人们的生活紧密联系在一起. 网络应用如搜索、社交网络服务 SNS、网站和点击流是典型的大数据源. 这些数据源高速产生数据, 需要先进的处理技术. 例如, 搜索引擎 Google 在 2008 年每天要处理 20 PB 的数据 ; 社交网络应用 Facebook 则每天需存 11) IBM. What is big data. /software/data/bigdata/. 12) Kelly J. Taming Big Data. /blog/taming-big-data/. 李学龙等大数据系统综述表典型大数据源 Typical big data sources Data source Application Data scale Type Response time Number of users Accuracy Walmart Retail PB Structured Very fast Large Very high Amazon e-commerce PB Semi-structured Very fast Large Very high Google search Internet PB Semi-structured Fast Very large High Facebook Social network PB Structured, unstructured Fast Very large High AT&T Mobile network TB Structured Fast Very large High Health care Internet of Things TB Structured, unstructured Fast Large High SDSS Scientiﬁc research TB Unstructured Slow Small Very high 储、访问和分析超过30 PB 的用户创造数据; Twitter 每月会处理超过3200 亿的搜索 . 在移动网络领域, 2010 年有40 亿人持有手机, 其中约 12% 的手机是智能手机. 而在物联网领域, 有超过 3000 万的联网传感器工作在运输、汽车、工业、公用事业和零售部门并产生数据. 这些传感器每年仍将以超过30% 的速率增长. (3) 科学研究数据越来越多的科学应用正产生海量的数据集, 若干学科的发展极度依赖于对这些海量数据的分析, 这些学科主要包括: 光学观测和监控. 在光学遥感和对地观测领域、基于光学等设备的视频监控领域等, 往往需要获取连续大量的数据. 这些几乎造成管理和处理灾难的数据有一定的周期性, 而用户关心的又往往是其中的差异和异常的部分. 考虑到这类数据的分析和学习过程往往又同获取这些数据时的装置和参数密切相关, 再加上视觉信息对人类的重要性以及用户同系统的必要交互, 对光学观测和监控数据的管理和处理已经提高到重要日程. 计算生物学. 美国国家生物信息中心 NCBI 维护了 GenBank 的核苷酸序列数据库, 该数据库大小每 10 个月翻倍. 2009 年 8 月, 数据库中存储了来自 15 万多有机生物体的超过 2500 亿条核苷酸碱基 . 天文学. 从 1998 年到2008 年, 最大的天文目录SDSS 从天文望远镜中获取了25 Terabytes 数据. 随着天文望远镜分辨率的提高, 每晚产生的数据量将在2014 年超过20 Terabytes . 高能物理. 欧洲粒子物理实验室中大型强子对撞机实验, 在2008 年初起以2 PB/s 的速率产生数据, 每年将存储约 10 PB 经过处理的数据 . 这些领域不但要产生海量的数据, 还需要分布在世界各地的科学家们协作分析数据 . 表 3 列举了这三个领域中具有代表性的大数据源及其应用属性和数据分析的需求. 可以看出, 大部分的数据源产生PB 级别的无结构数据, 并且需要得到快速准确的分析. 数据属性普适感知和计算产生前所未有的复杂的异构数据, 这些数据集在规模、时间维度、数据类型的多样性等方面有着不同的特性. 例如, 移动数据和位置、运动、距离、通信、多媒体和声音环境等相关 . NIST 提出了大数据的5 种属性 . 13) Wikibon. A Comprehensive List of Big Data Statistics. /blog/big-data-statistics/. 14) /. 15) /. 中国科学信息科学第卷第期 Stage 1 Stage 2 Stage 3 Data Log file Data Physical layer Data pre- Integration collection Sensor transmission Network layer processing Cleansing Web crawler Redundancy 图数据获取的个步骤 Three steps of data acquisition 容量: 数据集的大小. 速度: 数据生成速率和实时需求. 多样性: 结构化、半结构化和无结构的数据形式. 水平扩展性: 合并多数据集的能力. 相关限制: 包含特定的数据形式和查询. 数据的特定形式包括时间数据和空间数据; 查询则可以是递归或其他方式. 通常, 科学研究领域的数据源在 5 种属性中具有最小的属性值; 商业领域的数据源则具有较高的水平扩展性和相关限制的需求; 而网络领域的数据源具有较高的容量、速度和多样性特征. 阶段数据获取在大数据价值链中, 数据获取阶段的任务是以数字形式将信息聚合, 以待存储和分析处理. 数据获取过程可分为三个步骤: 数据采集、数据传输和数据预处理, 如图4 所示. 数据传输和数据预处理没有严格的次序, 预处理可以在数据传输之前或之后. 数据采集数据采集是指从真实世界对象中获得原始数据的过程. 不准确的数据采集将影响后续的数据处理并最终得到无效的结果. 数据采集方法的选择不但要依赖于数据源的物理性质, 还要考虑数据分析的目标. 随后将介绍3 种常用的数据采集方法: 传感器、日志文件和web 爬虫. (1) 传感器传感器常用于测量物理环境变量并将其转化为可读的数字信号以待处理. 传感器包括声音、振动、化学、电流、天气、压力、温度和距离等类型. 通过有线或无线网络, 信息被传送到数据采集点. 有线传感器网络通过网线收集传感器的信息, 这种方式适用于传感器易于部署和管理的场景. 例如视频监控系统通常使用非屏蔽双绞线连接摄像头, 摄像头部署在公众场合监控人们的行为, 如偷盗和其他犯罪行为 . 而这仅仅是光学监控领域一个很小的应用示例, 在更广义的光学信息获取和处理系统中 (例如对地观测、深空探测等), 情况往往更复杂. 另一方面, 无线传感器网络利用无线网络作为信息传输的载体, 适合于没有能量或通信的基础设施的场合. 近年来, 无线传感器网络得到了广泛的研究, 并应用在多种场合, 如环境、水质监控、土木工程、野生动物监控等. WSNs 通常由大量微小传感器节点构成, 微小传感器由电池供电, 被部署在应用制定的地点收集感知数据. 当节点部署完成后, 基站将发布网络配置/管理或收集命令, 来自不同节点的感知数据将被汇集并转发到基站以待处理 . 李学龙等大数据系统综述表三种数据采集方法的比较 Comparison among three data collection methods Method Mode Data structure Data scale Complexity Applications Sensor Pull Structured or unstructured Median Sophisticated Video surveillance, Inventory management Log ﬁle Push Structured or semi-structured Small Easy Web log, click stream Web crawler Pull Mixture Large Median Search, social networks analysis 基于传感器的数据采集系统被认为是一个信息物理系统 (cyber-physical system) . 实际上, 在科学实验中许多用于收集实验数据的专用仪器 (如磁分光计、射电望远镜等) , 可以看作特殊的传感器. 从这个角度, 实验数据采集系统同样是一个信息物理系统. (2) 日志文件日志是广泛使用的数据采集方法之一, 由数据源系统产生, 以特殊的文件格式记录系统的活动. 几乎所有在数字设备上运行的应用使用日志文件非常有用, 例如 web 服务器通常要在访问日志文件中记录网站用户的点击、键盘输入、访问行为以及其他属性 . 有三种类型的web 服务器日志文件格式用于捕获用户在网站上的活动: 通用日志文件格式 (NCSA)、扩展日志文件格式(W3C) 和IIS 日志文件格式 (Microsoft). 所有日志文件格式都是ASCII 文本格式. 数据库也可以用来替代文本文件存储日志信息, 以提高海量日志仓库的查询效率 . 其他基于日志文件的数据采集包括金融应用的股票记帐和网络监控的性能测量及流量管理. 和物理传感器相比, 日志文件可以看作是 “软件传感器”, 许多用户实现的数据采集软件属于这类 . (3) Web 爬虫爬虫是指为搜索引擎下载并存储网页的程序. 爬虫顺序地访问初始队列中的一组URLs, 并为所有URLs 分配一个优先级. 爬虫从队列中获得具有一定优先级的URL, 下载该网页, 随后解析网页中包含的所有URLs 并添加这些新的 URLs 到队列中. 这个过程一直重复, 直到爬虫程序停止为止. Web 爬虫是网站应用如搜索引擎和web 缓存的主要数据采集方式. 数据采集过程由选择策略、重访策略、礼貌策略以及并行策略决定 . 选择策略决定哪个网页将被访问; 重访策略决定何时检查网页是否更新; 礼貌策略防止过度访问网站; 并行策略则用于协调分布的爬虫程序. 传统的 web 爬虫应用已较为成熟, 提出了不少有效的方案. 随着更丰富更先进的web 应用的出现, 一些新的爬虫机制已被

请自觉遵守互联网相关的政策法规，严禁发布色情、暴力、反动的言论。用户名:验证码:匿名?发表评论