
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的发展,越来越多的信息充斥在网络上,而大数据就是依靠对这些信息的收集、分类、归纳整理出我们所需要的信息,然后利用这些信息完成一些工作需要的一项能力技术。
今天,我们主要就是来分析一下,大数据这项技术到底有那几个层次。
移动互联网时代,数据量呈现指数级增长,其中文本、音视频等非结构数据的占比已超过85%,未来将进一步增大。Hadoop架构的分布式文件系统、分布式数据库和分布式并行计算技术解决了海量多源异构数据在存储、管理和处理上的挑战。
从2006年4月第一个Apache Hadoop版本发布至今,Hadoop作为一项实现海量数据存储、管理和计算的开源技术,已迭代到了v2.7.2稳定版,其构成组件也由传统的三驾马车HDFS、MapReduce和HBase社区发展为由60多个相关组件组成的庞大生态,包括数据存储、执行引擎、编程和数据访问框架等。其生态系统从1.0版的三层架构演变为现在的四层架构:
底层——存储层
现在互联网数据量达到PB级,传统的存储方式已无法满足高效的IO性能和成本要求,Hadoop的分布式数据存储和管理技术解决了这一难题。HDFS现已成为大数据磁盘存储的事实标准,其上层正在涌现越来越多的文件格式封装(如Parquent)以适应BI类数据分析、机器学习类应用等更多的应用场景。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面,区别于常用的Tachyon或Ignite,分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范,得到了众多开发者和产业巨头的支持。
区别于传统的关系型数据库,HBase适合于非结构化数据存储。而Cloudera在2015年10月公布的分布式关系型数据库Kudu有望成为下一代分析平台的重要组成,它的出现将进一步把Hadoop市场向传统数据仓库市场靠拢。
中间层——管控层
管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce1.0的YARN已成为Hadoop 2.0的通用资源管理平台。如何与容器技术深度融合,如何提高调度、细粒度管控和多租户支持的能力,是YARN需要进一步解决的问题。另一方面,Hortonworks的Ranger、Cloudera 的Sentry和RecordService组件实现了对数据层面的安全管控。
上层——计算引擎层
在搜索引擎时代,数据处理的实时化并不重要,大多采用批处理的方式进行计算。但在SNS、电子商务、直播等在线应用十分普及的今天,在不同场景下对各类非结构化数据进行实时处理就变得十分重要。Hadoop在底层共用一份HDFS存储,上层有很多个组件分别服务多种应用场景,具备“单一平台多种应用”的特点。
例如,Spark组件善于实时处理流数据,Impala实现诸如OLAP的确定性数据分析,Solr组件适用于搜索等探索性数据分析,Spark、MapReduce组件可以完成逻辑回归等预测性数据分析,MapReduce组件可以完成数据管道等ETL类任务。其中,最耀眼的莫过于Spark了,包括IBM、Cloudera、Hortonworks在内的产业巨头都在全力支持Spark技术,Spark必将成为未来大数据分析的核心。
顶层——高级封装及工具层
Pig、Hive等组件是基于MapReduce、Spark等计算引擎的接口及查询语言,为业务人员提供更高抽象的访问模型。Hive为方便用户使用采用SQL,但其问题域比MapReduce、Spark更窄,表达能力受限。Pig采用了脚本语言,相比于Hive SQL具备更好的表达能力。
在结构化数据主导的时代,通常使用原有模型便可以进行分析和处理,而面对如今实时变化的海量非结构化数据,传统模型已无法应对。在此背景下,机器学习技术正慢慢跨出象牙塔,进入越来越多的应用领域,实现自动化的模型构建和数据分析。
除了Mahout、MLlib、Oryx等已有项目,最近机器学习开源领域迎来了数个明星巨头的加入。Facebook开源前沿深度学习工具“Torch”和针对神经网络研究的服务器“Big Sur”;Amazon启动其机器学习平台Amazon Machine Learning;Google开源其机器学习平台TensorFlow;IBM开源SystemML并成为Apache官方孵化项目;Microsoft亚洲研究院开源分布式机器学习工具DMTK。
达内时代科技集团致力于培养面向电信和金融领域Java、C++、C#/.Net、3G/Android、3G/IOS、PHP、嵌入式、软件测试、UID、网络营销、网络工程、会计、UED、web、Unity3D、大数据、童程童美等17大方向中高端软件人才课程与少儿教育课程。选择太原it培训,不再孤军奋战,轻轻松松做IT高薪白领。太原达内培训带领有明确目标的学子迈向成功之路!想找工作的求职者可以加QQ:3373924515(太原达内就业服务部)咨询了解。