课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
我们在上文中给大家简单分析了关于大数据技术的应用形式和方法,而今天我们就一起来了解一下,企业对大数据岗位的需求以及大数据的学习路线。
既然大数据的应用领域如此之广,那么是不是对于从业者的要求都是那么高呢?
其实并不是大家想象的那样,因为虽然领域不同,但是处理数据的过程是基本一致的,不同的地方在于数据的来源,数据的类型以及使用的算法和研究的目的。
而对于开发者来说,以上的不同可以使用四个字来概括,那就是:业务逻辑。在一个团队中,必然要有一个相应领域的专家去把握大的方向,而并不需要每个人都在这个领域中钻研的很深入。
目前的人才需求主要可以分为两个大的方向,大数据开发以及数据分析师。大家可能听说过开发工程师和算法工程师两个岗位,但是都比较笼统。
在大数据领域中,开发工程师需要从事的工作主要包括大数据集群环境的搭建以及维护,应用的封装与开发,实现整个数据分析的各个流程的业务衔接。
算法工程师主要负责数据分析的核心部分,即知道了What I want的前提下,进一步确定What I need,终明确How to do,通常需要数学专业出身,有丰富的业务经验,吃过大量paper的人才能完美胜任。
大数据的学习路线
那么刚刚只是在概括的说大数据领域的人才需求,下面以开发者和学习者的角度再来介绍一下如何转型大数据领域以及如何推开大数据的大门。
在确定学习路线之前,我们要关注当下的主流技术,针对去学习,比较直接的方式就是在各大招聘网站去看一下岗位职责以及技术要求,或者通过百度指数的走势对比来确定学习的优先级。
现在来说一些专业性的知识,当我们需要处理大数据量的数据时,一台机器是不够的,核心思想就是分而治之,一项任务由多个人,多台机器一同完成,同时为了保证数据存储的稳定性,会采用冗余存储的方式。
早年时Google发布了有关于GFS的论文,提出了分布式和扩展性的概念,这也是大数据存储的核心思想,将一份数据存储多份。
为此,需要多台计算机协同工作,而Windows在商用服务器方面的表现一直差强人意。所以我们除了大数据相关概念的学习以外,先要学习的就是Linux操作系统。
整个大数据处理软件种类繁多,也各司其职,适用于不同的数据处理需要。从整个数据分析的流程来说,可以分为三大部分:数据采集、数据分析、结果展现。
其中数据采集部分根据数据类型的不同也有不同的处理方式。国内主要使用Hadoop作为分布式文件存储系统,称之为HDFS。也就是说先我们需要想办法将数据存储到HDFS中,对于文本文件的处理较为简单,可以直接进行上传。
而对于各应用产生的数据,通常存放在数据库中,我们会使用Sqoop组件进行数据的拉取,同时使用Hive数据仓库以及Hbase分布式数据库进行管理。由于时间的关系我们不能对每一个软件展开介绍,感兴趣的朋友可以关注我的知识星球进行提问。
在数据分析阶段,我们需要先进行准备工作,称之为数据清洗,通常可以使用hql来完成,在数据分析阶段,如果是简单的统计分析,我们可以使用Hadoop封装的MapReduce计算模型来实现,或者使用hql。
如果需要进行预测分析,则需要使用相应支持机器学习库的计算框架来完成,如Spark,并且整个的分析过程也会发生一些变化,聚类与分类算法的流程是不同的,随着学习的深入大家可以自行扩展。
在数据可视化部分主要是使用一些web组件进行图表的展现,这一部分对于开发者来说应该算是轻车熟路,主要使用的是百度的开源项目Echarts,特别新版本推出以后,对于千万级别数据的渲染提供了较好的支持。
当然,以上介绍的都只是必须掌握的部分,除此之外根据不同的业务场景,还需要针对流数据的处理,低延时的数据分析,深度学习框架等等,
在此列举部分技术点:flume,kafka,Storm,Elasticsearch,Cboard。
那么对于还在学校中的同学们,如果你是数学专业,而又想向大数据开发岗位发展,那么恭喜你,你做了一个很明智的选择,虽然在刚开始的时候受限于编码的能力,但是数学对人思维的影响是潜移默化的,后期你所展现出的优势是十分明显的。
除了学好本专业的课程以外,还需要付出一番努力,去接触一些相关的基础学习内容,如:Linux,Java,数据库,软件工程,数据结构。
如果你想在数据分析方向更有建树,那么根据我目前对市场的了解,企业还是会更认可研究生学历,并且科班出身的统计专业以及数学相关专业的学生。
节选:公众号:杭州数据资源局
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。