
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
大数据技术随着互联网的不断发展而被越来越多的程序员掌握,今天太原达内大数据培训就给大家简单介绍一下,大数据技术发展背景分析。
一、背景
1.岗位现状
大数据在一线互联网已经爆发了好多年,2015年-2020年(国内互联网爆发期)那时候的大数据开发,刚毕业能写HiveSQL配置个离线任务、整个帆软报表都20K+起步。如果做到架构师,50K跑不掉。现在市场回归理性后:
普通岗:大数据/数仓开发,实际上除超一线城市之外,尚存很多大型企业转型期信息化、互联网(物联网IOT)还在发展,数据还在爆发式增长,仍大有可为。
精英岗/管理岗:大数据总监/架构师,在重视数据的企业(一线互联网大厂、数据服务厂商),年包上百万也不少。
2.行业现状
数据架构在过去20年发展迅速,尤其是过去十年,几乎每年都有新概念、新产品开源出来。一些新名词爆发式展现出来:数据仓库、数据集市、大数据、离线数仓、实时数仓、时空数据库、数据中台、数据湖、流批一体、湖仓一体、实时湖仓、商业智能(BI)等等。
数据精细化:从经营与分析转为数据化的精细运营,对数据要求过程化、粒度更细。
产品多样性:传统BI中的Report、OLAP等工具开始转向面向终用户自助式、半自助的产品,来快速获取数据并分析得到结果。
数据时效性:从T+1转为近乎实时的数据诉求。
平台轻薄化:阿里自砍中台战略,把中台拆分到各条业务线部门独自负责。把中台变得轻薄,更贴近业务。数据只有贴近业务才能焕发活力。底层逻辑是某业务领域的中心化是推荐的,有价值的。
二、概念解析
前面说了大数据领域出了很多概念:数据仓库、数据集市、大数据、离线数仓、实时数仓、时空数据库、数据中台、数据湖、流批一体、湖仓一体、实时湖仓。我们就来简单解析一下这些"专业名词",从概念上达成一致,有一个基本的定位。
1.大数据:广义上的大数据概念,涵盖数据服务、数据仓库领域的概念。
1.数据服务架构相关:
数据中台:归属阿里三大中台战略。但2023年4月马云回国后,将公司按照业务线拆分,各付盈亏。同时中台也同步拆分到各业务中去,原中台只保留偏底层的少量系统。由此可见,中台会慢慢去中心化,大中台变部门小中台,更贴近业务,盘活数据。
DataMesh数据网格:基于DDD领域驱动设计和服务网格思想的数据架构,可能会热度增加,但落地尚早。
2.数据仓库架构相关:
1.具体概念
数据库:按照数据结构来组织、存储和管理数据的仓库。
数据仓库:抽取或导入结构化/半结构化数据,主要用于OLAP数据分析,支持管理决策。上世纪90年代,强制使用结构化数据+范式建模,构建EDW企业数据仓库。
数据集市:数据集市(DataMart),也叫数据市场,是数据仓库的一个子集(部门级业务)。按照抽取方式可分为两类:1)独立型数据集市:直接从源数据抽取业务数据。2)从属型数据集市:从数据仓库/数据湖抽取。
数据湖:以原始类型存储数据的存储系统。倡导:先导入,后处理分析使用。
2.抽象概念(逻辑概念)
离线数仓:数据仓库的延伸逻辑概念,描述的是批处理(离线计算)场景。
实时数仓:数据仓库的延伸逻辑概念,描述的是实时处理(实时计算)场景。
批流一体:大数据的数据清洗ETL,可简单分为2类:批处理(离线任务)、流计算(实时计算)。批流一体讲究用一套技术方案实现2种目标。
湖仓一体:数据在数据湖和数仓中流动,兼具数仓的稳定性建模和数据湖的灵活特性。
实时湖仓:强调实时计算能力的湖仓一体架构。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加抖音太原达内IT培训学习了解。