课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
数据湖是随着大数据技术的不断发展而提出的一个概念,而今天我们就通过案例分析来了解一下,数据湖的特点与优缺点,下面就开始今天的主要内容吧。
一、数据湖特点
数据湖本身,具备以下几个特点:
1、原始数据
海量原始数据集中存储,无需加工。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。也就是数据湖将不同种类的数据汇聚到一起。
2、按需计算
使用者按需处理,不需要移动数据即可计算。数据库通常提供了多种数据计算引擎供用户来选择。常见的包括批量、实时查询、流式处理、机器学习等。
3、延迟绑定
数据湖提供灵活的,面向任务的数据编订,不需要提前定义数据模型。
二、数据湖优缺点
任何事物都有两面性,数据湖有优点也同样存在些缺点。
1、优点包括:
数据湖中的数据接近原生的。这对于数据探索类需求,带来很大便利,可以直接得到原始数据。
数据湖统一企业内部各个业务系统数据,解决信息孤岛问题。为横跨多个系统的数据应用,提供一种可能。
数据湖提供了全局的、统一的企业级数据概览视图,这对于数据质量、数据安全..直到整体的数据治理,甚至提高到数据资产层面都大有裨益。
数据湖改变了原有工作模式,鼓励人人了解、分析数据;而不是依赖于专门的数据团队的”供给”方式,可以提升数据运营效率、改善客户互动、鼓励数据创新。
2、缺点主要体现在:
对数据的归集处理程度明显缺失,对于试图直接使用数据的用户来说显得有些过于“原材料”化,且数据太过冗余。应对这一问题,可通过”数据接入+数据加工+数据建模”的方式来解决。
对数据湖基础层的性能有较高要求,必须依托高性能的服务器进行数据处理过程。这主要是来自于海量数据、异构多样化数据、延迟绑定模式等带来的问题。
数据处理技能要求高。这也主要是因为数据过于原始带来的问题。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请在707945861群中学习了解。