
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
大数据技术随着互联网的不断发展而得到了广泛的应用,下面我们就通过案例分析来了解一下,大数据数据湖与数据仓库之间的区别都有哪些。
数据湖其实是一个文件存储系统,用户可以往里面放任何一种文件或者数据,它的一个特点是事后建模,它的方法论是用户先把数据放上来,然后再考虑如何使用,也叫做SchemaOnRead。数据仓库正好相反,它是事前建模的模式,当你在把数据推进数据仓库的时候,要求先CreateTable/Schema,这是方法论上的不同。
在存储的形态上,数据湖存储的是文件,数据仓库存储的是表(具体表如何存储对用户不可见)。数据仓库是面向结构化关系表达设计的,因此面向AI这种非结构化数据,存在很大挑战,它几乎不支持音视图类型的数据。而数据湖可以存储所有类型,更灵活更有优势。
面向计算引擎,数据湖天然是一种更开放的架构,适配更容易,但是几乎也很难做到非常好的端到端优化。举个例子,当客户把数据上传到数据湖上,可能是一个行存的Log文件格式,上层的分析引擎几乎很难跟它做非常好的优化分析(因为非列存、缺乏统计信息和索引的支持)。而数据仓库因为是偏端到端的设计,很难做到开放,但是端到端的优化更容易。
从成本层面看,数据湖非常容易上手,它就是个存储系统,你只要把数据放上去就形成了一个数据湖。但随着数据量的增长,运维管理会越来越困难,所以有很多数据湖终有可能变成数据沼泽(比如,大家也不知道这个数据属于谁,该被谁来用,能不能删掉,应该怎么治理),这是数据湖面临的一个问题。
而数据仓库在把数据上传之前要事先建模,而且大多数数据仓库建立之初要有一个有关整体数据模型的顶层设计,所以数据仓库的启动的成本很高。但是这种很好的顶设规划,会使数据仓库在日后扩展时的运维和管理成本变得更低,使得它长线的成本优势变得非常明显。从这个层面看,数据仓库的数据质量高,也容易管理和治理,数据湖相对难一些。
从上述五个对比维度去看数据湖和数据仓库,这两个体系可以说是硬币的两个面。现在很多厂商开始考虑怎么在数据湖上应用更多数据仓库技术,反过来数据仓库厂商也希望用数据湖的技术使自己更开放,这两个技术在互相学习和融合,终催生了一个新的技术热点,也就是湖仓一体。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。