课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
大数据技术与云计算技术随着互联网的不断发展而被众多企业引入并应用,而本文我们就通过案例分析来了解一下,数据湖的功能与应用方法分享。
数据湖要的功能是集中存储企业的全部数据,包括原始数据和加工数据,然后支持各种数据处理,包括离线ETL、实时分析和机器学习,对数据进行挖掘与分析,洞察数据的价值以支持业务决策。按照数据类型来区分,数据分为结构化数据(数据库表)、半结构化数据(日志)、非结构化数据(文档)甚至二进制数据(图像、音视频等)。
数据湖收集数据时无须设计好数据结构,不需要像数据仓库那样事先定义模式,而是在分析时根据业务场景再给出模式,从而使数据收集更加敏捷。
数据湖架构,特别是云原生下的数据湖架构,作为一个架构分层,主要包含湖存储、湖加速、湖计算和湖管理几个组成部分。
业界主要通过两种主流的做法来处理数据乱序:一种是在获取输入的点上缓存数据,对无序的数据进行排序之后成批处理;另一种是在数据输入的时候容忍乱序的数据,并能够根据新的数据时间重新进行调整和计算。
主动待机的做法是同时运行两个相同的进程,并在主处理进程发生错误时切换到辅助实例。这种做法可以确保非常高的可用性,是一些关键应用的选方案。与之不同的是,被动待机的做法只有在错误发生之后,才会在一些空闲的资源上拉起新的处理进程,同时借助全局状态回滚等操作在新启动的实例上继续之前的操作。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。