
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
数据治理是企业在进行大数据分析的时候都需要提前做好的一个准备工作环节,下面我们就通过案例分析来了解一下,数据治理中的存储成本优化都有哪些方法。
存储成本重点治理长期无访问数据和用户行为数据(UBT),其次统一表存储格式为ORC,采用冷热存储、EC存储,后清理重复的大文件和业务不再需要的数据。通过这些治理手段,新增存储需求缩减50%,占总存储的20%。
1)近30天无访问表的成本占据总存储的20%,其中99%是临时表。这些无访问表由BU内部进行确认清理,一些日志表或者集团的用户行为数据等需要长期保存的会加入白名单,没有加入白名单的表会自动删除。
2)用户行为数据之前全链路保存了三年的历史,通过逐渐缩短整个流程数据的生命周期达到缩减成本的目的。为了做到治理过程中下游无感知,将原表改为备份表再创建一个原表表名的视图,逐渐缩短视图可读的时间范围,待下游使用无异常之后可将备份表的生命周期缩短。这个优化节省了大量存储成本。
3)由于历史遗留问题,之前表的数据格式未完全统一。RCFile占比13.46%,Avro占比1.99%,压缩表占比5.4%,非结构化数据占比24.15%。所以将这些表转化为ORC格式,同时提升计算效率和存储能力。
4)将不常用但需要保存的数据进行冷存储。冷存储的成本为热存储的40%,使用EC技术可进一步压缩到20%。但是冷存储会影响查询的性能,需要根据数据的使用场景综合考虑。这个优化也节省了不小的存储成本。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请在707945861群中学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。