
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
大数据技术随着互联网的不断发展而得到了广泛的应用,今天我们就通过案例分析来了解一下,HBase存储系统的应用与特点。
HBase,是HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。使用HBase技术可以在廉价的PC服务器上搭建起大规模结构化的存储集群。它底层的文件系统使用HDFS,使用Zookeeper来管理集群的HMaster和各Regionserver之间的通信,监控各Regionserver的状态,存储各Region的入口地址等。
2.何时用HBase?
先想想传统的关系型数据库都有哪些特点,大概的特点有:
支持事务,ACID(原子性、一致性、隔离性和持久性)特性;
行式存储;
SQL语句使用起来比较方便;
支持索引、视图等;
在下面几种情况下,可以考虑使用HBase替代关系数据库:
系统需要适应不同种类的数据格式和数据源,不能预先严格定义模式,需要处理大规模数据;
不强调数据之间的关系,所要存储的数据是半结构化或非结构化的;
数据非常稀疏;
想要更好的进行扩展;
比如谷歌就将BigTable用来存储网页的索引数据,索引数据就很好的满足了上面的几点要求。
3.与Hive、Pig的区别?
HBase是低延迟、非结构化和面向编程的,而Hive是高延迟、结构化和面向分析的;
Hive本身不存储和计算数据,它完全依赖与HDFS和MapReduce,Hive中的表是逻辑表;
HBase通过组织起节点内所有机器的内存,提供一个超大的内存Hash表,它需要在磁盘和内存组织自己的数据结构,HBase中的表是物理表;
如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop。
Hive主要用于静态的结构以及需要经常分析的工作;
Pig相比Hive相对轻量,它主要的优势是相对比于直接使用HadoopJavaAPIs可大幅消减代码量;
Hive和Pig都可以与HBase组合使用,Hive和Pig还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变得非常简单。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。