当前位置: 代码网 > it编程>数据库>MsSqlserver > 【HBase入门与实战】一文搞懂HBase!_hbase入门与实践

【HBase入门与实战】一文搞懂HBase!_hbase入门与实践

2024年08月04日 MsSqlserver 我要评论
定义是一个面向列存储的NoSQL数据库是一个分布式HashMap,底层数据是Key-Value格式使用HDFS作为存储并利用其可靠性什么是【分布式HashMap】?HashMap的本质是用一个简单的值形式映射一个复杂的值形式。HBase通过一个RowKey提取该RowKey下多个列族下多个列的多个值。特点数据访问速度快,响应时间约2~20ms。实时数仓和离线数仓都会用到HBase:实时数仓响应速度快离线数仓宽表列存储。

微服务和高并发:随着传统开发逐渐转向微服务架构,面向"老百姓"的应用需要处理的并发量急剧增加。在这种高并发环境下,传统关系型数据库在增删改查操作上的速度往往跟不上项目的需求。

传统开发解决高并发的策略:
在这里插入图片描述

  • ① 将数据库中的数据定期存储到redis中,后端查询操作直接面向redis来执行。
  • ② 构建数据库的redis的集群化。

引入hbase的原因:当redis的存储能力不足或主从结构过于复杂导致效率下降,hbase成为一个优秀的选择。hbase以其【快速的读写速度】和【高吞吐量】,能够有效且快速地处理大数据的增删改查操作。

hbase特点:

  • ① 高吞吐量的读写操作
  • 为什么hbase有快速的读写速度(高吞吐量)?
  • 写操作:
  • 内存写入:所有的写操作首先被写入到memstore中,这一操作是在内存中完成的,高效。并且对于hbase而言,只要数据写入memstore存储区就标志着写操作已经完成,无需等待落盘。
  • 数据备份:在数据刷新到磁盘之前,所有的写操作都会被记录在hlog,即使故障,也能够恢复数据。
  • 并行写操作:hbase的每个列族对应一个memstore,能够对不同列族的数据进行并行处理。
    在这里插入图片描述
  • 如何理解"无需暂停写入操作以等待数据落盘"的设计理念?
  • memstore提供了一种暂存数据的方式,直至数据被刷新到磁盘上的storefile中。
  • 通过wal机制保证memstore在数据未落盘时发生故障也不会导致数据丢失。
  • 保障数据一定能够落盘(即使数据丢失也可以通过hlog恢复数据),此时可以认为操作已经完成。
  • 因此写入的数据得到保障后,允许系统在高吞吐量的情况下继续接受和处理新的写请求。
  • 读操作:
  • 读操作可以直接从内存中的memstore或者是缓存中的blockcache获取数据
  • 使用bloom filter检查所需的数据是否不在storefile中,如果数据不在那里,能够及时终止读操作,避免了不必要的磁盘访问。
  • (为什么bloom filter能够实现快速检查的功能?bloomfilter的算法原理。)
  • ② hbase天生支持集群部署,无需进行复杂的分表或者分库操作。简化了大规模数据处理的复杂性。
  • ③ hbase是列式存储
  • 列式存储和行式存储的理解
  1. 定义
  • 列式存储是指每一列的数据存储在一起。
  • 行式存储是指每一行的数据存储在一起。
  1. 列式存储的优势
  • 高效的数据存储ÿ
(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com