当前位置: 代码网 > it编程>数据库>Mysql > 大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

2024年07月31日 Mysql 我要评论
大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

1、hadoop

  • hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它提供了一个可扩展的分布式文件系统(hdfs)和一个分布式计算框架(mapreduce),可以在大量廉价硬件上进行并行计算。

2、hdfs

  • hdfs(hadoop distributed file system)是hadoop的分布式文件系统。它被设计用于在集群中存储和管理大规模数据集。hdfs将数据分割成块,并将这些块复制到不同的计算节点上,以提供容错性和高可用性。
  • 据我了解,大部分公司一般将模型需要的数据例如csv/libsvm格式的文件都会保存成hive表并存放在hdfs上。

3、hive

  • hive是基于hadoop的数据仓库基础设施,提供了一种类似于sql的查询语言(hiveql),用于查询和分析存储在hadoop上的数据。hive可以将结构化数据映射到hadoop的分布式文件系统上hdsf上,并提供高层抽象,使用户能够使用类sql语法进行查询和分析。
  • hive构建在hdfs之上,本质上可看作是一个翻译器,将hivesql语言翻译成mapreduce程序或spark程序。
  • 据我了解,大部分公司一般将模型需要的数据例如csv/libsvm格式的文件都会保存成hive表并存放在hdfs上。一般利用tensorflow的tfrecords来大规模的读取hdfs上的数据。tensorflow提供了一种解决方法:spark-tensorflow-connector,支持将spark dataframe格式数据直接保存为tfr
(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com