1、hadoop
- hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它提供了一个可扩展的分布式文件系统(hdfs)和一个分布式计算框架(mapreduce),可以在大量廉价硬件上进行并行计算。
2、hdfs
- hdfs(hadoop distributed file system)是hadoop的分布式文件系统。它被设计用于在集群中存储和管理大规模数据集。hdfs将数据分割成块,并将这些块复制到不同的计算节点上,以提供容错性和高可用性。
- 据我了解,大部分公司一般将模型需要的数据例如csv/libsvm格式的文件都会保存成hive表并存放在hdfs上。
3、hive
- hive是基于hadoop的数据仓库基础设施,提供了一种类似于sql的查询语言(hiveql),用于查询和分析存储在hadoop上的数据。hive可以将结构化数据映射到hadoop的分布式文件系统上hdsf上,并提供高层抽象,使用户能够使用类sql语法进行查询和分析。
- hive构建在hdfs之上,本质上可看作是一个翻译器,将hivesql语言翻译成mapreduce程序或spark程序。
- 据我了解,大部分公司一般将模型需要的数据例如csv/libsvm格式的文件都会保存成hive表并存放在hdfs上。一般利用tensorflow的tfrecords来大规模的读取hdfs上的数据。tensorflow提供了一种解决方法:spark-tensorflow-connector,支持将spark dataframe格式数据直接保存为tfr
发表评论