目录
参考
经典大数据开发实战(hadoop &hdfs&hive&hbase&kafka&flume&storm&elasticsearch&spark)
spark简介:
spark是一种通用的大数据计算框架,是基于rdd(弹性分布式数据集)的一种计算模型。那到底是什么呢?可能很多人还不是太理解,通俗讲就是可以分布式处理大量集数据的,将大量集数据先拆分,分别进行计算,然后再将计算后的结果进行合并。
主要组件
spark是由多个组件构成的软件栈,spark的核心(sparkcore)是一个对由很多计算任务组成的、运行在多个工作机器或者一个计算集群上的应用进行调度、分发以及监控的计算引擎。
为什么使用spark
spark,拥有hadoop mapreduce所具有的优点;但不同于mapreduce的是——job中间输出结果可以保存在内存中,从而不再需要读写hdfs,而且比mapreduce平均快10倍以上的计算速度;因此spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。
spark 是一种与 hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 spark 在某些工作负载方面表现得更加优越,换句话说,spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
spark 是在 scala 语言中实现的,它将 scala 用作其应用程序框架。与 hadoop 不同,spark 和 scala 能够紧密集成,其中的 scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
spark优势
速度快
■基于内存数据处理, 比mr快100个数量级以上(逻辑回归算法测试)
■基于硬盘数据处理,比mr快10个数量级以上
易用性
■支持java、 scala、 python、 r语言
■交互式shell方便开发测试
通用性
■一栈式解决方案:批处理、交互式查询、实时流处理、图计算及机器学习
■多种运行模式
■yarn、 mesos、 ec2、 kubernetes、 standalone(独立模式)、 local(本地模式)
架构
standalone架构
spark standalone模式为经典的master/slave架构,资源调度是spark自己实现的。在standalone模式中,根据应用程序提交的方式不同,driver(主控进程)在集群中的位置也有所不同。应用程序的提交方式主要有两种:clien如和cluster,默认是client.当提交方式为client时,运行架构:
cluster集群
saprk on yarn架构
spark on yarn模式,遵循yarn的官方规范,yarn只负责资源的管理和调度,运行哪种应用程序由用户自己实现,因此可能在yarn上同时运行mapreduce程序和spark程序,yarn很好的对每一个程序实现了资源的隔离这使得spark与mapreduce可以运行于同一个集群中,共享集群存储资源与计算资源。spark on yarn模式与standalone模式一样,也分为client和cluster两种提交方式。client提交方式架构:
安装
启动界面
8080端口
rdd
概念
spark提供了一种对数据的核心推象,称为弹性分布式数据集(resilient distributed dataset,简称rdd)中,这个数据集的全部或部分可以缓存在内存并且可以在多次计算时重用。rdd其实就是一个分布在多个节点上的数据集合。
rdd的弹性主要是指:当内存不的多时,数据可以持久化到磁盘,并且rdd有高效的容错能力。分布式数据集是指:一个数据集存储在不同的节点上。每个节点存储数据集的一部分。
例如,将数据集(hello,world,scaa,spark,love,spark,happy)存储在三个节点上,节点一存储(hello,world),节点二存储(scala,spark,love),节点三存储(spark,happy),这样对三个节点的数据可以并行计算,并且三个节点的数据共同组成了一个rdd。
rdd是分散在多个服务器上
map算子
前面两行只是计划,最后执行collect的时候程序才会执行
flatmap(func)
reducebykey()
案例
spark单词计数
流程
代码
sparksql 概述
1.1 sparksql 是什么
spark sql 是 spark 用于结构化数据(structured data)处理的 spark 模块。
1.2 hive and sparksql
sparksql 的前身是 shark,给熟悉 rdbms 但又不理解 mapreduce 的技术人员提供快速上手的工具。
hive 是早期唯一运行在 hadoop 上的 sql-on-hadoop 工具。但是 mapreduce 计算过程中大量的中间磁盘落地过程消耗了大量的 i/o,降低的运行效率,为了提高 sql-on-hadoop的效率,大量的 sql-on-hadoop 工具开始产生,其中表现较为突出的是:
⚫ drill
⚫ impala
⚫ shark
其中 shark 是伯克利实验室 spark 生态环境的组件之一,是基于 hive 所开发的工具,它修改了下图所示的右下角的内存管理、物理计划、执行三个模块,并使之能运行在 spark 引擎上。
dataframe 和dataset
dataframe是sparksql提供的一个编程抽象,与rdd类似,也是一个分布式的数据集合。但与rdd不同的是,dataframe的数据都被组织到有名字的列中,就像关系型数据库中的表一样。此外,多种数据都可以转化为dataframe,例如:spark计算过程中生成的rdd、结构化数据文件、hive中的表、外部
数据库等。dataframe在rdd的基础上添加了数据描述信息(schema,即元信息),因此看起来更像是一张数据库表。
读取数据
拆分3列
## 定义类
scala> case class person(id:int,name:string,age:int)
defined class person
## 导入数据
scala> import spark.implicits
import spark.implicits._
scala> val persondataset = dl.map(line=>{
val fields=line.split(',')
val id=fields(0).toint
val name=fields(1)
val age=fields(2).toint
person(id,name,age)
})
展示
发表评论