【Spark】Windows下安装Spark（亲测成功安装）_Windows

【spark】windows下安装spark

spark简介
- spark 主要有三个特点
- spark 性能特点
一、spark安装前提
二、安装spark（version：2.4.7）

spark简介

apache spark是专为大规模数据处理而设计的快速通用的计算引擎 [2] 。现在形成一个高速发展应用广泛的生态系统。

spark 主要有三个特点

首先，高级 api 剥离了对集群本身的关注，spark 应用开发者可以专注于应用所要做的计算本身。
其次，spark 很快，支持交互式计算和复杂算法。
最后，spark 是一个通用引擎，可用它来完成各种各样的运算，包括 sql 查询、文本处理、机器学习等，而在 spark 出现之前，我们一般需要学习各种各样的引擎来分别处理这些需求。

spark 性能特点

更快的速度
内存计算下，spark 比 hadoop 快100倍。
易用性
spark 提供了80多个高级运算符。
通用性
spark 提供了大量的库，包括spark core、spark sql、spark streaming、mllib、graphx。开发者可以在同一个应用程序中无缝组合使用这些库。
支持多种资源管理器
spark 支持 hadoop yarn，apache mesos，及其自带的独立集群管理器
spark生态系统
shark：shark基本上就是在spark的框架基础上提供和hive一样的hiveql命令接口，为了最大程度的保持和hive的兼容性，spark使用了hive的api来实现query parsing和 logic plan generation，最后的physicalplan execution阶段用spark代替hadoopmapreduce。通过配置shark参数，shark可以自动在内存中缓存特定的rdd，实现数据重用，进而加快特定数据集的检索。同时，spark通过udf用户自定义函数实现特定的数据分析学习算法，使得sql数据查询和运算分析能结合在一起，最大化rdd的重复使用。
sparkr：sparkr是一个为r提供了轻量级的spark前端的r包。 sparkr提供了一个分布式的data frame数据结构，解决了 r中的data frame只能在单机中使用的瓶颈，它和r中的data frame 一样支持许多操作，比如select,filter,aggregate等等。（类似dplyr包中的功能）这很好的解决了r的大数据级瓶颈问题。 sparkr也支持分布式的机器学习算法，比如使用mlib机器学习库。 sparkr为spark引入了r语言社区的活力，吸引了大量的数据科学家开始在spark平台上直接开始数据分析之旅。