Spark如何与深度学习框架协作，处理非结构化数据_Nosql

随着大数据和ai业务的不断融合，大数据分析和处理过程中，通过深度学习技术对非结构化数据（如图片、音频、文本）进行大数据处理的业务场景越来越多。本文会介绍spark如何与深度学习框架进行协同工作，在大数据的处理过程利用深度学习框架对非结构化数据进行处理。

spark介绍

spark是大规模数据处理的事实标准，包括机器学习的操作，希望把大数据处理和机器学习管道整合。

spark使用函数式编程范式扩展了mapreduce模型以支持更多计算类型，可以涵盖广泛的工作流。spark使用内存缓存来提升性能，因此进行交互式分析也足够快速（如同使用python解释器，与集群进行交互一样）。缓存同时提升了迭代算法的性能，这使得spark非常适合机器学习。

由于spark库提供了python、scale、java编写的api，以及内建的机器学习、流数据、图算法、类sql查询等模块；spark迅速成为当今最重要的分布式计算框架之一。与yarn结合，spark提供了增量，而不是替代已存在的hadoop集群。在最近的spark版本中，spark加入了对于k8s的支持，为spark与ai能力的融合提供了更好的支持。

深度学习框架介绍

tensorflow

tensorflow最初是由google机器智能研究部门的google brain团队开发，基于google 2011年开发的深度学习基础架构distbelief构建起来的。由于google在深度学习领域的巨大影响力和强大的推广能力，tensorflow一经推出就获得了极大的关注，并迅速成为如今用户最多的深度学习框架。

tensorflow是一个非常基础的系统，因此也可以应用于众多领域。但由于过于复杂的系统设计，对读者来说，学习tensorflow底层运行机制更是一个极其痛苦的过程。tensorflow的接口一直处于快速迭代之中，并且没有很好地考虑向后兼容性，这导致现在许多开源代码已经无法在新版的tensorflow上运行，同时也间接导致了许多基于tensorflow的第三方框架出现bug。

keras

keras 于2015年3月首次发布，拥有“为人类而不是机器设计的api”，得到google的支持。它是一个用于快速构建深度学习原型的高层神经网络库，由纯python编写而成，以tensorflow、cntk、theano和mxnet为底层引擎，提供简单易用的api接口，能够极大地减少一般应用下用户的工作量。

严格意义上讲，keras并不能称为一个深度学习框架，它更像一个深度学习接口，它构建于第三方框架之上。keras的缺点很明显：过度封装导致丧失灵活性。keras最初作为theano的高级api而诞生，后来增加了tensorflow和cntk作为后端。学习keras十分容易，但是很快就会遇到瓶颈，因为它缺少灵活性。另外，在使用keras的大多数时间里，用户主要是在调用接口，很难真正学习到深度学习的内容。

pytorch

pytorch于2016年10月发布，是一款专注于直接处理数组表达式的低级api。前身是torch（一个基于lua语言的深度学习库）。facebook人工智能研究院对pytorch提供了强力支持。pytorch支持动态计算图，为更具数学倾向的用户提供了更低层次的方法和更多的灵活性，目前许多新发表的论文都采用pytorch作为论文实现的工具，成为学术研究的首选解决方案。

caffe/caffe2.0

caffe的全称是convolutional architecture for fast feature embedding，它是一个清晰、高效的深度学习框架，于2013年底由加州大学伯克利分校开发，核心语言是c++。它支持命令行、python和matlab接口。caffe的一个重要特色是可以在不编写代码的情况下训练和部署模型。如果您是c++熟练使用者，并对cuda计算游刃有余，你可以考虑选择caffe。

在spark大数据处理中使用深度学习框架

在spark程序中使用一个预训练过的模型，将其并行应用于大型数据集的数据处理。比如，给定一个可以识别图片的分类模型，其通过一个标准数据集（如imagenet）训练过。可以在一个spark程序中调用一个框架（如tensorflow或keras）进行分布式预测。通过在大数据处理过程中调用预训练模型可以直接对非结构化数据进行直接处理。

我们重点介绍在spark程序中使用keras+tensorflow来进行模型推理。

使用深度学习处理图片的第一步，就是载入图片。spark 2.3中新增的imageschema包含了载入数百万张图像到spark dataframe的实用函数，并且以分布式方式自动解码，容许可扩展地操作。

使用spark's imageschema：

from pyspark.ml.image import imageschema
image_df = imageschema.readimages("/data/myimages")
image_df.show()

也可以利用keras的图片处理库：

from keras.preprocessing import image
img = image.load_img("/data/myimages/daisy.jpg", target_size=(299, 299))

可以通过图片路径来构造spark dataframe：

def get_image_paths_df(sqlcontext, dirpath, colname):
    files = [os.path.abspath(os.path.join(dirpath, f)) for f in os.listdir(dirpath) if f.endswith('.jpg')]
    return sqlcontext.createdataframe(files, stringtype()).todf(colname)

使用keras接口加载预训练模型：

from keras.applications import inceptionv3
model = inceptionv3(weights="imagenet")
model.save('/tmp/model-full.h5')
model = load_model('/tmp/model-full.h5')

定义图片识别推理方法：

        def iv3_predict(fpath):
            model = load_model('/tmp/model-full.h5')
            img = image.load_img(fpath, target_size=(299, 299))
            x = image.img_to_array(img)
            x = np.expand_dims(x, axis=0)
            x = preprocess_input(x)
 
            preds = model.predict(x)
            preds_decode_list = decode_predictions(preds, top=3)
            tmp = preds_decode_list[0]
            res_list = []
            for x in tmp:
                res = [x[0], x[1], float(x[2])]
                res_list.append(res)
            return res_list

定义推理输入结果schema：

def get_labels_type():    
    ele_type = structtype()    
    ele_type.add("class", data_type=stringtype())    
    ele_type.add("description", data_type=stringtype())    
    ele_type.add("probability", data_type=floattype())    
    return arraytype(ele_type)

将推理方法定义成spark udf：

spark.udf.register("iv3_predict", iv3_predict, returntype=get_labels_type())

载入图片定义为数据表：

df = get_image_paths_df(self.sql)
df.createorreplacetempview("_test_image_paths_df")

使用sql语句对接图片进行处理：

df_images = spark.sql("select fpath, iv3_predict(fpath) as predicted_labels from _test_image_paths_df")
df_images.printschema()
df_images.show(truncate=false)

结语

在大数据spark引擎中使用深度学习框架加载预处理模型，来进行非结构数据处理有非常多的应用场景。但是由于深度学习框架目前比较多，模型与框架本身是深度耦合，在大数据环境中安装和部署深度学习框架软件及其依赖软件会非常复杂，同时不利于大数据集群的管理和维护，增加人力成本。

华为云dli服务，采用大数据serverless架构，用户不需要感知实际物理集群，同时dli服务已经在大数据集群中内置了ai计算框架和底层依赖库（keras/tensorflow/scikit-learn/pandas/numpy等）。dli最新版本中已经支持k8s+docker生态，并开放用户自定义docker镜像能力，提供给用户来扩展自己的ai框架、模型、算法包。在serverless基础上，为用户提供更加开放的自定义扩展能力。

dli支持多模引擎，企业仅需使用sql或程序就可轻松完成异构数据源的批处理、流处理等，挖掘和探索数据信息，揭示其中的规律并发现数据潜在价值，华为云618年中钜惠，大数据+ai专场，历史低价，助力企业“智能化”，业务“数据化”。

点击关注，第一时间了解华为云新鲜技术~