本地运行PySpark处理wasbs blobstorage数据 作者: nbboy 时间: 2022-06-05 分类: Python ### azure wasbs协议 wasbs文件协议是azure blobstorage,spark需要安装一些jar包才能支持该协议,并不是在自带的core中。这里简单记录一下安装过程和遇到的一些坑。 ### 安装Jar包 在安装好后的spark home目录的jars下放入jar包: azure-storage-8.6.6.jar azure-storage-blob-11.0.1.jar hadoop-azure-3.2.0.jar 在运行的时候报错说Jetty没有安装,于是索性下载了一些Jetty包,请注意版本,因为我用的是jdk8,所以下载的是低版本。 jetty-http-9.3.24.v20180605.jar jetty-server-9.3.24.v20180605.jar jetty-util-9.3.24.v20180605.jar jetty-util-ajax-9.3.24.v20180605.jar ### 连接Pyspark 接下来做的事让Pyspark找到Spark,接着再设置SparkSession。根据电脑的配置设置,如果Driver内存设置的太小,跑的过程中就会爆出内存不够的错误,这是我的配置: ```python import findspark findspark.init() print(findspark.find()) import pyspark from pyspark.sql import SparkSession #Create SparkSession spark = SparkSession.builder \ .appName("HQV Model") \ .config("spark.executor.memory", "4g") \ .config("spark.driver.memory", "4g")\ .config("spark.dirver.maxResultSize", "4g")\ .master("local[*]") \ .config("spark.executor.cores", "4") \ .config("spark.default.parallelism", "4") \ .getOrCreate() ``` 标签: Tips, Spark, Pyspark, Azure