01.25 大数据Spark初始化之SparkContext内部属性

大数据Spark初始化之SparkContext内部属性

1、creationSite

类型为CallStie, 其中保存着线程栈中最靠近栈顶的用户定义的类及最靠近栈底的scala或者spark核心类信息,CallSite的shortForm 属性保存着以上信息的简短描述,CallSite 的longForm属性则保存着以上信息的完整描述。

2、allowMultipleContexts

是否允许多个SparkContext实例。默认为false。可以通过属性 spark.driver.allowMultipleContexts 来控制。

3、startTime

SparkContext 启动的时间戳

4、stoped

标记SparkContext是否已经停止的状态,采用原子类型的AtomicBoolean。

5、addedFiles

用于每个本地文件的URL 与添加此文件到addedFiles 时的时间戳之间的映射缓存。

6、addedJars

用于每个本地Jar文件的URL与添加此文件到addedJars 时的时间戳之间的映射缓存。

7、persistentRdds

用于对所有持久化的RDD保持跟踪

8、executorEnvs

用于存储环境变量。executorEnvs中环境变量都将传递给执行任务的Executor使用。

9、sparkUser

当前系统的登录用户,也可以通过系统环境变量SPARK_USER 进行设置。

10、checkpointDir

大数据Spark初始化之SparkContext内部属性

RDD计算过程中保存检查点时所需要的目录。

11、localProperties

由 InheritableThreadLocal保护的线程本地变量,其中的属性值可以沿着线程栈传递下去,供用户使用。

12、_conf

SparkContext的配置,通过调用SparkConf的clone方法的克隆体。在SparkContext初始化的过程中,会对conf中的配置信息做校验,例如,用户必须给自己的应用程序设置 spark.master(采用的部署模式)和spark.app.name(用户应用的名称);用户设置的spark.master属性为yarn时,spark.submit.deployMode属性必须为cluster,且必须设置 spark.yarn.app.id属性。

13、_jars

用户设置的Jar文件。当用户选择的部署模式是YARN时,_jars是由spark.jars属性指定的Jar文件和spark.yarn.dist.jars属性指定的Jar文件的并集。其他模式下只采用由spark.jars属性指定的jar文件。

大数据Spark初始化之SparkContext内部属性

14、_files

用户设置的文件。可以使用spark.files属性进行指定。

15、_eventLogDir

事件日志的路径。当spark.eventLog.enabled属性为true时启用。默认为/tmp/spark-events,也可以通过spark.eventLog.dir属性指定。

16、_eventLogCodec

事件日志的压缩算法。当 spark.eventLog.enabled属性与spark.eventLog.compress属性皆为true时启用。压缩算法默认为lz4,也可以通过spark.io.compression.codec 属性指定。spark 目前支持的压缩算法包括 lzf,snappy和lz4 。

17、_hadoopConfiguration

Hadoop 的配置信息,如果系统属性 SPARKYARNMODE 为true,或者环境变量 SPARKYARNMODE为true, 那么将会是 YARN 的配置,否则为 Hadoop配置。

18、_executorMemory

Executor的内存大小。 默认值为 1024 MB。 可以通过设置环境变量(SPARK

MEN 或者 SPARKEXECUTORMEMORY)或者 spark.executor.memory 属性指定。其中,saprk.executor.memory 的优先级最高,SPARKEXECUTORMEMORY 次之,SPARKMEM 是老版本Spark遗留下来的配置方式。

19、_applicationId

大数据Spark初始化之SparkContext内部属性

当前应用的标识。 TaskScheduler启动后会创建应用标识,SparkContext中的 _applicationId就是通过调用TaskScheduler 的 applicationId方法获得的。

20、_applicationAttemptId

当前应用尝试执行的标识。Spark Driver 在执行时会多次尝试执行,每次尝试都将生成一个标识来代表应用尝试执行的身份。

21、_listenerBusStarted

LiveListenerBus 是否已经启动的标识

22、nextShuffled

类型为 AtomicInteger,用于生成下一个Shuffle 的身份标识。

23、nextRddId

类型为 AtomicInteger,用于生成下一个RDD的身份标识。

大数据Spark初始化之SparkContext内部属性


分享到:


相關文章: