Spark MapReduce 并行计算
Spark Java SQL Python 文章
编程语言 Spark Apache Java虚拟机 Scala
Spark 大数据 Apache 数据库 程序员 Java Hive 数据结构 MySQL Java
Java Spark
RDD Yarn Driver Spark Executor
id val case RDD partition Task tasks
sc 分区 parallelize collect RDD rdd2 List
序列化 计算 rdd 堆内 倾斜 堆外 占用
RDD 计划 转换 作业 执行 API 使用
算子 数据流 RDD 处理 数据模型 DAG 批处理
数据 处理 内存 RDD 使用 HDFS 集群