分布式计算框架spark

Apache Spark是一个计算速度快,易用,支持复杂分析的大数据处理框架,大有取代mapreduce之势。

分布式计算框架spark


Python虽说在机器学习和人工智能方面有极好的应用,但是Python有一个大缺陷,不支持分布式计算,但是不要紧,spark提供了极好的Python接口Pyspark,借助他,Python在分布式计算、流计算方面有了极大提高。

另外,spark的核心RDD弹性分布式数据集和Python中pandas中的DataFrame十分相似,可以十分方便的相互转化。所以说spark让Python有了分布式处理大数据集的能力。


分享到:


相關文章: