<返回更多

手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

2020-06-28    
加入收藏

Apache Spark是一个用于大规模数据分析处理的引擎。它支持JAVA、Scala、Python和R语言。

在数据分析人工智能领域 Python的使用已经远超其它语言。

其中Spark还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图形处理的GraphX以及用于增量计算和流处理的Spark Streaming。

本文使用PySpark的SQL module 来实现对CSV文件数据分析及处理。

虽然Spark擅长的是大数据分析,但是通过这个例子我们可以看一下Spark数据分析是怎么做的,杀鸡得用宰牛刀了️

要解决的问题:

新冠疫情到目前为止世界各国康复人数的Top统计,如下图:

手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

结果展示

输入文件:

我们现在有一份联合国发布的关于新冠康复人数的统计信息,这里面包含国家,省份,还有每日更新的总康复人数

最后一列"2020年6月23号"就是我们需要的信息。

手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

输入文件

那么我们想统计什么呢?

我们这次要统计的是,基于国家的康复的人数从大到小的排列。并且总数大于1万。

  1. 建立Context 读入数据:
手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

建立 spark context

  1. 调用函数打开文件,
手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

打开文件

  1. 分析数据:
手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

按国家名统计人数

手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

国家级人数总和

手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

按人数从大到小排序

手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

排序后结果

手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

总数大于10000并重命名列

手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

最后数据输出结果

手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

写入CSV文件

  1. 最终结果:
手把手教你Python大数据分析:使用 PySpark 分析 Excel 文件

最终结果数据

 

声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多资讯 >>>