阅读提示
本内容为日常频繁使用的数据处理操作,不涉及底层技术问题,烦请爱钻牛角的杠精绕行。
本内容尽量简单直白、步骤详细,适合数据分析入门。特别喜欢技术语言的大佬们,可自行跳过。
关于网友的留言:PQ是不是Power BI?
有位朋友问道PQ是否就是Power BI?老海来简单解释一下吧
首先、PQ全称PowerQuery,它主要负责完成数据清洗处理以及数据查询筛选
而PowerBI主要由PQ、PP、PV三个主要模块组成,也就是:
- PowerQuery—负责数据查询整理
- PowerPivot—负责数据建模
- PowerView—负责数据可视化
也是说PowerBI包括了PQ,而不是只有PQ。
而PQ也不是只在PowerBI里,Excel2016以及更高版本也包含PQ!
- 从“数据”中选择“从表格”,即可打开PQ编辑器模式
其次、既然提到了PQ、PP、PV,老海也想特别说明一下:
它们之间的组合关系就好比烹饪的过程
- PQ是获取食材、处理食材的备菜阶段;
- PP是煎、炒、烹、炸的烹制阶段;
- PV是装点、呈现菜品的摆盘阶段;
- 而M语言作用在PQ中,重要性如同刀功;
- 而DAX语言作用在PP中,重要性如同火候;
烹饪离不开备菜、烹制、摆盘,以及恰到好处的刀功和火候!
数据分析就如同做菜一样,自然也离不开PQ + PP + PV,以及M + DAX
而很多分析工具的过程逻辑都是暗合相通,无外乎如此。
好了,下面开始我们的对比操作演示,今天内容包括:数据更新删除、以及排序2个方面
老海在这里主要列举常见的方法和思路、以及工作中频繁使用的操作。
如果你觉得有更好的方法,欢迎也分享出来,或者在文章底部留言。
数据更新和删除
使用Excel时:
- 第1步:直接修改单元格,只适合单个数据点。这里我们来演示批量数据的方法,这里我们首先复制需要修改的参考数值,比如:100
- 第2步:选中需要处理的字段,右键进行“选择性粘贴”
- 第4步:此方法适合完成整列数据的简单修改,而无需使用公式或者辅助列
- 第5步:接下来,我们来看一下如何批量删除特定行的数据,这里我们按下Ctrl + F,或者选择“查找和替换”,来查询“老年”的所有数据行
- 第8步:当我们需要删除空值的时候,我们需要使用“定位”功能,快捷键为Ctrl + G
- 第9步:然后选中“空值”这个选项,它表示表格区域内的空值单元格,点击确定后,即可选中所有的空值的单元格位置
- 第10步:最后我们直接右键,选择“删除”,即可一次性清除所有存在空值的行
当使用MySQL时:
- 第1步:可以使用UPDATA SET,来更新符合查询条件的数据行,这里我们选择更新“顾客信息表”
- 第2步:查看更新后的数据情况,“老年”已被修改为“其他”
- 第3步:使用DELETE来删除符合查询条件的数据行,这里我们指定删除“年龄阶层”为“老年的”数据记录。
- 第4步:还可以删除这个字段,使用ALTER TABLE + DROP。当然,一般情况下,不建议直接进行删除操作。
使用Power BI时:
- 第1步:类似Excel操作,Power BI也可以在PQ编辑器中使用“主页”下的“替换值”功能,来替换批量修改内容。
- 第2步:在删除数据上,Power BI可以在PQ编辑器里选择“删除行”或“删除列”里的各种处理方法
使用Python时:
- 第1步:python中更新数据,一般不建议直接进行等号赋值操作,建议先进行loc/iloc的切片操作,然后再进行赋值操作。
- 第2步:在Python的pandas中进行删除操作,一般使用loc、iloc方法的切片筛选作为代替方案,从而避免修改原始数据集。当然也可以使用drop方法,然后根据axis的值来设置删除模式,一般axis默认为0,代表行删除,当axis=1,则代表列删除。
数据排序
使用Excel时:
- 第1步:我们可以直接Ctrl + L打开快速排序。而当我们需要更多排序选择时,需要选择“自定义排序”来完成。
- 第2步:我们可以根据自己的情况来选择排序顺序,比如我们可以设置,顾客ID按升序排列、订单编号按降序排序。
使用MySQL时:
- 第1步:我们使用ORDER BY来指定排序字段为“客户数量”,降序排序。
- 第2步:我们还可以同时设置多个字段排序,比如“客户数量”为降序,“合计购买量”为升序
使用Power BI时:
- 类似Excel,PowerBI可以直接利用字段右侧的下拉菜单来进行排序设置,不再赘述。
使用Python时:
- 第1步:在pandas中,一般使用sort_values方法来进行排序,参数ascending来设置升降序。
- 第2步:当涉及多个字段排序问题时,sort_values方法接受列表作为参数输入,来实现多字段排序。
以上就是关于数据更新、删除和排序方面的内容。OK,限于篇幅和时间,今天就这里了。
写在最后
下期我们继续聊聊,关于分组聚合、多表关联、多表联合、存储与导出等操作。
本系列文章内容较长,建议随手收藏下来,相信总有需要的时候!
觉得不错,别忘了点赞、转发一下,哈~