Python数据处理,这些pandas入门练习题,你没理由不看


Python数据处理,这些pandas入门练习题,你没理由不看


此系列文章收录在公众号中:数据大宇宙 > 数据处理 > pd

转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的)

经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas



前言

有不少小伙伴向我反映 pandas 专栏缺少练习题,因此这里我使用一套 sql 的题目,作为 pandas 专栏的课后练习题。本文大部分的解题过程尽可能使用 pandas 中最基础的入门操作完成,涉及的知识点基本在专栏中的前15节内容中有详尽讲解。

本文案例是一个关于学生科目考试成绩作为背景的数据,数据的准备过程上一篇已经有讲解,这里不多说,直接做题!


上一篇文章:



题目

与"赵雷"同学报读课程至少有一门相同的学生信息:

Python数据处理,这些pandas入门练习题,你没理由不看

解读:

  1. 行5:首先,找到"赵雷"的课程记录(df_wd.query(tg_query)[cols]) ,因为只有一行(.iloc[0]) ,看看哪些是缺考的(.isna())
  2. 行6:同上的逻辑,只是这次的条件是其他的同学
  3. 行8:用前2步的结果对比(tg_cond == other_cond) ,相当于知道每个同学的报考科目与"赵雷"一样有哪些,科目相同的是1,不同的是0,那么只需要数一下相同的(.sum(axis=1)) ,然后看结果是否多于一门即可(>=1)

这次,我们来详细对比一下 Sql 的实现:

Python数据处理,这些pandas入门练习题,你没理由不看

  • Sql 相对来说比较简单,但是不"简洁",因为他的执行顺序是从内到外,一般不能一下子看出来其中的逻辑。下来大概说下他的执行顺序
  • 行5,6:从成绩表(sc)查出"赵雷"的考试科目(cid),为啥这里用 sid ?因为成绩表没有学生的名字!
  • 行3,4:再次从成绩表(sc)找出与"赵雷"的科目(上一步结果)有一样的成绩记录出来。为啥最终结果包含了"赵雷"本身,因为这一步没有过滤"赵雷"的记录!
  • 行1,2:结果需要大部分学生信息都在学生表(student),因此从学生表找到上一步结果的那些学生出来。为啥最终结果没有学生成绩的信息?因为学生表就没有这些信息!
  • 整个 Sql 的关键是 in 的使用
  • 使用 CTE(表达式) 可以让 Sql 的逻辑更加清晰,但是每个数据库的支持程度不太一样
  • 如果需求变成是,至少有2门一样的学生,那么以上思路完全不行了!

pandas 也能按这种思路完成:

Python数据处理,这些pandas入门练习题,你没理由不看

  • pandas 中的 isin 对应 Sql 的 in
  • A列.isin(B列),得到的结果是一个长度与A列一样的 bool值的列,每个 bool 值表示 A列对应的值是否在 B列存在


Python数据处理,这些pandas入门练习题,你没理由不看


与"赵雷"同学报读课程完全相同的学生信息:

Python数据处理,这些pandas入门练习题,你没理由不看

  • 你会发现,这完全与之前的需求一样,只是上图红线处的判断数量的逻辑不一样而已

但是,如果我们使用之前的 Sql 思路,在这个需求上就完全不能使用,正确的 Sql 做法请看源码吧


没学过"张三"老师讲授的任一门课程的学生姓名:

Python数据处理,这些pandas入门练习题,你没理由不看

  • 行4:所有(all)课程教师都不是"张三"(df_wd[cols]!=tc)的


Python数据处理,这些pandas入门练习题,你没理由不看


两门及其以上不及格课程的同学的学号,姓名及其平均成绩:

Python数据处理,这些pandas入门练习题,你没理由不看

  • 行3:少于60分的科目(df_wd[cols]<60)的数量(.sum(axis=1))多于或等于2门的(>=2)
  • 行5:平均成绩(df_wd[cols].mean(axis=1))

检索"语文 "课程分数小于 60,按分数降序排列的学生信息:

Python数据处理,这些pandas入门练习题,你没理由不看

  • 行3:语文成绩小于60分(df_wd[cols]<60)
  • 行5:按分数降序排列(.sort_values(cols,ascending=False))

按平均成绩从高到低显示所有学生的所有课程的成绩以及平均成绩:

Python数据处理,这些pandas入门练习题,你没理由不看

  • 行4:求出平均成绩
  • 行5:有平均成绩的学生
  • 行6:排序

需要源码的小伙伴请转发本文并私信我"python"

如果希望从零开始学习 pandas ,那么可以看看我的 pandas 专栏。


分享到:


相關文章: