闲聊大数据——Hadoop如何完成高考打分？教育頭條網

闲聊大数据——Hadoop如何完成高考打分？

紧张的高考已经结束了，不管考试结果如何，至少经历了人生的一道坎。在接下来的三个月时间内，所有考生都可以随意分配自己的时间，家长们在这个时间段也不会刻意去限制孩子的行动，只要没有危险，开心就好。

然而在这轻松的日子里有些人的忙碌才刚刚开始，这些人就是阅卷老师。

2018年，中国有975万考生报名了高考，是近十年来人数最多的一次。如果按照通用的四科（语文、数学、英语、文综或者理综）来算的话，一共就有近四千万试卷。一般而言，高考成绩会在靠后15天左右公布，那么如何能快送的给这四千万试卷打出分数呢？

大家都知道，试卷的评判一定是所有阅卷老师同时进行的，这似乎就是一个典型的分布式系统，下面小鸟来带大家一步步剖析如何用Hadoop构建高考评分系统。

首先，各省先将本省的试卷扫描后存入整个HDFS系统。在这一步中，一份试卷存一个文件，每一份考试文件命名规则以考生考+省份+学科命名。

接下来编写第一个MapReduce程序，该程序的功能主要是统计出每个考生没门分数的成绩。

在第一个MapReduce程序的Map阶段时，先用setup函数获取文件名，接着按照省份和学科来给每份试卷评分。评分完毕后按照key为“考生考+省份+学科”，value为分数的形式，将所有的数据归入shuffle阶段。此步骤需要循环两次，因为从逻辑上考虑，不同的MapTask（阅卷老师）评出的分数不一定相同。