03.12 【志願參考】用大數據分析填報志願分數線背後的祕密,很強悍!

一鍵關注【師曰志願】,獲取更多志願實用信息

【志願參考】用大數據分析填報志願分數線背後的秘密,很強悍!

高考結束後,考生們開始選擇學校、專業以及填寫志願。選了好專業,生怕不上線;選了穩妥專業,又怕浪費分數。這填寫志願,在專業和分數之間,少不了一番糾結。然而,正是這一番糾結使得分數線這個數據顯得尤其有意思。


填志願就像是一種特殊的拍賣,主要特殊在兩點:

1,每個出價人不僅不知道其他所有人的出價分佈,有時連自己的出價都搞不清(雖然近年來絕大部分地區都改為出分後填志願的方式,但仍然有考前填志願的某直轄市)。

2,出價人對標的物知之甚少。填志願時你所知道的最真實的信息,竟然只有這個標的物在過去的成交價格,也就是過去數年的分數線,至於這個學校這個專業到底怎麼樣,是不是適合考生前去就讀,未來前景如何,都並無十足把握。

在這些因素的影響下,同一個學校、同一個專業的分數線一方面會表現出高度的連續性,去年比一本線高出100分的專業,不太可能今年就比一本線低100分。但另一方面,人們又會對不同的學校和專業產生大小年的先驗判斷,即一個專業的分數線如果今年特別高,明年就會沒人敢報,於是就可能就會低一些。最後,由於很大程度上選擇專業相當於對未來職業道路的選擇,我們會發現一些專業在一些年份很受歡迎,而在另外一些年份變得不再受歡迎。

今天我們可以使用一個獨特的分數線數據庫來完成這項工作。我收集了中國所有985、211學校(共112所,實際上由於軍事院校的分數線難以蒐集,所以僅有108所學校)從2005年至2014年在各省、各專業的理科分數線數據,包括最高分、最低分與平均分,共有564399條數據,相當於每所學校每年在每個省招生17個專業。很可惜這個數據庫中暫時沒有每個專業的計劃招生人數和實際招生人數,也不包括文科考生的分數線,但當前的數據量已經足夠我們進行有趣的分析了。


一,高分學生喜歡哪些學校?

我們首先將每個年度每個省的專業平均分排序,將平均分排名在該省當年前5%的專業抽出來,將他們定義為每個年度的「前5%高分專業」。用一個學校的「前5%高分專業」的數量除以該校在每個省投放的專業總數,可以得到每一個學校的「前5%專業佔比」。在一個學校內部招生專業人數大致相等的假設下,我們可以近似地將「前5%專業佔比」理解為「前5%學生佔比」。當然要注意到,這個「前5%學生佔比」指的是考取了985或者211大學的考生的前5%,即50多萬高分考生的前5%,而不是近1000萬高考報名總人數的前5%。

【志願參考】用大數據分析填報志願分數線背後的秘密,很強悍!

上表顯示了不同學校在兩個時間段的「前5%學生佔比」。一個很明顯的趨勢是,在平行志願下,高分考生由於志願沒有填好而去了一個一般的學校的概率越來越低,這導致高分學生向優秀學校集中的趨勢正在提高。

清華和北大的「前5%學生佔比」原本就已經很高,變動不大。但華東五校(復旦、交大、浙大、中科大、南大)加上人民大學的「前5%學生佔比」就從35.1%至71.8%提高至74.3%至84.4%之間。同時我們也可以看到在這五年間上升勢頭最快的兩所大學——上海財經大學與中央財經大學,他們的「前5%學生佔比」都由原本的不足10%增加至30%左右。在2014年,上海財經大學和中央財經大學的「前5%學生佔比」都超過了三分之一。

將5%的比例縮小到1%,能算出一個能體現出最高分學生集中度的指標——「前1%學生佔比」,見下表:

【志願參考】用大數據分析填報志願分數線背後的秘密,很強悍!

從上表可以發現,北京三校(清北人)與上海二校(復旦交大)這5所學校的「前1%學生佔比」在這五年間變得越來越高,而其他學校的「前1%學生佔比」降低了。這張表與上表其實表達了相同的趨勢——頂尖學校的掐尖非常成功,導致其他學校能招到的高分考生減少,原本次好學校用最好的專業來吸引最高分考生的手段已經不再起作用了。

當然,我還可以把前1%的比例縮小到5‰甚至是1‰,還能看到更有趣的現象。

二,考生青睞哪些專業?

一個學生如果已經擁有前5%的高考分數,他就有很高的概率能夠進入第一張表的十幾所高校中。在這些高校中,他會選擇什麼專業呢?

為了排除排名靠前學校的影響,我們首先計算每個專業在每個學校內部的排序,之後保留總排序在前5%的專業,再去掉一些只有少部分高校會開設的專業,最後計算每種專業的校內排序平均值(如果不計算校內排序的平均值,那麼專業的排序就會完全反映出清華北大的專業結構),可以得到下表(點開大圖細看):

【志願參考】用大數據分析填報志願分數線背後的秘密,很強悍!

可以看到,金融和會計穩穩地佔據了前5%考生的選擇前兩名。理科試驗班的排名從2005年的第一名開始逐年下降,最終穩定在7-8名左右。生物科學在2005年時曾經出現在第4名的位置上,然而在2006年排名第9之後,就再也沒有出現在前十名的位置中。出現類似下降的還有國際經濟與貿易專業。

令人稍微有些驚訝的是,在醫生的處境日益艱難的今天,臨床醫學專業反而在2013與2014年進入了前5%考生的前十名選擇中。

考慮所有考生所有專業的情況,可以計算出每一個專業的平均校內排序水平。我選取了25個招生最多的專業,做出下圖。每一張小圖的橫軸表示年份,縱軸表示該年份中這個專業在每個學校內部的平均排序情況

【志願參考】用大數據分析填報志願分數線背後的秘密,很強悍!

從總體排序裡可以看到很多有趣的內容,比如:

1,金融學始終排在接近1的位置,即幾乎在每個學校金融學都排名第一;

2,數學專業、理科試驗班等原本排名較高,但近來排名有所下降;

3,生物科學的下降更是顯著,原本分數只低於16%的專業,2014年時分數低於44%的專業。

4,計算機專業走了一個深V,逆勢反彈,在2010年之後重新成為最受歡迎的專業。

5,能源動力和工程學專業的排序快速上升。

如果不同的專業會在很大程度上影響學生的未來職業,又如果考生會充分考慮到這樣的影響,那麼這些不同專業的走勢則反映的是中國不同專業的勞動力情況:到底是供大於求還是供不應求。例如生物和數理基礎專業的排位下降,工程類、能源動力類專業的排位上升,都能夠體現中國經濟和勞動力市場的某些側面。


三,大年和小年存在嗎?

所謂大年和小年,就是在去除了高考分數本身的漲落之後,一個專業今年的排序偏高可能會導致下一年的考生不敢填報而排序偏低。將每個學校每個專業進行排序,並且將相鄰兩年的排序情況畫一個散點圖:

【志願參考】用大數據分析填報志願分數線背後的秘密,很強悍!

圖中橫軸為某專業的去年排序,縱軸為某專業的今年排序,排序在0-1之間,越接近1表示排名越高。首先可以看到相鄰兩年同一個學校同一個專業排序的高度相關性。但同時也可以注意到,這樣的相關性對於不同排序的專業似乎有一些不同。將上圖的兩個紅色方框分別作圖:

【志願參考】用大數據分析填報志願分數線背後的秘密,很強悍!

從右圖可知,如果一個專業去年的分數線在中等水平,我們將無法在一個較小的區間內斷言該專業今年的排序位置;但是由左圖可知,去年排位較高的專業,今年也幾乎不會變動多少位置。為了檢驗大年和小年的存在,我們簡單地做一個迴歸:

【志願參考】用大數據分析填報志願分數線背後的秘密,很強悍!

percentile(t)表示某專業在期某省的排序。如果我們以每個專業在這10年的平均值作為一個該專業的「正常排序」,那麼如果該專業在去年的排序比這個「正常排序」高1%,今年的期望排序就會比「正常排序」高α%。

如果大小年情況存在,即去年偏高會導致今年偏低,那麼α應當小於零;如果大小年情況非常明顯,那麼應當接近-1左右甚至更小。按照5%一個區間,我們對不同分數段的專業計算20次,結果如下:

【志願參考】用大數據分析填報志願分數線背後的秘密,很強悍!

其中縱軸是前面所要計算的α,藍色區間是5%置信區間,橫軸為專業分位點。可以看到:

1,分數最低的專業的大小年現象為-0.2左右;

2,中等專業的大小年現象高達-0.35以上。也就是說,如果去年是某中等專業大年的話,他排序偏高的情況會在今年以反方向三分之一左右的幅度體現出來,變成一個明顯的小年。

3,最高5%專業幾乎不存在大小年現象,兩年間的排序幾乎沒有關係,去年偏高於平均值的高分專業,今年有可能偏低,但幅度會非常小,隨機因素為主。

要記住的是,這條規律建立在對每個專業以往分數線的充分研究上,才能夠算出某個專業到底是偏高還是偏低了。而且,如果人人都會對分數線有如此深入的研究,都明白大小年現象存在時,大小年反而就應該消失了。


結語

分數線對於大多數考生來說,仍然存在「一考定終身」功能。他是人們高度複雜的博弈的一項結果,存在一些可以摸清的規律;他本身的變動也可以反映一些隱藏於數據之下的社會經濟狀況。

希望以上幾點粗淺分析能夠為填寫志願的家長們提供一些簡單的參考。同時,也歡迎大家對志願分數線問題提出更多想法。


本文由數據分析專欄作家 chenqin 首發於知乎(內容略有刪節),如有侵權,請立刻聯繫我刪除。

師曰志願APP,用大數據說話的助學神器。


分享到:


相關文章: