360°績效評價爭議大不好用,事因你沒解決手鬆手緊的主觀偏差!

360°評價(360°feedback)是一種被評估者接受來自各方面,包括上司、下屬、同事、自己的打分,對這些不同來源的打分統計得到的最終結果的評價方法。

360°績效評價爭議大不好用,事因你沒解決手鬆手緊的主觀偏差!

360°評價的使用範圍廣泛:在傳統公司中,據說在《財富》1000強中有超過90%公司在用;而在強調合夥合作、組織進化的新銳創業公司中,員工擁有更大的自主治理空間,360°評價的流行度可能更高。360°的優點是全面綜合,將自評與他評的結果進行比較,有利於被評價者更好地認識自我;而且,當評價匿名進行時,可以獲得評價者的真實想法。

360°績效評價爭議大不好用,事因你沒解決手鬆手緊的主觀偏差!

但用下來之後,大部分公司的大部分管理者又對360°怨恨很大因為缺點明顯而且難以避免:其一是評價過程的時間和費用較多;其二是各評價者之間的評價參照標準不一致性,而對同一個對象的績效評價結果存在差異,當需要對員工進行比較時不太有用。

評價的時間和費用,通過現在的各種人力資源系統都基本解決。但是第二個問題,也就是手鬆手緊的問題,難以解決。甚至深度思考數理和人性邏輯的組織管理者,認為手鬆手緊是360°的方法論死穴。這個方法根本就沒有信度效度

在我給客戶做諮詢的過程中,我們提出了一個技術手段,去試圖解決這個方法論死穴,起到了很好的效果。在這裡分享給大家。

初探死穴:偏離的數據

首先我們要分析一下我們所面對的業務場景,找到死穴所在:

1、如果本身一個KPI是銷量、速度、比例之類的客觀指標,從客觀數據來源得出的,不需要用360°的辦法。所以,360°評價最適合,或者只適合主觀指標的評價,尤其適合文化方面的評價可謂越主觀的指標體系,越適合360°。通常展現評價的方法是主管量表式的評價,例如非常不滿意為1分,非常滿意為5分。

2、因為用於評價時,每個人都是主觀的。我們不管書面上還是口頭上還是內心上都是要求評價者“客觀”的,但每個人內心的“客觀”,其實是他的“主觀”。360°的基礎假設就是所有人的主觀加總就是客觀,而常用的方法就是對所有數據點求平均值。

3、那麼,統計平均值時,是什麼影響了結果的客觀性?從常識來看,如果每個數據點很接近,那麼結果和每個數據點接近,我們可以認為這個平均值是反映了各個數據點的,而且那就是考核結果。所以我們所要面對統計敵人,是那些偏離的數據

細探死穴:為何偏離這麼嚴重

過去我們怎麼對待偏離的數據?最常見的做法就是去掉一個最低分,和去掉一個最高分。就像跳水比賽、體操比賽的評委主管打分那樣。這個方法有效嗎?在體育比賽裡面是有效的,因為所要評價的對象不多,都是專業級別的運動員,而且評價者不多,也是都是專業級別的裁判員,還受到組委會的各種規則約束,還即使透明打分受到全媒體觀看者的約束。但在企業內部管理中,這些前提條件極大概率不具備

1、評價標準的差異度遠大於專業評委。員工們一年才用一次這個評價體系,和專業裁判員天天吃這碗飯相比,評價標準的外部一致性根本無法相比。

2、其次是樣本量限制,難以去掉兩個樣本後還有足夠代表性。如果1個人被7人評價,還剩5個數據點;如果1個人被5個人評價,剩下3個數據點只佔數據來源的60%;如果一個人被3個人評價,那麼去掉最低分最高分,那麼就變成獨裁打分了。這個和360°的初衷背離了。

3、即使前兩個限制都忽略,去掉一個最高分和一個最低分,仍然不能解決運氣問題。舉個例子,張三比較幸運,5個給他打分的人手比較松,去掉一個最低分和一個最低分後,他的分仍然是手鬆得到的結果;而和張三有一個各方面都相當的員工李四,5個給他打分的人的手都偏緊,那麼去掉最低最高分後,仍然承受著手緊的結果。這個並不是極端例子,而且因為大規模應用的時候,我們無法確保每個評價者的想法,因此實際情況比我所舉的例子只會更糟糕:這樣的打分的信度都不能保證,效度就更加無從談起。如果一個評價辦法沒有保證信度效度,那麼採用它所帶來的惡果一定比效果大。

怎麼解穴:光學防抖——承認手鬆手緊是可被計量和反算的

360°績效評價爭議大不好用,事因你沒解決手鬆手緊的主觀偏差!

首先建立一個討論模型,如圖,用原點代表人,用連線代表評價關係。假設員工A給員工L打分,員工L也被其他三人BCD人打分。員工A對員工L的最初評分叫做al,同理,員工B對員工L的最初評分叫做bl,依次類推。

第一個假設,每個評價者可能都有手鬆手緊的傾向。要找出來員工A此時的傾向,那就從員工A對L的評分,和其他人的平均打分來對比找差異:Δal=al-AVG(bl,cl,dl)。

360°績效評價爭議大不好用,事因你沒解決手鬆手緊的主觀偏差!

第二個假設,每個評價者的手鬆手緊應該從他全部對外評價中讀取,而不是隻是從一個細節上讀取。因為上述Δal的產生,可能是因為的確員工A對員工L的評價就是他本人認為的判斷所形成。所以,我們應該從A對其他所有人的評價所形成的Δ去歸納。我們用數學去表達,如圖,員工A對員工L、員工M,員工N都打了分,那麼可以像上述找差異的辦法,找到Δal、Δam和Δam。

第三步,發現Δ普遍性確實存在。在公司要求和培訓下,員工開展360°評價時,員工認真思考和評價,自身內在是會對自己評價的對象進行排序的,這些排序代表了他的本人喜好判斷,是360°評價要統計的。然而,手鬆的人打分整體偏高,手緊的人打分整體偏低,這些整體性的偏高和偏低,是360°打分希望避免的。上述第二步的幾個偏差(考慮正負)的平均值,Δā=AVG(Δal, Δam, Δan),反映了A的手鬆手緊程度。打個比方,可以認為在整體評價數據庫中,Δā是通過360°評價這臺照相機去拍攝員工A的主觀思想時,拍攝者(員工A)手上所發生的抖動。

360°績效評價爭議大不好用,事因你沒解決手鬆手緊的主觀偏差!

第四步,“光學防抖”技術的引入。知道抖動量之後,防抖就變得很直接簡單。索尼佳能等光學大廠的經驗都是,找到了抖動量之後,在原來的光線線路上,給予一個反向抖動即可。確切的說,員工A對員工L的最終評分,以AL表示,調節為AL=al-Δā。需要注意的是,反向抖動是以整體的Δā來做反向,而不是用Δal來做反向的。同理,員工A對員工M的評分的最終結果為AM=am- Δā;員工R對員工M的評分最終結果為RM=rm- Δr。

360°績效評價爭議大不好用,事因你沒解決手鬆手緊的主觀偏差!

兩個技術注意點

1、是否有超過滿分的分?如果一個評價對象本身非常優秀,即使手緊的人來憑他也是給到了最高分(例如5分),那麼還需要再加分嗎?我們在具體實踐是封頂最高分的,這個避免由這個算法而對整體的360°評價方法產生衝擊。

2、應用光學防抖時,對人數有要求嗎?有要求。在結合了光學防抖機制後,人數越多越準確。如果評價者要評價的人太少(例如3個或以下),或者被評價者的評價方太少(例如3個或以下),這個算法所產生的Δ,很難確切代表手鬆手緊,所以,在全局中,應該把這兩類人對應的評價關係中的Δ剔除。

歸納:本質上,任何評價都是扮演“神父”,任何規則都是扮演“上帝”

新辦法的接受度:明顯提升。筆者陪伴某家公司連續多年的360°評價探索,使用這個辦法的結果產生的最終排序,和大家各自認為的排序的接近程度有較大的主觀提升。當我們把這套算法和員工(大部分是理科出身的程序員)進行解釋時,也獲得員工的普遍認可,進而對評價結果的認可也有較大提升。當把這個算法和更多公司交流時,也普遍獲得認同,認為是對360°評價一個非常好的補丁組件。

360°績效評價爭議大不好用,事因你沒解決手鬆手緊的主觀偏差!

有沒有更好的規則?很難說一個規則比另外一個規則好。例如,按照這個辦法出來的結果,其實還可以再次使用這個辦法再做一次光學防抖,但我們沒有做,也沒有進一步思考這個問題。有興趣的同學可以繼續探究。但思考評價的本質,都是在比較他人和預先目標或者相對群體值之間的差異。Data in, data out,一定會有一個結果出來。組織在做360°評價時,有一個潛臺詞就是,不採用剛性手段來給人貼標籤,而讓群眾鬥群眾去互貼標籤,也就是互相做別人的“神父”,幫助他人振奮和懺悔。對規則任何的設定或者調整,其實都是用一種面上而不是點上的辦法來影響結果,也就是在扮演“上帝”。誰可以成為“上帝”?要調節的時候,我們能做什麼,不能做什麼?短期來看,擁有制定規則權力的人就是當下的“上帝”,長期來看,廣泛被擁戴和接受的則是“上帝”。而“上帝”是可以在觀測結果和持續進化迭代的。


分享到:


相關文章: