暴躁與偏見:為什麼常見的5星評價系統不靠譜?

我經常喝咖啡的一家咖啡館,它在 Google 的評分系統中,只有3星,儘管它是這個城市當中咖啡做的最好喝的非星巴克咖啡。原因僅僅是因為有過兩個差評。

有很多公司只生產某些產品,因為他們的這些產品在10年前曾經在亞馬遜上獲得了很多5星好評。

而我的 Uber 評分僅僅只有4.7分,我唯一的「缺點」是和我的乘客缺乏溝通,因為我全程僅僅只會說「你好,謝謝,再見」,如果有需要,我可能補充幾句小貼士。

對於司機而言,如果不小心碰上一位情緒暴躁的乘客,坐在後座猛抽菸,司機一句「請勿吸菸」可能就會帶來一個1星差評。然後接下來的一個月,你得花費大量的接單和好評來抹除這個差評帶來的負面影響。

暴躁與偏見:為什麼常見的5星評價系統不靠譜?

滯後效應

我有一個親戚,將自己的鄉間別墅掛在 Airbnb 上面出租。她的第一批客戶是一群年輕人,他們租用這個地方希望能夠舉辦派對,但是她不允許,擔心躁動的年輕人會把房子給毀了,結果她收到了一個2星差評,這在 Airbnb 的系統中意味著她再也沒法把房子租出去了。這使得她不得不重新註冊,換個名稱重新開始。

這在情況下,如果看評分幾乎是沒人會來租這房子。這是一種非常典型的滯後效應:當前的系統狀態依賴於之前狀態和評價。這種模式和信用評級以及銀行貸款的運作方式類似,更通俗的講,就是我們使用過去的行為和狀態作為當前的評判指標。同樣的,現在所做的事情,最終也只是在未來被窺見,系統反饋的並不是此刻當前的實時狀態。

絕大多數的反饋和評論,其實是缺少思考和理智的評價的,這個過程應當花費更多的時間來斟酌和回覆,而不是留下一個簡單的數字。英劇《黑鏡》中每個人之間都互相打分的狀況,正在成為現實。或者它已經成為現實了。

見多了這樣的事情,稍加反思,我們會意識到,其實很多時候這樣的評分所呈現出來的是一種簡單粗暴的反饋,它並不適宜每一個人。為什麼?因為人類原本就是情感驅動、極為非理性的存在。

有這樣一個案例,有一個哥們面對Uber 司機,服務再到位也只會給4星。原因是什麼呢?根據他的說法:「只有當司機在我的生命面對極端威脅的時候(重大車禍和恐怖襲擊),將我拯救出來,才會給我5星好評。所以我會給這些普通的司機4星的評價,因為他們不值得我打5星。」

我們想從包含了大量非理性評論的評價系統當中,尋找一個理性的答案的時候,這個事情原本就是不合理的。

「我們是否應該讓用戶給我們寫評價嗎?」

在 Yelp.com 上,有一個 Q&A 的板塊,有人提了這樣的一個問題:「我們應該要求客戶對我們公司撰寫評價嗎?」對於這個問題,Yelp 上有人這樣回覆:

「最好不要。那些真正從產品中獲得愉悅感並寫下一段好評的用戶,和那些用用好評換取折扣的用戶看起來很相似但是實際壓根不是同一個群體。坦率的講,絕大多數的企業只是想從那些對他們感到滿意的客戶徵求意見和評價,而不是從不滿意的客戶那裡聽取反饋。隨著時間的推移,這些經過自我選擇的評價會對企業和商業決策產生影響,更直接地說就是偏見。而那些相對精明的用戶,在幾里以外就能問到偏見的味道。如果你那些從各種非自然渠道求來的好評被 Yelp 給過濾掉了,請不要感到驚訝。」

用戶並不總是對的

我們總說,要打造偉大的產品和服務,但是觀察用戶的行為比聽他們說話更有啟發性。看他們在做什麼,而不是聽他們說。問卷調研中也存在類似的問題。面對問卷,很多用戶所給的答案簡單而直接。「你是一個慷慨的人嗎?」很多用戶的回覆是「當然是!」,無論問卷的形式是「是/否」選項,還是採用數字1~10 評級,或者5星制,結果大抵如此。用戶會很大程度上傾向於高估自己的重要性。

「有一句經典的格言是:用戶永遠是對的。但是我認為情況恰恰相反,用戶很少是對的。」——Charlie Trotter, 《紐約時報》

暴躁與偏見:為什麼常見的5星評價系統不靠譜?

那我們為何還要使用評分系統?

既然評分系統存在如此之多的問題,那麼我們為什麼還要用它們呢?這是一種溝通方式,在我們購物、閱讀或者消費的時候,評級系統是一種社會性的參考和證據。同時,很不幸的一點是,這是一種相對原始而開發不完整的溝通形式,其中包含了人類的先天缺憾。

另一方面,我們仍然使用5星制評級系統,因為人類天生的惰性,這種評級方式足夠簡單,正好迎合需求而已。

「每個人都這樣做,我為什麼這不這樣做?」這是最常見的一種邏輯。而另外一種常見邏輯則是「Facebook、Google和亞馬遜這樣的大企業都這樣,我不認為大企業會出錯」。

這讓我想起另外一個有趣的故事:

一名警察看到一個醉漢在路等下摸索,於是上前詢問他丟了什麼東西。醉漢聲稱他鑰匙丟了,於是警察陪著他在路燈下找了好半天。由於鑰匙一直沒找到,警察忍不住多問了一句:「你確定鑰匙是在這裡丟的麼?」醉漢沒多想直接答道:「不是這裡。」警察驚訝道:「那你為何要在這裡找?」醉漢理所當然道:「因為這裡有光。」

這個故事當中所潛藏的含義不止一重。如果你對於問題追索的不夠深入,你的決策很大程度上會受到社會和人群的影響,這種影響會非常深入,並且在很多時候你自己都不一定能察覺得到。就像那個跟著醉漢一起在燈下找不存在的鑰匙一樣。

類似5星評價這樣的評價系統,直到今天依然廣受歡迎,另外一個原因是,它能夠量化,並且似乎能夠提供某些可供參考的邏輯。

「您對我們的產品和服務有什麼樣的看法?」得到的回覆是3顆星,這是否意味著產品需要改進?是單個產品還是整個產品線都需要改進?如果是4顆星又意味著什麼?它和3顆星的評價,在程度上有多大的差別?

更深入一點來反思這些問題,你真的會認為這樣的數字是可靠的嗎?數字和數字之間的邏輯關係是可靠的,3+1=4,可是這些數字映射到人類的情緒、情感、邏輯、表達、想法當中之後,你還確定麼?我不這麼認為。

暴躁與偏見:為什麼常見的5星評價系統不靠譜?

我們還應該相信這些評分嗎?

有個很好的案例,就是 Facebook Messenger。我每次使用它打電話之後,它會非常討厭地彈出對話框「這次通話您要如何評價?」,我總會給它留個1星評價。首先因為它是Facebook 的產品,其次它每次都會特別煩人地在通話結束之後彈出來,我還得多按兩下關閉它。

但是,當人給出1星差評,並且沒有留下詳細的反饋內容的時候,你會怎麼理解這個1星呢?即使有人留下了反饋和評價,整個系統當中90%以上的內容基本上都是簡單的情緒反饋。而在打完電話之後所帶來的情感波動,有多少是來自於電話那頭的人,又有多少是來自通訊APP本身呢?當這種情緒再更加主觀地翻譯成一個數字,而這種翻譯方式人和人也千差萬別。

「將人類情感轉化為原始粗糙的數據,比如數字評分和星級,然後希望從這些原始的數據中挖掘出改進產品的合理的答案?也許真實的人類情感比這些數字還要更合理。」

暴躁與偏見:為什麼常見的5星評價系統不靠譜?

這是一個更加廣泛的問題

現在,我們需要坐下來思考一下,也許身為人類的我們應該多做點什麼而不是完全指望評分系統。我們被鼓勵到處去分享我們的想法和意見,並且似乎大家也有這樣的需求。你去過的餐廳會給你發送郵件,詢問你體驗如何,是否滿意,從機場回來,會收到航空公司的調研問卷,詢問機場和旅程的體驗好壞,等等等等。

如今,每個人都習慣了簡單的打分,習慣了用一些迎合需求的評論換取優惠,這讓我們在很多時候忘了閉嘴,忘了你手上這杯40塊錢的咖啡其實並沒有達到你的預期。

現在我們應該做什麼?

我們可以改進整個評分體系麼?當然可以,但是簡單的修改規則又能夠走多遠?我們有可能很快就遭遇另外一個源於人性的缺陷。所以,相比於立刻馬上修改評分系統,更重要的是瞭解用戶和人性固有的缺陷,最終能夠對產品、企業產生破壞性影響的東西,其實往往只有很少的一部分。如果我們能夠解決這個問題,並且創建能夠正確激勵用戶行為的系統,也許我們能夠讓評分系統真正給我們帶來更好的生活體驗。

另一方面,評分系統有如此之多的缺陷,比如最常見的5星評級系統,為什麼大家依然會如此的喜歡它呢?還是因為它足夠簡單足夠快,不會覺得麻煩。我們可以通過忘了獲得一些東西,首先是獲得它,至於好壞是另外一個層面的問題。我們希望得到區分,而評分系統,使得我們可以讓一部分問題最大化,然後讓另一部分問題最小化。簡單的評分系統不是最好的辦法。

暴躁與偏見:為什麼常見的5星評價系統不靠譜?

不要讓評論如此簡單

在沒有解釋和說明的情況下,5星評價所給出的評分很好用,但是對於閱讀這些評價的人而言,是非常糟糕的,因為從這些分數當中無法瞭解服務的價值。讓用戶評分,並且強制用戶留言,填寫評價內容,這似乎會讓用戶評價本身的評價過程不那麼友好。

有一些團隊給出了一個比較合理的評價系統。比如阿迪達斯的多層評價系統,你可有對你所購買的鞋的舒適度,材料質量、設計等不同的方面進行評價。還有一些評價系統,除非用戶提供具體圖片才能進行更加深入的評價,這使得評價內容的價值相對更高。

暴躁與偏見:為什麼常見的5星評價系統不靠譜?

我曾經在一家電商公司工作過,有時候我會同客戶進行溝通。有一個客戶曾經對我們產品給過一個3星評價,原因是快遞員很粗魯。問題在於,快遞員壓根和我們的公司和產品毫無關係,但是某種意義上你也不能怪客戶啊?不過,我們的工作,本質上是儘量規避這些不合理的評價,並且鼓勵更多的深思熟慮和具有建設性的評價。

對於評價系統,你要的又是什麼呢?是更多的真實評價(不一定好),還是更多的好評(並不一定真實)?


分享到:


相關文章: