數據分析的終極目標-預測第3輯

數據分析的終極目標-預測第3輯

預測是數據分析的終極目的

預測的必要性和誤差的必然性

經驗預測法

類比預測法

慣性法與時間序列分析

邏輯關係預測法

1.5 慣性法與時間序列分析

慣性預測法是根據事物發展的慣性進行預測,其中最典型的就是趨勢分析。炒股的人除要看基本的股指點數外,還要看趨勢線,並根據趨勢線來判斷什麼地方是拐點等。

例如為了跟蹤股票價格的變化趨勢,我們會使用10日均線、20日均線、30日均線和60日均線(見下圖),根據均線之間的變換我們可以判別股票價格的短線行情和長線行情,這些都是根據慣性來預測股票價格未來發展規律的方法。

數據分析的終極目標-預測第3輯

(股票行情圖)

本質上,慣性只存在於信息不對稱的領域,在信息足夠對稱的情況下,大家轉向的風向一致,那麼股票價格就不會有這樣的波動圖形。在信息不對稱的環境下,以信息謀取利潤的行業就會有更多的暴利。如果信息已經充分對稱了,那麼以信息謀取利潤的行業就會消失。未來商品的價格會越來越透明,根據信息不對稱來銷售商品的公司會倒閉,例如天貓就會出現問題。而京東則依靠強大的配送能力,將電商公司做成物流公司。物流是可以增值的,例如一件商品在天貓上賣8元,但用戶需要等待3~4天才能收到貨,而京東賣8.4元,並且用戶上午下訂單,下午就能夠收到貨,在這種情況下,用戶覺得多花4毛錢是值得的。這是京東在有天貓這麼強大的競爭對手的情況下依然能夠生存的根本原因。同時天貓的菜鳥速遞應該是應對這個問題的,如果它能做起來就有打敗京東的優勢,就能夠成功,否則天貓很難突破。

時間序列分析模型是最典型的慣性分析法,其本質就是探尋一個事物的數量化指標隨著時間變化的規律。如果事物完全按照時間順序發展,則一定會按照一定的規律繼續發展下去,如果是向上的趨勢,就會繼續向上發展;如果是向下的趨勢,就會繼續向下發展;如果存在週期性,就會按照週期性的規律發展;如果具有循環往復的特徵,就會按照循環往復的特徵發展下去。

從上面的描述中可以看出時間序列模型最本質的侷限:忽略了現在的變化影響因素。即如果事物過去都是向上發展的,則時間序列認為事物還會繼續向上發展,但因為某些特殊的原因,出現了下滑,則這個因素不予考慮,會認為是誤差或者受隨機因素的影響;如果是向下趨勢則也是如此。

時間序列模型有多種類型,這些類型的分類是從事物變化是否具有規律性來評價的。如果事物的變化很有規律性,而隨機影響(白噪聲)較小,則可以通過慣性預測法對事物的變化進行預測;如果事物變化是有規律的,但噪聲過大,容易掩蓋事物自身的規律,這個時候慣性預測法就不太適用了。噪聲大小是我們是否可以使用慣性預測法來預測的非常重要的因素,噪聲大,規律就容易被掩蓋,噪聲小,我們可以通過消除噪聲來發現事物的規律,如下圖所示。

數據分析的終極目標-預測第3輯

我們對事物變化規律的認知其實很有限。一般來說,在利用慣性法探測事物變化規律時,我們能夠掌握三種變化規律的探測,分別是季節性(Seasonal)、週期性(Cyclical)、趨勢性(Trend)。季節性是與時間有關係的變化規律,例如夏天喝冷飲、啤酒的人多,而冬天喝冷飲、啤酒的人少,這就是我們常說的季節性;週期性是與變量取值有關係的,盛極而衰,觸底反彈,當取值達到某一臨界值的時候,就會反彈,週而復始地變化;趨勢性是隨著時間呈現增長或者下降的趨勢,這個趨勢可能是線性的,也可能是冪級增長或者指數增長的,或者更加複雜的趨勢。加上受隨機因素影響的不規則變化(Irregular),我們可以構建一個TSCI的數學模型,根據具體情況這個模型還分成“乘法模型”和“加法模型”,乘法模型認為這四種因素是相互影響的,彼此有放大作用的;而加法模型則是假設這四種因素對事物變化的影響是孤立的,效果只是簡單的疊加。具體哪種情況適用,可以在分析的時候通過嘗試來完成。

除常規使用的TSCI模型外,時間序列是一個非常大的數據模型分支,幾十種算法在數學家們的研究下得以推廣使用,我們常用的SPSS軟件本身就提供了數十種時間序列的算法模型,而且隨著計算機計算能力提升和SPSS版本的升級,SPSS還給出了一個功能,就是系統自動使用所有算法遍歷計算一遍,然後根據預測的效果,向我們推薦幾個時間序列預測算法模型。SPSS的這種遍歷擇優的方式大大減輕了數據分析師的腦力負擔。

1.6 邏輯關係預測法

邏輯關係預測法從預測的角度來看是最簡單的方法,但從算法探索的角度來看則是最難的方法。兩個事物為什麼會相關,其背後的邏輯是什麼,一直困擾著數據分析師們。

沃爾瑪說,在美國買紙尿褲的一般都是老爸,他們喜歡喝啤酒,在給孩子買紙尿褲的時候會順便買一些啤酒,所以紙尿褲會和啤酒的銷售量有較大的相關性。但是這個相關性是否站得住腳,是否有足夠的邏輯解釋,還是需要數據的支持,沒有數據的完美論證,數據分析師都應持有懷疑的態度。經過多方查證,這只是書中的一個案例,並非實際發生的。

在邏輯關係方面,我們可以用各種模型來解讀數據,需要不斷嘗試才能找到一個最佳的邏輯關係。有些邏輯關係只在某些特殊的情境下才成立,而在其他的情景下就不會成立了。我們在分析啤酒和尿布的關係時發現,賣出10片尿布就會賣出3聽啤酒,這種關係可能只存在美國的某個城市中。因為在這個城市中兒童的出生率是一定的,喝啤酒的爸爸的比率也是一定的,而爸爸喝酒的量也有一個相對穩定的值,所以才會得出10:3的比例,這個比例在其他城市中可能就會不同了。所以,任何一個邏輯關係被發現後都要根據“此情此景此數”去思考,即為什麼會有這個現象,這個現象是不是能夠複製到其他的情境下,數據分析必須有足夠的敏感性。

我們最常用的邏輯關係是線性迴歸關係,即構築像Y=aX+b這樣的關係。但在商業經濟環境中,這個公式在某個階段成立,當到達另外一個階段時,同樣是線性關係,但a和b的值都會發生變化,這與情景有關係。

就如廣告和銷售額之間的關係,當廣告打得過多時反而會引起消費者的反感,從而影響產品的銷售。如果不注意調整廣告的頻率,那麼我們在花費更多的錢後,廣告效果反而呈現下降的趨勢。

數據分析的終極目標-預測第3輯

例如,我們在研究投入和產出關係的時候,發現前期投入與產出呈現正相關關係,是一個線性迴歸的關係,當投入增加時,產出效益遞減,邊際效應顯現,到了後期,前期投入與產出呈現邏輯迴歸的S曲線模型。不同時期適用不同的模型,我們需要通過深度研究找到事物發展的規律,然後再在不同的歷史時期選擇不同的數學模型來分析,並在過程中不斷驗證,確保數學模型能夠滿足管理需要。如果發現不匹配,則需要馬上更新數學模型。

邏輯關係的數學模型不是一成不變的,它會隨著時間、市場狀況的變化而變化。在廣告投放效益模型開發的過程中,我們發現了上述的規律。其中第一階段,因為幾乎所有的消費者都沒有聽說過這個品牌,多一個傳播接觸點,就會多一個購買可能性,在購買可能性一致的情況下,我們發現這個品牌產品的銷售額隨著廣告的增多在不斷增長,呈現性關係。

但是當更多的人知道這個產品之後,一部分的廣告因為傳播給了那些已經知道並嘗試過產品的消費者而被浪費了,那些多次聽過廣告的人並沒有試圖購買更多的產品,所以呈現邊際效應線性遞減。

到了後期,廣告仍然在投放,有的消費者覺得受到了騷擾,開始對廣告產生了牴觸情緒,投放的廣告越多,消費者受到的影響越大,所以呈現出一種廣告投放越多銷量越低的現象。這個時候廠家應該及時停止投放廣告,選擇沉寂一段時間。

每個邏輯規律都有其成立的條件。在廣告投放初期構建的模型,不見得適合中期和後期;在品牌知名度非常低的時候,廣告與銷售額的關係會被弱化,邊際效應顯現;與當公司品牌已經非常強大時,廣告本應該承擔一個提醒功能,這個時候如果還是採用說服式廣告就非常不妥了,消費者會覺得這是“忽悠”,其自我保護機制顯現,導致銷量不再增加,反而出現負增長。

全文摘自《企業經營數據分析-思路、方法、應用與工具》趙興峰著


版權說明:版權所有歸明悅數據所有,如需轉載請聯繫我們,我們將在第一時間處理,或請註明內容出處(《企業經營數據分析》趙興峰著),非常感謝!【往期內容已在(明悅數據)公眾號同步發佈】


上期內容:

第一輯:

1. 預測是數據分析的終極目的

2. 預測的必要性和誤差的必然性

第二輯:

1. 經驗預測法

2. 類比預測法

下期內容更實戰!


分享到:


相關文章: