不能AB實驗怎麼辦?

用增長視角觀察行業動態,洞察增長契機

。主要會從用戶價值、宏觀機會、商業模式、數據驅動和營銷技巧等五個維度中挑選合適的切入點,來盤點行業動態給用戶增長帶來的啟示。

不能AB實驗怎麼辦?

上圖是我所理解的用戶增長全局(姑且稱“冰山圖”),大眾視野能看到的是各種營銷策略,而在冰山之下,需要以用戶價值為基礎,需要對宏觀機會和商業模式產生洞察找到切入點,再依靠數據驅動去更科學、更有效的落地增長策略。

本篇從數據驅動視角,針對用戶增長領域一個常見的難題整理了一些已有研究和個人想法——不能做AB實驗的時候,怎麼評估效果?內容主要針對產品經理、產品運營,不涉及具體的技術實現,旨在拋磚引玉。文中難免有不當之處,期待隨時交流。

我們知道,很多時候會因為成本問題、時間問題無法進行完備的實驗,該如何儘可能準確評估某個增長策略的效果呢?

先說說自然實驗。自然實驗(Natural Experiments)實際上是一種觀察性實驗,不對任何用戶進行干預,僅通過觀察“隨機”分組樣本的實驗結果,進行比較得出結論。請注意這裡的“隨機”無法像隨機對照實驗那樣通過hash算法實現,而是基於經驗選擇兩個接近相似的群體。比如經常需要評估一個緊急上線功能的效果,自然實驗中的一組是使用某功能的用戶,另一組是不使用某功能的用戶。下面介紹的因果推斷、雙重差分就屬於自然實驗。

因果推斷方法

因果推斷(causal inference)是一類方法的統稱,指通過各種數理手段,基於結果對其產生的原因進行估計。本質上隨機對照實驗也是一種因果推斷的方法,並且是一種非常理想、直觀的方法,甚至被認為是歸因分析的“黃金法則”。然而很多時候我們沒有辦法做理想的隨機對照實驗,因果推斷中的其他方法,可以提供補充,下面簡單介紹斷點回歸和傾向性得分匹配兩種。

斷點回歸

斷點回歸是一個直觀的方法,結合例子來介紹:假設我們上線的是一個簽到得現金紅包的功能,簽到滿7天,才能獲得一個現金紅包,需要判斷簽到紅包對用戶的留存是否有正向作用。這個例子不能用隨機對照實驗的原因,是因為需要緊急上線,無法留一部分用戶(無簽到功能)作為對照組。斷點回歸顧名思義,找到6次簽到無紅包和7次簽到有紅包這個斷點,觀察簽到6次,與7次兩個用戶群體之間的留存率差異,如果差異顯著,說明簽到紅包對於用戶留存有幫助;如果沒有顯著差異,則說明簽到紅包對提升留存大概率是無效的。如下圖示例,可以看到本週簽到6次和7次之間存在一個下週留存率的斷點,可以說明,簽到得紅包對於用戶的留存幫助明顯。

不能AB實驗怎麼辦?

圖1 斷點回歸示例

傾向性得分匹配

傾向性得分匹配(Propensity Score Matching,PSM),是另一種常用的因果推斷方法。PSM的核心在於“構造”一個於策略組可比的“對照組”。可以類比隨機對照實驗,通過傾向性得分匹配構造出一個對照組。如圖2,虛框為構造出來的實驗組和對照組,實驗組使用的是被策略命中的用戶群,而對照組是通過計算傾向性得分,從命中策略的用戶以外“匹配”出於實驗組傾向性得分接近的用戶群。

不能AB實驗怎麼辦?

圖2 通過因果推斷構造實驗組和對照組

進行傾向性得分的計算和匹配,需要得到儘可能多的用戶特徵,比如用戶屬性、用戶行為等詳細數據,每種特徵被賦予權重,最終為每一位用戶計算出一個0到1之間的數值。匹配時,例如我們的策略命中人群得分為0.68,那就可以在備選人群中選擇得分在0.68附近,例如0.67~0.69的用戶群,作為“對照組”。PSM正是通過這種方式實現了對照組的“無中生有”,其準確定性依賴於用戶特徵的完備程度,理論上需要儘可能多的特徵種類,在匹配前除了看匹配分數外,還需要檢驗分數的分佈,以確保“實驗組”和“對照組”的可比性。

雙重差分方法

雙重差分(Difference-in-Difference,DID)常用於政策效果評估。因為政策下達通常是指定某些城市或區域執行政策,無法做隨機對照實驗,和PSM一樣只能採用構造一個“對照組”的思路。由於城市樣本有限,我們甚至無法完成構造,所以DID的思路是設法估算出政策的淨效果。類比到用戶增長,當評估某個策略的淨效果時,需要首先排除時間因素以及其他策略的影響,下面用一個例子簡單說明。

不能AB實驗怎麼辦?

圖3 雙重差分示例

如圖3,策略人群是我們要分析的目標人群,因為沒有對照組,我們依據經驗選擇了各方面接近的作為參照人群。圖中可見,需要觀察的指標,在策略下發前後發生了較大變化(圖中a1和b1分別為策略人群策略下發前後的指標均值,a2和b2為參照人群指標均值)。現在需要分析策略效果,如果直接對比策略人群前後指標,得到

策略效果 = a1 - b1

顯然,這個差異中包含了指標隨時間的波動情況,需要消除掉。而理論上,如果這個參照人群和策略人群足夠相似,時間因素的影響對於參照人群也同樣存在,進一步得到

策略效果 = (a1 - b1) - (a2 - b2)

類似的,其他策略的影響,在這裡也同樣存在於對照人群,可以在第二次作差是消除掉。

以上方法有一個前提,需要兩個人群滿足“共同趨勢假設”的條件,即當受到外接影響時,策略人群和對照組有同樣的變化趨勢。此外,參照人群的選取有很多主觀性,難以保證嚴格相似和可比,所以總體上雙重差分建議作為一種快速獲得定性結論的方法,其計算得到的策略效果僅作為參考。雙重差分之外,還有三重差分的方法,引入了另外一個策略組但原理類似,感興趣的讀者可以自行了解。

邊際效果歸因

因果推斷和雙重差分之外,邊際效果歸因也可以用於定性判斷策略是否有效。這種方法基於一個假設:如果策略對用戶有影響,加大策略的力度能夠看到觀測指標發生相應變化

。例如圖4中,可以看到隨著策略力度加大,觀測指標同步提升,說明策略是有效的,而沒有明顯變化則說明策略是無效的。

不能AB實驗怎麼辦?

圖4 邊際效果歸因示例

本質上,邊際效果歸因是基於預設的因果關係去做假設驗證,除了改變策略力度外,下發頻次、時間等可能改變策略效果的因素,都可以作為變量去進行驗證。如果可以做隨機對照實驗,這樣可以得到嚴謹的定量結論;如果不能做,即只能針對所有用戶都去下發,則需要考慮下發間隔時間等因素(會對用戶造成持續打擾,影響效果)。所以,邊際歸因的方法,也僅僅是一種無法做隨機對照實驗的補充。

小結

如果條件和成本允許,儘可能使用隨機對照實驗;如果無法進行隨機對照實驗,可以嘗試探索因果推斷、用傾向得分匹配的方法獲得接近於實驗的結論;如果只想得到一些定性的結論,可以使用雙重差分和邊際效果歸因。

作者:金磊 曾任職騰訊、滴滴出行、GrowingIo、奇虎360,專注增長策略挖。掘、增長工具搭建、實驗數據分析


分享到:


相關文章: