獨家放送:2018易觀算法大賽通關祕籍重磅來襲

2018易觀 A10峰會將於10月26日-27日在京舉行,易觀算法大賽也在如火如荼地進行中,本次大賽得到了選手們的踴躍參與。為了給認真準備大賽的選手們減減“壓”,今天特地給諸位參賽朋友們發福利啦。易觀算法大賽通關秘籍重磅來襲,還不趕緊來領!

▌賽題介紹

在瞭解通關秘籍前,當然要介紹下我們大賽的主角——比賽賽題。本次大賽共設置了兩個賽題:漏斗計算和性別年齡預測

什麼是漏斗計算?漏斗計算是一套流程式數據分析,它能夠科學反映用戶行為狀態以及從起點到終點各階段用戶的轉化率情況。漏斗計算目前廣泛應用於各行業流量監控、產品目標轉化等日常數據運營與數據分析的工作中。

例如在一個直播APP中,用戶從激活APP開始到花費需要經過激活APP、註冊賬號、進入直播間、互動留言、禮物花費這5大過程,用戶在每一個階段都會有不同程度的流失,這就是一個漏斗模型。而漏斗計算就是統計分析整個過程中用戶的轉化率和留存率,從而更直觀地發現問題所在,明確優化方向,及時提升產品用戶體驗。

上屆算法大賽以“有序漏斗”作為挑戰賽題,而今年的賽題相比去年則更具挑戰性。在技術層面上,今年的“漏斗計算”在算法上增加了關聯屬性、虛擬事件、重複事件、轉換時間中位數等場景,更貼合實際的業務場景。

除了漏斗計算賽題,今年還新增設性別年齡預測賽題。相比廣為人知的漏斗計算,性別年齡預測賽題反而得到了更多選手的青睞。原來利用大數據可以預測用戶性別和年齡,這簡直讓人不敢相信!

▌通關秘籍

說完賽題介紹,接下來進入重頭戲部分,本次大賽到底有何通關秘籍呢?

秘籍1:開始比賽前,遊戲規則你get到了嗎?

如果想打開算法大賽的晉級大門,那肯定要先讀懂本次大賽的遊戲規則,即大賽數據。數據是成為優秀技術人才的基礎,是機器世界溝通交流的必備語言,是成功開啟算法大賽的第一步。關於大賽數據,你讀懂了多少呢?

秘籍2:站在風口上,豬都能飛起來

“我能取得今天的成功都是因為站在了巨人的肩膀上。”上屆易觀算法大賽冠軍的實戰分享對你絕對有幫助。他建議選手們要認真研究大賽賽題,注意細節點。此外,在測試數據時選好合適的數據庫。ClickHouse數據庫就是一個不錯的選擇,它是目前CPU領域最快的OLAP開源數據庫,系統架構非常靈活,性能穩定優越,非常適合大數據下需要極致性能的應用場景。

秘籍3:臨時抱佛腳,誰說沒有用

算法大賽火熱進行中,如何奪冠你想好了嗎?在此小編特地採訪了易觀資深技術專家代立冬老師。

代老師提到,本次比賽添加了模擬實時數據流入部分,建議選手們對這部分數據使用HBase、Kudu等做為實時數據緩存區,比賽前提供的更大量的數據做為歷史數據沉浸區。當然數據格式遵循Common Data Model,為了更快速查詢,最好在Common Data Model基礎上建立相關索引。

此外,為實時數據緩存區和歷史數據沉浸區建立聯合視圖,用Presto自定義UDAF查詢聯合視圖,或者利用Spark等技術自定義相同邏輯。

最後,代老師友情提示,去年易觀的OLAP算法大賽漏斗代碼放在github上,選手們可以參考修改。同時選手們亦可參考去年奪得開源組冠軍使用Clickhouse技術的實現(https://github.com/analysys/olap)。

總之,對於漏斗計算,選手們需要思考如何通過設計合理的數據存儲結構和較好的匹配查詢方式得出計算結果。易觀方舟在漏斗實踐中使用了IOTA架構,關於IOTA架構的更多介紹請參考:Lambda架構已死,去ETL化的IOTA才是未來。也歡迎選手們進入易觀“數據工會”群,大家共同交流。

最後,希望以上3個通關秘籍能助你一路狂奔,勇奪算法冠軍。未來的算法之星,期待你的精彩表現。10月26日-27日,在易觀A10大數據應用峰會上,我們不見不散!


分享到:


相關文章: