數據建模新趨勢|王中慶教授談智能化建模背後的奧祕

數據建模新趨勢|王中慶教授談智能化建模背後的奧秘

本文共2750字,建議閱讀6分鐘。

特邀美國中佛羅里達大學數據挖掘中心主任王中慶教授為大家分享智能化建模背後的奧秘。

[ 導讀 ]在大數據時代,各行各業都擁有著大量的數據,各個領域都會產生許多要解決的問題,數據建模作為解決問題過程中必不可少的一步,發揮著重要的作用。那麼建模時應該如何提高效率?又該怎樣降低技術人員的門檻和建模的人力資本呢?

本期訪談特邀美國中佛羅里達大學數據挖掘中心主任王中慶教授,為大家分享智能化建模背後的奧秘。

人物簡介

王中慶(Morgan C. Wang)教授

於1991年獲得愛荷華州立大學博士學位,現任職於中佛州大學教授兼數據挖掘中心主任,主要研究方向為數據挖掘、大數據分析、智能建模和木馬與惡意程序的偵查。在約三十年的大學教學研究經歷中,有80多篇論文發表在頂級期刊或收錄在國際統計和數據會議論文集中,其論文主題內容包括區間分析、元分析、電腦安全、商業分析、健康保健和數據發掘和智能建模等。2006年榮選為國際統計協會、美國統計協會和中國國際統計協會的會員。

指導過的學生團隊在2011、2012和2016年國際SAS數據挖掘競賽獲勝。在2008年的第一屆工程技術大會贏得最佳獎項。在2004年獲得第11屆SIGMOD KDD的數據挖掘第一名,在2000年獲得SUGI25大會的數據可視化第一名,並且被邀請在美國統計協會、SIGKDD、國際信息技術大會、SAS全球論壇以及國內外著名大學發表演講。並在清華大學、復旦大學、首都經濟貿易大學、廈門大學、香港中文大學、美國賓州州立大學、愛荷華州立大學、加拿大維多利亞大學等知名院校開設“數據挖掘”、“大數據分析”等系列課程。

做為數據挖掘方面的知名學者和資深專家,王教授獲得各類數據研發類項目贊助資金1300萬餘元人民幣,現在是清數易明科技的首席分析顧問。擔任數據分析顧問的客戶包括:沃爾特·迪斯尼公司(WaltDisney)、寰球影城公司(Universal Studio)、美國統計學會(ASA)、美國富國銀行(WELLS FARGO)、美國藍十字藍盾保險公司(BlueCross and BlueShield)、美國Whole FoodsMarket、美國恆久銀行(Ever Bank)、西門子動力公司(Siemens Power)等。

下面,就一起來了解“智能化建模”吧!

Q1:您最近在做有關“智能化建模”方面的研究,請您簡單為我們介紹一下什麼是“智能化建模”?

我們知道,建模是挖掘數據價值的方式之一,尤其是通過模型完成預測任務時,更能反映出建模的重要性。構建一個預測模型,需要綜合統計學習、機器學習以及計算機技術等多方面的理論基礎。首先,預測模型是對未來做預測,因此存在許多不確定性,而統計學正是研究不確定性現象數量規律的學科;其次,在建模時還要求模型的運行速度、魯棒性以及準確性都達到較高的水平,這就需要通過一些機器學習的算法給予保證;最後,要完成整個建模過程,就需要藉助計算機技術的全程參與和輔助。

目前,該領域還是處於一個人工建模的階段。通過人工預處理,將收集到數據整理成一個寬表;然後基於數據的特性以及建模人員的專業知識,不斷的調參、試錯來訓練並建立模型;最後用建立好的模型來完成預測任務。人工建模所花費的時間是以周為單位的,而不是以小時或者天為單位,這樣就會產生很大的時間成本和人力成本。而智能化建模就能很好克服上述困難。智能化建模的一個理念就是要縮短整個建模過程中所花費的時間,整個流程中每一個環節都要通過智能化來完成。智能化建模的另一個理念是將建模人員從日常瑣碎的事情中解放出來,他們便能有更多的時間去開發和建立更高智能化的模型,這樣就會大大提高數據的使用效率。還需要強調的一點是,這裡所講的“智能化”是不同於“自動化”的,“智能化”不僅要求模型要自動建成,還要求預測結果達到一定的水平。

在整個智能化建模的過程中,大部分都是機器在參與和完成,人的參與程度要少很多,主要包括數據的獲取以及所得結果的應用。模型本身是不會產生經濟效益的,而基於模型的決策是實現經濟效益的關鍵,所以即使人的參與程度減少但也是必不可少的。在人工建模中,需要不同的人員來完成“建立模型”和“使用模型”的任務,他們的思維是不一樣的,因此兩者之間便會產生一定程度的不協調。智能化建模便能夠很好的解決這種不協調性,“建立模型”和“使用模型”是由同一個人來完成的,不再需要在理論問題上花費大量的時間,因此可以將更多的時間用於決策環節。同時,模型的穩定性以及準確性等問題,也不再由建模人員的專業素質來決定,而是由智能化系統本身來決定。也就是說,智能化建模要保證的是,即使沒有專業的數據分析和建模的人員,也能很好的完成一項任務。智能化建模現在只是剛剛開始,我相信以後會成為一種趨勢。

Q2:在智能化建模的整個流程中,數據預處理、智能建模和模型表現等各環節分別是如何運作的呢?

第一,數據預處理。在數據預處理中最重要的一步是數據清洗,包括缺失值和異常值的處理。就缺失值而言,往往會蘊涵著豐富的價值,如果隨意剔除掉缺失值就會丟失許多重要的信息。如果僅簡單的用中位數平均數來補缺是遠遠不夠的,而應該通過一種智能化的方法來完成,其關鍵是保證在不同的區間裡用不同的值進行補缺,補缺後的數據將會包含更多的信息量。此外,多個缺失值合在一起也帶有某些信息,因此智能化建模也會從一組缺失值中提取出有價值的信息,這會比手動操作提取更多的信息量。而且智能化建模會按照一定的規則來完成數據預處理,這樣就會大大減少許多人為的失誤。對於那些異常值,智能化建模系統會自動找出最佳的轉換方式,便於使用者可以更好的提取出數據中所蘊含的價值。由於,智能化建模系統要具有一定的普適性,強調更多的是預測功能,而不是解釋的功能,因此在完成數據預處理時往往從數據本身形式出發,會適當忽略掉實際意義。

第二,智能建模。智能化建模所使用的算法和傳統人工建模所使用的算法是一樣的。就神經網絡來講,在傳統建模中需要不斷的去調神經元的個數、隱含層的層數、激活函數的形式等參數,最終找到一個最合適的模型。而智能化建模則是先根據某些公式計算出最優模型需要幾個神經元、幾層隱藏層以及哪種激活函數,進而確定一組最佳參數。傳統的手工建模,可以憑藉專業人員經驗來選擇一些還不錯的模型;智能化建模,就是把所有可能使用到的參數都考慮進去,然後通過實驗設計的方法找出最佳參數的大致區間,進而不斷調試出一個最佳的參數組合。相比人工建模,智能化建模的優勢在於速度更快,嘗試的參數組合也更多,尋參的區間也更大,把人徹底解放出來,實現一種完全的智能化。

第三,模型表現。常用的模型表現的評價方法都會納入到智能化建模的系統中,也會將數據集劃分為訓練集、測試集和驗證集,通過驗證集數據所構造的統計量來評估模型好壞。準確率、精確度、召回率、F1度量、均方誤、AUC等指標都會計算出來,使用者需要根據自己的研究目的來確定所需的評價指標,不同的指標所選出來的模型也不盡相同。另外,模型的評價也會存在一個誤差範圍,這些小的差異是不顯著的,因此就不再是預設單一模型,而是去選擇一組模型,只要沒有超過誤差範圍即可。

Q3:您認為智能化建模和人工智能的區別有哪些?智能化建模接下來的發展方向會是什麼?

人工智能解決的是現在的事情。比如人臉識別,通過對比照片和真人的相似度,來確定是否是真人。人工智能更多的是在解決現在的事情,而不是去解決明天的事情。智能化建模的目的是預測未來。比如,通過一系列相關信息,預測一個人下一時刻會產生怎樣的行為。此外,人工智能所使用的數據噪音少、密度高,而智能化建模使用的數據噪音很多且數據稀疏。但兩者都需要具有統計學中的不確定性思維,就數據轉換來講,肯定會有得有失,進行某種轉換是否值得就是一個平衡的藝術了。

我們團隊和清數易明公司合作,所開發的智能化建模系統還處於初級階段,所適用的行業僅是以金融和保險為主。例如,個人分期違約預測、個人信貸違約預測、健康風險及購買預測、續保預測、車險定價以及反欺詐等等。未來會涉及到更多的行業、更多形式和結構的數據,還會改良提升一些現有的算法來適應智能化系統,以達到更好的效果。現在,這一系統能達到人工建模的平均水平,相信之後會不斷縮小和最頂尖建模人員之間的差距。

Q4:最後,您可不可以對數據建模領域的學習提出一些建議?

為了解決各行各業所面臨的實際問題,並根據這些實際問題來構建更優的模型,最有效的一種方式就是,在學習的過程中對某一行業本身有更系統的瞭解,這樣才能夠根據具體的場景建立出更精細的模型。另外,還需要掌握數學、統計學以及計算機科學等相關學科的基礎知識,要加強對這些理論知識的學習,以便能優化和改建模型,達到更理想的效果。 然後,還要熟練的掌握每一種模型的思想、定義、訓練過程、優缺點等等。因為我們在學習的過程中不是學習智能化建模,而是要學習人工建模,只有對每一種模型深入的瞭解,才能把握好在怎樣的情形下使用哪些模型更合適。最後,要接觸各種建模工具,每種工具都有其不同的特點,適用於不同形式的數據,在建模過程中可以嘗試使用不同的工具,通過數據本身來反饋出最適用的分析工具。總的來說,在學習的過程中要把視野放寬,對各個領域、各個方面的內容都要有一定程度的瞭解,將自己培養成為一個綜合性的人才。


分享到:


相關文章: