「對話」智鈾夏粉:大規模機器學習與AutoML技術

10月13日,DataFun社區聯合微軟MVP,邀請到廣告算法領域的三位大咖為大家分享廣告算法工程領域的實踐經驗。今天DataFun社區的發起人大川對話分享嘉賓之一的前百度資深科學家、現智鈾科技的CEO兼首席科學家夏粉博士。


「對話」智鈾夏粉:大規模機器學習與AutoML技術



夏粉 智鈾科技 CEO兼首席科學家

夏粉博士,畢業於中科院自動化所,師從機器學習泰斗王珏老師。前百度資深科學家,協助百度研究院大數據實驗室主任張潼(現騰訊AI Lab主任),組建50多人團隊,管理超過20人的大規模機器學習團隊,數次榮獲百度技術最高創新獎。曾在機器學習頂級會議雜誌JMLR、ICML、NIPS等發表多篇論文。在百度期間夏粉帶領團隊推出了全球領先的超大規模離散稀疏架構自動化機器學習平臺(Pulsar),覆蓋公司9 0 %以上業務線,包括百度最核心的商業變現系統鳳巢、金融、糯米等。在公司內部機器學習平臺中用戶數排名第一,覆蓋了日均流量4.5 億

日均收入過億累積CTR 提升超過50%。此外,夏粉曾作為百度網盟CTR團隊技術負責人,獨立設計了一套容納萬億特徵數據的、模型分鐘級別更新的、自動高效深度學習的點擊率預估系統,其中超過5項創新超越谷歌公開發表的技術和算法。

以下為對話實錄:

大川:

目前AutoML的每一個技術突破都備受業界的關注,夏粉博士您作為這方面的資深從業者和創業者,可否結合自身的經歷總結一下是哪些原因驅動著百度、谷歌、facebook這樣的企業進行AutoML的研發和應用?是哪些條件的具備使AutoML的落地成為可能?目前又有哪些條件制約AutoML進一步完善和大規模普及?

夏粉博士:

原因:

一個原因是百度、谷歌和Facebook這類企業的數據量非常大,因此建模的規模大、時間長(建模的目的是為了得到好的模型,這就需要不斷的調試,耗時非常大)。第二個原因是調試的過程是重複的、冗餘的,非常消耗人力,這個也會制約很多大企業利用AI進行建模的效果。AutoML就是針對這個事情,希望能夠讓調參的過程時間變短,並且儘量降低人力調參的成本,所以就促使這些大的企業來做研發,而不是小的企業,因為小的實驗室的數據都非常小,整個調參過程非常的快,不會感覺到有這個痛點。這就是百度、谷歌跟Facebook是領先學術界來研究AutoML的原因。

發展條件:

一個是當前互聯網的需求,各種應用場景的出現推動AutoML技術的發展,第二是算力的提升,第三是技術研發,我們擁有能夠實現調參自動化的技術。

制約條件:

從需要完善的角度來說,AutoML這個新的技術正如機器學習技術一樣,還有很多地方需要進行技術研發,這樣才能把AutoML做到理想狀態,如何提高建模效率,在很短的時間內自動建模,這個的確是需要技術研發的。

從大規模普及的層面來說,要一環一環的來,企業要用到AutoML的鏈條是很長的,首先企業要做信息化、然後數據化、然後ML(機器學習)化、再後AutoML(自動化機器學習)化,AutoML是ML過程的自動化,有了ML的普及之後才知道有AutoML的痛點,然後才能過渡到AutoML。

大川:

AI+是大勢所趨,但是因為領域數據和人才資源的短缺,導致“AI+細分行業”的進展緩慢,您覺的AutoML的進步會推動AI在各行業的落地速度嗎?目前

智鈾科技的AutoML產品“Ebrain”會如何發揮作用?

夏粉博士:

會的。主要原因是AutoML降低了機器學習的門檻,目前科學家確實是比較稀缺的,機器學習自動化以後便能夠加速AI平民化,令普通人也可以進行建模。

智鈾科技自主研發的全自動機器學習平臺“Ebrain”,是國內首款可私有化部署的AutoML產品,擁有當前最先進的機器學習能力,通過自主研發的最新的第四代機器學習技術,實現在線智能學習,一鍵完成模型訓練,從而大幅降低機器學習門檻,使企業提高產能,將耗時且重複的工作交給機器來完成,使其更加關注業務,可以在有限的時間內找到更好的方案,沒有機器學習經驗的用戶也可以建立高精度預測模型,在企業內部各個環節發現和實踐AI驅動,提高智能化水平,使各行業可以快速部署人工智能系統。

Ebrain具有自動構建高精度模型(自動化調參,自動化特徵工程;自動化模型結構設計等);全程可視化;模型快速部署發佈;支持海量數據建模;準確性高、速度快等特點。不但能提升數據科學家的生產力,而且有助於讓非專業人員也能夠自如的使用機器學習平臺,最終能降低傳統行業人工智能轉型的門檻實現智能化轉型。

目前公司已經與金融、醫療、物聯網等多個行業的公司進行合作為其提供服務,目前產品功能應用涵蓋點擊率預估、反欺詐偵測、市場精準營銷以及個性化推薦等,滿足不同場景的不同需求,同時產品的有效性經過實踐驗證,不但能夠為企業帶來收入的增長並且節省成本。

大川:

本期我們沙龍主要關注廣告算法相關技術,結合夏粉博士您在百度的經歷,以及您目前AutoML的創業項目,會為大家帶來哪些內容的分享:

夏粉博士:

結合在百度做算法的經歷簡要介紹搜索廣告中的機器學習,包括搜索廣告的應用場景、點擊率(CTR)預估問題搜索廣告機器學習流程及其關鍵技術(特徵選取、特徵生成、模型訓練等),並簡要介紹AutoML技術發展,以及自動化機器學習在廣告行業的應用案例。

大川:

隨著AutoML的進步和普及,讓AI訓練AI,無疑大大降低了人工智能的使用門檻,一方面對急需相關技術的B端用戶是利好,另一方面對AI人才市場是否會造成影響?針對可能的影響,您對大家的發展有哪些建議?

夏粉博士:

對B端的影響是降低門檻,讓更多的行業可以應用AI,對人才的影響是降低重複性的工作,令高端的人才更致力於前瞻性研究,包括問題的定義、算法的研究上面。

建議是AI人才是要利用數據、AI算法來解決實際問題,而不是不斷重複製造AI工具,一方面讓AI人才要關注業務場景知識,另一方面AI人才可以聚焦一些更深層次的AI問題

,最後也是最大的建議是關注自動化建模技術,應用好AutoML技術解決實際問題。(完)


分享到:


相關文章: