CCAI2018|如無必要 勿增實體——機器學習方法、應用與展望

站在2018年,圖像分類準確率在95%以上的模型,已經遍地都是。回想2012年,被稱之為“深度學習教父”的Hinton帶著學生們以ImageNet16.4%的錯誤率震驚計算機視覺研究界,似乎已經是遠古時期的歷史。

通常認為機器學習是過去幾十年發展出來的一個新學科,但王立威教授看來,其實機器學習一直伴隨著人類文明的發展。從人類真正有文明、有科學那天,就有機器學習。

CCAI2018|如無必要 勿增實體——機器學習方法、應用與展望

王立威

北京大學信息科學技術學院教授。主要從事機器學習理論研究。高水平論文100餘篇。2011年入選在機器學習國際權威期刊會議發表由人工智能國際期刊IEEE Intelligence Systems評選的AI’s 10 to Watch,是該獎項自設立以來首位獲此榮譽的亞洲學者。2012年獲得首屆國家自然科學基金優秀青年基金。擔任國際機器學習旗艦會議NIPS領域主席。

從奧卡姆剃刀理論到機器學習

早在13世紀,威廉姆·奧卡姆就提出“奧卡姆剃刀理論”,這個原理稱為“如無必要,勿增實體”,即“簡單有效原理”。對這個理論的解釋,還有一位更著名的科學家和一段更著名的話——“Everything should be made as simple as possible but no simpler”,這句話出自愛因斯坦,意思是做理論的時候一定要儘可能的簡單,但又不能過於簡單。對應物理模型,一定要找到一些模型,允許存在一定的誤差,但又不能過於簡單,否則和觀測的數據誤差太大也不行,“奧卡姆剃刀理論”就是機器學習或者整個人類在獲取科學知識的歷程中,最核心、最本質的思想。

機器學習理論究竟有什麼意義?只為了證明界(bound),為了說明算法在實際應用的錯誤率能小於多少,還是說它在傳達更高層的信息?王教授的觀點是,機器學習理論是後者,絕對不是為了證明一個算法的邊界如何;機器學習理論的目的,在於提供對機器學習問題的洞察和理解。

而“泛化”則是學習理論最重要的概念之一。學習目的是希望學好一個模型,並且讓這個模型在未來的場景數據上有非常高的準確度。泛化的錯誤,就是指一個模型在未來的應用場景下的錯誤率,即泛化誤差。通常訓練模型時,可以拿到很多訓練數據,學一個分類器,在訓練數據上得到一個錯誤率。而這個訓練的錯誤率和泛化誤差實際上是有本質區別的。這個區別正是機器學習理論要研究的內容。

機器學習應用任重道遠

2012 年以來,不論是深度網絡層數的不斷拓展,還是系統在數據集上的優異表現,都讓學術界對機器學習有了新的認識。彼時的王立威教授,已經在機器學習領域做了大量的研究,並憑藉突出的表現在2011年成為首位入選 AI's 10 to Watch 的亞洲學者。

王教授表示,如果開發者要執行的任務處於非常封閉的環境,和人的常識沒有什麼關係,這樣的任務非常適合機器來做,但是如果這項任務和常識掛鉤,例如對自然語言的理解,對於機器而言難度非常大。“醫學影像相對而言是具有一定封閉性的問題。”

當然,不是說醫學影像具有一定的封閉性,AI就能夠在醫學領域暢行無阻。王立威教授列舉了兩個AI對醫學影像產生重大影像的案例——斯坦福團隊在皮膚癌檢測以及Google的DeepMind的糖網篩查。

王教授的觀點是:

第一,醫學影像處理病種的數量非常龐大,上述兩個團隊的例子解決的都是單病種問題。醫學影像上一共可以分為兩千多個的病種。“解決一個單病種已經不是簡單的事情,斯坦福的團隊已經和頂級的醫學專家研究數年才得到目前的成果,要囊括兩千多個病種更是難上加難。此外,病種與病種之間的差異度也很大,所以,AI 醫學影像需要頂級醫學專家和頂級機器學習學者通力合作才有可能成功。”

第二,成像設備的差異會產生多種類型的圖像。CT、MRI、X光、超聲、內窺鏡、病理切片這些圖像缺乏一定的標準。“現在我們只是在一些病種上進行單點突破,整個醫學影像仍任重道遠。”


分享到:


相關文章: