人工智能的魔術

作者:Informatica產品管理副總裁Einat Haftel


每個魔術都由三個部分組成:第一部分被稱作“以虛代實”。魔術師向你展示一些普通的東西。第二部分稱作“偷天換日”,魔術師拿那些普通的東西,把它變成一些特別的東西。但是,你不會為之鼓掌,讓某些東西消失還遠遠不夠,你還得再把它們變回來。所以,魔術都有第三個步驟,最難的部分,我們稱之為“化腐朽為神奇”。

這是我最喜歡的克里斯托弗·諾蘭的電影——《致命魔術》的開場白。這段話與我的邏輯人格相互契合,提供了一劑簡單但準確的處方。由於它表達了我們在觀賞魔術時應有的那種感覺,我想,我也能把它用在人工智能上。

以虛代實

人工智能的魔術

這是一個網絡日誌文件,一個典型的網絡日誌文件。它由瀏覽器生成,幷包含一個特定網站上的用戶活動信息。它理解起來很複雜,需要通過手工操作和開發人員的技能,將它轉變為能夠為商業帶來真正價值的格式。

偷天換日

人工智能的魔術

依靠機器學習技術,業務用戶或分析人員可以將這種不可讀的格式轉變為簡單、易懂和熟悉的表格。

化腐朽為神奇

人工智能的魔術

但是,我們知道不會只有一個文件,通常它們也不會有完全相同的格式。用數據管理的術語,我們將其稱之為“數據偏移”,該術語通常用來描述在新數據類型中的格式、速度和數據內容的波動情況。很多變量會影響數據的內容:機器、操作系統版本、日期、地理位置、使用的瀏覽器以及其他更多因素,這給那些設法採集和理解新數據的企業帶來了很大的挑戰。根據2016年所做的一項調查,25%的受訪者表示:由於無法大規模處理採集到的數據,他們會放棄那些用於洞察力分析的數據。而來自Informatica的CLAIRE

TM引擎所提供的人工智能可以動態地將文件自動轉換為相近的表格形式。

數學不是魔術

人工智能的魔術

與從電影《致命魔術》中引用的情節不同,CLAIRE使用的是數學算法,而不是魔術(這是人所共知的),並以此化腐朽為神奇。

這種方法很簡單。如果數據是由機器產生的文件,機器就應該能“學習”它,並識別出文件中的重複模式。為了這個目的,CLAIRE使用一種被稱為“遺傳編程”的數學方法。這些算法採用“演化”的概念。機器設法根據一個文件中的重複模式發現文件中的結構。這種重複模式使機器可以針對這種文件格式構建一個結構。接下來會基於幾種因素對這個結構進行打分,例如輸入範圍和派生域。然後輸入一個“突變”相位,將幾種變化應用到該結構中。例如:將子結構進行合併,以判斷分值是否提高了。這是演化階段,當該階段確定了與數據匹配的結構適合度之後,它也就決定了相應的流程。該流程既無需用戶輸入以定義文件結構,也並不特殊針對某套行業文件格式。


分享到:


相關文章: