AI ="自動靈感"

簡要介紹數據科學的歷史(和未來!)

(改編自我最初的《福布斯》人工智能文章。)

在19世紀,醫生可能開出了汞用於治療情緒波動,而砷則用於治療哮喘。 在您進行手術之前,他們可能沒有洗過手。 他們當然不是想殺了你-他們只是不知道而已。

這些早期的醫生在筆記本上寫有寶貴的數據,但每個人只能在一個巨大的拼圖遊戲中保留一張。 如果沒有現代的工具來共享和分析信息,也沒有科學的方法來理解這些數據,那麼就沒有什麼可以阻止迷信取代通過可觀察的事實的關鍵孔可以看到的東西了。

從那時起,人類在技術上已經走了很長一段路,但是今天的機器學習(ML)和人工智能(AI)的繁榮並不是過去的真正突破。 這是人類基本本能的延續,它使我們瞭解周圍的世界,以便我們做出更明智的決策。 我們擁有比以往任何時候都更好的技術。

今天的AI繁榮並不是與過去的突破。 我們擁有比以往任何時候都更好的技術。

長期以來,這種模式的一種思考方式是數據集而不是數據點的革命。 差別並不小。 數據集幫助塑造了現代世界。

寫作的發明

考慮一下Sumer(伊拉克現代)的抄寫員,他們在5,000多年前就將其筆針壓在粘土片上。 當他們這樣做時,他們不僅發明了第一個書寫系統,而且發明了第一個數據存儲和共享技術。

AI =

An example of the world's first data storage and sharing technology, the clay tablet. You can't fit much of your data on it and retrieval is a pain, literally (you'll have to put your back into it).

如果您對AI超越人類的能力的承諾感到鼓舞,請考慮文具為我們帶來了超人的記憶。 儘管今天寫寫作很容易,但是可靠地存儲數據集的能力代表了邁向更高智能的第一步。

如果您對AI超越人類的能力的承諾感到鼓舞,請考慮文具為我們帶來了超人的記憶。

不幸的是,從粘土片及其前電子錶兄弟中檢索信息是一件痛苦的事情。 您無法用手指指一本書來獲取字數。 取而代之的是,您必須將每個單詞上傳到大腦中進行處理。 這使得早期的數據分析非常耗時,因此最初的嘗試固守了基本要素。 儘管一個王國可以分析它從稅收中籌集了多少黃金,但只有一個勇敢的人會在諸如醫學之類的應用程序上嘗試相同的費力推理,而數千年的傳統鼓勵這種情況。

分析的興起

AI =

Map by John Snow showing the clusters of cholera cases in the London epidemic of 1854.

幸運的是,我們的物種產生了一些不可思議的開拓者。 例如,約翰·斯諾(John Snow)在1858年倫敦霍亂爆發期間的死亡地圖激發了醫學界重新考慮這種疾病是由mi氣(有毒空氣)引起的迷信,並開始仔細研究飲用水。

AI =

Florence Nightingale, Analyst (1820–1910)

如果您知道佛羅倫薩·南丁格爾(Florence Nightingale)的《戴燈的女人》,以她對護士的英勇同情,您可能會驚訝地發現她也是分析先驅。 在克里米亞戰爭期間,她極富創造力的信息圖表將不良的衛生狀況視為醫院死亡的主要原因,並激發了她的政府對衛生的重視,從而挽救了許多生命。

AI =

Polar area diagram invented by Florence Nightingale, showing the number of deaths that occurred from preventable diseases (in blue), those that were the results of wounds (in red), and those due to other causes (in black).

單數據集時代開始了,信息的價值開始在越來越多的領域中確立起來,從而導致了計算機的發明。 不,不是您今天習慣的電子夥伴。 "計算機"最初是人類的職業,其從業人員執行計算和手動處理數據以提取其價值。

AI =

All of these people were computers! Photograph taken in the 1950s of the Supersonic Pressure Tunnel

數據的優點在於,它使您可以憑空想出更好的意見。 通過查看信息,您可以跟隨佛羅倫薩·南丁格爾和約翰·斯諾的足跡,提出新的問題。 這就是分析學科的全部內容:通過探索啟發模型和假設。

分析的缺點

不幸的是,如果沒有第二個數據集,您將無法知道您的這種以數據為靈感的觀點是否廢話。 它通常可以在您查看的特定數據點之外正常工作嗎? 您沒有合法的認識方式。 歡迎使用1900年代的分析技術。

AI =

Illustration by Paul J created for my article about confirmation bias in data-driven decision-making

您無法相信自己的發現,因為您的潛意識偏見(例如確認偏見)使您大開眼界-您會立即看到最方便看到的內容,而您將錯過所有其他內容。 您可能會認為自己已經看到了所有可以看到的東西,但實際上幾乎沒有刮擦表面。 人類的注意力範圍和記憶力比我們想像的要小,因此探索性數據集通常是我們的狒狒陷阱。

分析是關於靈感和探索的,但超出所探索數據範圍的觀點不能被認真對待。

要測試您對數據之外的世界如何運作的看法,您不能一開始就使用能激發人們意見的數據。 我們的物種在薯片中發現了貓王的臉。 雖然該芯片看起來像貓王,但我們不能用它來推斷大多數芯片都可以。 要了解我們的觀點是否會受到啟發他們的例子之外的重視,我們必須在我們從未見過的新芯片上對其進行測試。

從數據集到數據拆分

20世紀初,在不確定性下做出更好決策的願望導致了並行行業的誕生:統計學。 統計人員可以幫助您測試行為是否明智,就好像某種現象也適用於您當前的數據集之外。

AI =

Ronald A. Fisher, "The Father of Statistics" (1890–1962)


著名的例子來自羅納德·費舍爾(Ronald A. Fisher),他開發了世界上第一本統計學教科書。 費舍爾(Fisher)描述了一項假設檢驗,以回應他朋友的說法,即無論飲水前後是在茶中添加牛奶,她都可以品嚐。 為了證明她是錯的,數據迫使他斷定她可以。

嚴格的統計要求您在拍攝之前先進行拍照; 分析更像是事後的遊戲。

阿喀琉斯之踵

分析和統計數據有一個致命的弱點:如果您使用相同的數據點進行假設生成和假設檢驗,那麼您就是在作弊。 (閱讀此書以瞭解原因。)如果您選擇使用數據來代替嚴謹而不是靈感,那麼您就必須從別處獲得靈感。 經典消息來源在認真思考。 換句話說,您坐在掃帚壁櫥裡打坐,仔細思考一下統計問題,闡明所有假設,然後就可以測試世界上的心理模型是否真正積水了。

不幸的是,以數學方式測試您的直覺需要花費大量的精力和訓練。 您需要相當的精神專注。 但是至少現在您擁有一種合法的方法來檢查您的印象是否值得采取行動。 歡迎使用1900年代後期的統計數據。

數據集革命

嚴格的統計要求您在拍攝之前先進行拍照; 分析更像是事後的遊戲。 這些學科在交通上幾乎是不相容的,直到下一次重大革命(數據拆分)改變了一切。

AI =

數據拆分是一個簡單的想法,但對像我這樣的數據科學家來說,這是最深刻的想法之一。 如果只有一個數據集,則必須在分析(令人鼓舞的靈感)和統計信息(嚴格的結論)之間進行選擇。 駭客? 將您的數據集分為兩部分,然後吃點蛋糕也吃!

兩數據集時代用兩個不同品種的數據專家之間的協作團隊合作來取代分析統計的緊張關係。 分析師使用一個數據集來幫助您提出問題,然後統計學家使用另一個數據集來為您提供嚴格的答案。

將您的數據集分為兩部分,然後吃點蛋糕也吃!

這樣的奢侈品帶有高昂的價格標籤:數量。 如果您很難為一個可觀的數據集收集足夠的信息,那麼說起來容易做起來難。 兩數據集時代是一個相當新的發展,它與更好的處理硬件,更低的存儲成本以及通過Internet共享收集的信息的能力緊密結合。

實際上,導致兩數據集時代的技術創新迅速進入了下一階段,即自動靈感的三數據集時代。 有一個更熟悉的詞:機器學習。

一口氣進行測試

曾經想過為什麼在涉及嚴格性和數據性時,為什麼統計學家傾向於傾向於抽搐呢? 在計劃問題之前先查看數據集會破壞其作為統計嚴謹性來源的純度。 如果您問錯了問題或愚蠢地提出了問題,那麼您就不必第二次詢問神諭了。

測試仍然是一針見血的提議-不允許您迭代地尋求解決方案。

為了使這種嚴格的方法有效,您必須預先計劃,如果有多個問題,請使用一些道歉的數學運算,然後同時執行一次測試。 您不能多次打開該測試數據集。

第三數據集的奢華

既然您只有一個機會,您如何知道分析中最值得測試的"洞察力"? 好吧,如果您有第三個數據集,則可以用它來激發您進行測試的靈感。 此篩選過程稱為驗證; 這是使機器學習成功的關鍵。

驗證是使機器學習更上一層樓的核心-它使您可以自動激發靈感。

一旦您有空將所有內容扔到驗證牆上,看看有什麼問題,就可以放心地讓每個人都提出解決方案:經驗豐富的分析師,實習生,茶葉,甚至是與您的業務問題無關的算法 。 哪種解決方案在驗證方面最有效,都將成為進行適當統計檢驗的候選者。 您剛剛授權自己可以自動化靈感!

AI =

Image: source.


AI =自動化靈感

這就是為什麼機器學習是數據集的革命,而不僅僅是數據。 這取決於是否有足夠的數據進行三路拆分。

人工智能(AI)在哪裡適合? 深度神經網絡的機器學習在技術上被稱為深度學習,但它又有一個綽號:人工智能。 儘管AI曾經有不同的含義,但今天您最有可能發現AI被用作深度學習的同義詞。

深度神經網絡在許多複雜任務上勝過不那麼複雜的ML算法,因此贏得了炒作。 但是它們需要更多的數據來訓練它們,並且處理要求超出了典型筆記本電腦的要求。 這就是為什麼現代AI的興起是雲計算的故事; 雲使您可以租用他人的數據中心,而不必致力於構建深度學習平臺,從而使AI成為先試後買的命題。

現代AI的興起是雲的故事,因為雲使AI成為先試後買的主張。

有了這個拼圖,我們就可以擁有各種專業的補充:ML / AI,分析和統計。 涵蓋所有這些術語的總稱稱為數據科學,即使數據有用的學科。

靈感的未來

現代數據科學是我們三數據集時代的產物,但是許多行業通常會生成足夠多的數據。 那麼是否有四個數據集的案例?

好吧,如果您剛剛訓練的模型的驗證分數很低,您的下一步行動是什麼? 如果您像大多數人一樣,就會立即要求知道原因! 不幸的是,您無法查詢任何數據集。 您可能很想研究驗證數據集,但是不幸的是,調試破壞了它有效篩選模型的能力。

通過對驗證數據集進行分析,可以有效地將三個數據集變回兩個。 您沒有尋求幫助,而是不經意地回到了一個時代!

該解決方案不在您已經使用的三個數據集中。 要解鎖更智能的訓練迭代和超參數調整,您需要加入最前沿的技術:四個數據集的時代。

最前沿的是四路數據分割,以實現燃油加速。

如果您認為其他三個數據集為您提供了靈感,迭代和嚴格的測試,那麼第四個可以加速,通過先進的分析技術縮短AI開發週期,該技術旨在提供有關每輪嘗試方法的線索。 通過採用四向數據拆分,您將處於最佳位置,可以充分利用數據量! 歡迎來到未來。

(本文翻譯自Cassie Kozyrkov的文章《AI = "Automated Inspiration"》,參考:https://towardsdatascience.com/ai-automated-inspiration-75bff7b9481b)


分享到:


相關文章: