02.29 新入學研究生想學大數據與人工智能方向,學習路線是怎麼樣的?謝謝您?

影視郡


要從事大數據與人工智能的學習與研究,首先要對大數據、人工智能的基本概念、研究範疇有一個概要性的認識。然後明確自己的學習目標,制訂為實現這個目標的學習路線,按照既定路線有計劃地進行學習。下面將圍繞這幾個方面進行介紹。

一、大數據的基本概念

數據是事實或觀察的結果,不僅指狹義上的數字,還可以是具有一定意義的文字、字母、數字符號的組合、圖形、圖像、視頻、音頻等,也是客觀事物的屬性、數量、位置及其相互關係的抽象表示。

大數據具有5V特點,即:Volume(數據量非常大)、Velocity(產生數據的速度非常高)、Variety(數據形式多樣)、Value(數據價值密度低)、Veracity(數據具有真實性)。

大數據的起始計量單位至少是PB(1000多個TB)、EB(100多萬個TB)或ZB(10億多個TB)。數據類型包括網絡日誌、音頻、視頻、圖片、地理位置信息等,種類繁雜。

由於大數據的量非常大,具有結構化、半結構化、非結構化特徵,無論從儲存、計算等方面,傳統的方法已難以處理。這就需要發展專門用於大數據處理的技術、系統、方法。

二、人工智能的基本概念

人工智能是對以人類為主的自然智能的功能、結構的模擬和延伸。要了解機器學習和人工智能,首先應知道什麼是自然智能。

自然智能主要指人類智能,也包括一些生物的群體智能。對於人類智能,普遍認為應包括以下幾種能力。

1. 通過眼睛、耳朵、鼻子、身體表面的末梢神經來感知與認識客觀事物、客觀世界與自我的能力;

2. 通過學習取得經驗、積累知識的能力;

3. 運用知識和經驗分析問題並解決問題的能力;

4. 推理、判斷、決策的能力;

5. 行為能力。

此外,人類智能還包括:運用語言進行抽象、概括的能力;發現、發明、創造、創新的能力;實時地、迅速地、合理地應付複雜環境的能力;預測、洞察事物發展變化的能力,等等。

除了人類個體智能以外,人類個體間的協作還體現出群體智能。主要表現在不同個體間如何進行分工與協作、信息溝通與交換等能力。

一些生物也能夠通過大量個體間的相互協作,表現出一定的群體智能,如螞蟻覓食、魚類覓食、蜜蜂採蜜等,都表現出驚人的群體智能。

智能行為具有試探性、不精確、甚至允許出現錯誤等特點,關於人類智能的研究,人們的觀點具有不統一性,關於人類智能如何由物質產生,科學家還沒有徹底研究清楚。

人工智能是使用機器模仿、延伸和擴展人的智能,根據人類智能的表現,則人工智能相應地要研究如何賦予機器感知、思維、學習、行為等能力。

機器感知,是要讓計算機具有類似於人的感知能力,如視覺、聽覺、觸覺、嗅覺、味覺。人們對機器感知的研究已在人工智能中形成了一些專門的研究領域,如計算機視覺、模式識別、自然語言理解等。

機器思維是讓計算機能夠對感知到的外界信息和自己產生的內部信息進行思維型加工。為了實現機器的思維功能,需要在知識的表示、組織及推理方法,各種啟發式搜索及控制策略,神經網絡、思維機理等方面進行深入研究。

機器學習是讓計算機能夠像人那樣自動地獲取新知識,並在實踐中不斷地完善自我和增強能力。機器學習是機器具有智能的重要標誌,也是人工智能研究的核心問題之一。目前人們已經研究出了不少機器學習方法,如記憶學習、歸納學習、解釋學習、發現學習、神經學習、遺傳學習等。

機器行為是讓計算機能夠具有像人那樣的行動和表達能力,如走、跑、拿、說、唱、寫、畫等。機器行為可看成智能系統的輸出,如智能控制、智能製造、智能調度、智能機器人等。

有了以上對大數據和人工智能的基本理解,就可以明確目標,制訂科學的學習路線。

三、大數據的建議學習路線

1. Java語言,以java語言為基礎掌握面向對象編程思想;

2. 數據結構與算法;

3. 數據庫原理與MYSQL數據庫;

4. LINUX操作系統,掌握LINUX下的管理命令、用戶管理、網絡配置管理等,掌握SHELL腳本編程;

5. Hadoop,包括分佈式文件系統HDFS和分佈式計算框架MapReduce;

6. 分佈式數據庫技術HBASE;

7. 數據倉庫HIVE;

8. Python語言;

9. Spark高級編程技術;

10. 真實大數據項目實戰。

四、人工智能的建議學習路線

人工智能涉及多學科交叉,研究和應用範疇非常廣泛。大致來講,人工智能的研究內容可以粗略地分為知識表示、搜索技術、自動推理、機器學習、專家系統、分佈式人工智能、機器人學、自然語言處理等。

鑑於你要學習大數據和人工智能,應該把機器學習作為人工智能的一個主要學習內容。

機器學習分為監督學習、無監督學習、半監督學習,以及其他算法。典型的機器學習方法有:迴歸分析、分類(決策樹、支持向量機、神經網絡)、聚類(K-means)、降維、特徵抽取等。

建議使用Pythony語言和scikit-learn機器學習庫進行機器學習的學習和練習。

Python可使用 Anaconda版本,它涵蓋了NumPy, SciPy, Matplotlib, scikit-learn, scikit-image等許多常用的模塊,不需要用戶自己逐個安裝,非常適合初學者。

scikit-learn提供一系列有監督和無監督的學習算法,提供數據預處理、迴歸、分類、聚類、降維、模型選擇等功能。它提供大量的API,涵蓋聚類、交叉驗證、數據集、降維、集成學習、特徵選擇、特徵抽取、參數調優、監督學習、流形學習,幾乎涵蓋了機器學習的每個領域。用戶可以很方便的使用。

在熟悉了這些機器學習方法後,建議你再掌握一個深度學習框架。TensorFlow是Google推出的一款開源人工智能學習系統,是一個基於數據流編程的符號數學系統,被廣泛應用於各類機器學習算法的編程實現。Tensorflow擁有多層級結構,可部署於各類服務器、PC終端和網頁,並支持GPU和TPU高性能數值計算。

此外Facebook人工智能研究院(FAIR)提出的PyTorch也是一個開源的Python機器學習庫,它是一個基於Python的可續計算包,提供兩個高級功能:1、具有強大的GPU加速的張量計算(如NumPy)。2、包含自動求導系統的的深度神經網絡。

至於選擇使用哪個深度學習框架,由你自己決定。

掌握了大數據技術、機器學習、深度學習等知識和實踐技能,你的個人價值將會得到極大提升,就業前景將非常廣闊。希望我的回答能夠幫助你。


AI與可視化


作為一名研究生導師,同時大數據和機器學習也是我的主要研究方向,所以我來回答一下這個問題。

首先,大數據雖然與人工智能有緊密的聯繫,但是大數據方向與人工智能方向有較為明顯的區別。大數據方向往往致力於數據價值化,涉及到數據採集、數據整理、數據分析(挖掘)、數據呈現等內容,另外還涉及到大數據平臺研發和大數據應用研發。

人工智能研究的細分方向包括機器學習、計算機視覺、自然語言處理、知識表示、自動推理和機器人學,另外人工智能按照行業領域劃分還可以選擇智慧醫療、智慧出行、智慧城市、智慧金融、智能裝備、智慧教育等方向。從技術體系結構上來看,人工智能與物聯網、雲計算、大數據、邊緣計算也都有比較緊密的聯繫。

對於剛入學的研究生來說,從大數據開始學習然後再進入人工智能領域也是可以的,比如從大數據分析轉向機器學習就是比較常見的選擇。從大數據分析轉向機器學習可以按照以下學習路線展開學習步驟:

第一:系統學習一下算法知識。通常大數據方向的研究生在研二的時候會進駐項目組,具體的研發內容要根據導師的安排來進行,而在研一期間一定要做好基礎知識的深入學習,其中算法知識就是比較重要的內容。無論是從事大數據還是人工智能,算法知識都是重要的基礎。

第二:學習一下大數據平臺知識。學習大數據平臺知識能夠鍛鍊自身的動手實踐能力,同時也能夠積累一定的開發經驗。大數據平臺可以從Hadoop開始學起,然後系統的學習一下編程語言,可以選擇Java或者Python,目前可以重點關注一下Python。

第三:採用機器學習的方式完成數據分析。機器學習是目前進行數據分析的兩種主要方式之一,通過採用機器學習的方式實現數據分析包括數據整理、算法設計、算法實現、算法訓練和算法應用幾個步驟。實驗可以從比較常見的算法開始,比如kNN、決策樹、支持向量機、樸素貝葉斯等等。

我從事互聯網行業多年,目前也在帶計算機專業的研究生,主要的研究方向集中在大數據和人工智能領域,我會陸續寫一些關於互聯網技術方面的文章,感興趣的朋友可以關注我,相信一定會有所收穫。

如果有互聯網、大數據、人工智能等方面的問題,或者是考研方面的問題,都可以在評論區留言!


IT人劉俊明


人工智能建立在以線性代數和概率論為骨架的基礎數學上,通過簡單模型的組合實現複雜功能。在工程上,深度神經網絡通常其複雜的參數讓人望而卻步;可在理論上,其數學原理卻具有更好的可解釋性。


分享到:


相關文章: