數據挖掘 Data Mining
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。
幾年來隨著大數據、人工智能技術的發展,數據挖掘迎來了一個小高潮,其發展離不開以下幾項技術的支持:
- 海量大數據收集與存儲,ES、Hadoop為代表。
- 強大的集群計算處理能力,以Spark、MapReduce為代表。
- 數據挖掘算法,以TensorFlow為代表。
數據挖掘與傳統數據分析的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的信息應具有先知,有效和可實用三個特徵。
數據挖掘的功能
- 自動預測趨勢和行為,例如預測市場的變化。
- 關聯分析,例如在醫學影響領域研究圖像和疾病的關係。
- 聚類。
- 概念描述。
- 偏差檢測。
數據挖掘常用技術
- 關聯分析
- 序列分析
- 分類分析
- 聚類分析
- 預測
- 時間序列分析
數據挖掘的流程
數據挖掘的流程大致如下:
- 問題定義。
- 建立數據挖掘庫。
- 分析數據。
- 調整數據。
- 模型化。
- 評價和解釋。
數據分析的過程需要不同專長的人員參與,主要分為三類:
- 業務分析人員,要求精通業務,能夠解釋業務對象,並提出業務需求。
- 數據分析人員,精通數據分析技術,並對統計學有熟練的掌握,具備將業務需求轉化為數據挖掘各步操作的能力,並能夠選擇合適的技術。
- 數據管理人員,能夠管理數據採集和數據倉庫。
常見的數據庫管理系統
教材中介紹了四款數據庫管理系統,分別是Oracle、Sybase、Informix、SQL Server,都是體量非常大的數據庫,單單從教材的內容是不足以瞭解各個數據的技術內容的。相對來說,目前Oracle、SQL Server仍被眾多的國內金融、大企業所使用,但是Sybase、Informix的使用越來越少。而隨著互聯網起來的Mysql、MongoDB,以及Redis內存型數據庫越來越流行。
Oracle
Oracle仍是當今世界中非常重要的一款商用數據庫管理系統,通過RAC、DataGard等技術來提供數據的安全性保證,並且通過ExData一體機來輸出高性能的數據庫管理系統。Oracle的技術細節講起來一本書都不夠,教材中的內容很多都比較老了,建議大家簡單掃一眼即可。
Sybase
Sybase是C/S架構的數據庫管理系統。
Informix
Informix是一個跨平臺的數據庫管理系統,現在很多開源的數據庫系統大多不支持小型機或者支持都比較弱,目前看趨勢都是採用X86服務器。
SQL Server
SQL Server是Windows平臺上的數據庫管理系統,具有強大的功能,主要包括四個基本服務器組件 Open Data Services、MSSQL Server、SQL Server Agent、MSDTC。
![「每天五分鐘,備戰架構師-11」數據庫系統](http://p2.ttnews.xyz/loading.gif)
閱讀更多 軟考資料 的文章