Spark，從入門到精通

2019-04-21 09:44:47 機器不學習

歡迎閱讀美圖數據技術團隊的「Spark，從入門到精通」系列文章，本系列文章將由淺入深為大家介紹 Spark，從框架入門到底層架構的實現，相信總有一種姿勢適合你，歡迎大家持續關注：）

/ 什麼是 RDD？ /

傳統的 MapReduce 雖然具有自動容錯、平衡負載和可拓展性的優點，但是其最大缺點是在迭代計算式的時候，要進行大量的磁盤 IO 操作，而 RDD 正是解決這一缺點的抽象方法。RDD（Resilient Distributed Datasets）即彈性分佈式數據集，從名字說起：

彈性

當計算過程中內存不足時可刷寫到磁盤等外存上，可與外存做靈活的數據交換；

RDD 使用了一種“血統”的容錯機制，在結構更新和丟失後可隨時根據血統進行數據模型的重建；

分佈式

就是可以分佈在多臺機器上進行並行計算；

數據集

一組只讀的、可分區的分佈式數據集合，集合內包含了多個分區。分區依照特定規則將具有相同屬性的數據記錄放在一起，每個分區相當於一個數據集片段。

RDD 內部結構

圖 1

圖 1 所示是 RDD 的內部結構圖，它是一個只讀、有屬性的數據集。它的屬性用來描述當前數據集的狀態，數據集由數據的分區（partition）組成，並由（block）映射成真實數據。RDD 的主要屬性可以分為 3 類：與其他 RDD 的關係（parents、dependencies）；數據(partitioner、checkpoint、storage level、iterator 等)；RDD 自身屬性(sparkcontext、sparkconf)，接下來我們根據屬性分類來深入介紹各個組件。

RDD 自身屬性

從自身屬性說起，SparkContext 是 Spark job 的入口，由 Driver 創建在 client 端，包括集群連接、RDD ID、累加器、廣播變量等信息。SparkConf 是參數配置信息，包括：

Spark api，控制大部分的應用程序參數；
環境變量，配置IP地址、端口等信息；
日誌配置，通過 log4j.properties 配置。

數據

RDD 內部的數據集合在邏輯上和物理上被劃分成多個小子集合，這樣的每一個子集合我們將其稱為分區（Partitions），分區的個數會決定並行計算的粒度，而每一個分區數值的計算都是在一個單獨的任務中進行的，因此並行任務的個數也是由 RDD分區的個數決定的。但事實上 RDD 只是數據集的抽象，分區內部並不會存儲具體的數據。Partition 類內包含一個 index 成員，表示該分區在 RDD 內的編號，通過 RDD 編號+分區編號可以確定該分區對應的唯一塊編號，再利用底層數據存儲層提供的接口就能從存儲介質（如：HDFS、Memory）中提取出分區對應的數據。

RDD 的分區方式主要包含兩種：Hash Partitioner 和 Range Partitioner，這兩種分區類型都是針對 Key-Value 類型的數據，如是非 Key-Value 類型則分區函數為 None。Hash 是以 Key 作為分區條件的散列分佈，分區數據不連續，極端情況也可能散列到少數幾個分區上導致數據不均等；Range 按 Key 的排序平衡分佈，分區內數據連續，大小也相對均等。

Preferred Location 是一個列表，用於存儲每個 Partition 的優先位置。對於每個 HDFS 文件來說，這個列表保存的是每個 Partition 所在的塊的位置，也就是該文件的「劃分點」。

Storage Level 是 RDD 持久化的存儲級別，RDD 持久化可以調用兩種方法：cache 和 persist：persist 方法可以自由的設置存儲級別，默認是持久化到內存；cache 方法是將 RDD 持久化到內存，cache 的內部實際上是調用了persist 方法，由於沒有開放存儲級別的參數設置，所以是直接持久化到內存。

圖 2

如圖 2 所示是 Storage Level 各級別分佈，那麼如何選擇一種最合適的持久化策略呢？默認情況下，性能最高的當然是 MEMORY_ONLY，但前提是你的內存必須足夠大到可以綽綽有餘地存放下整個 RDD 的所有數據。因為不進行序列化與反序列化操作，就避免了這部分的性能開銷；對這個RDD的後續算子操作，都是基於純內存中的數據的操作，不需要從磁盤文件中讀取數據，性能也很高；而且不需要複製一份數據副本，並遠程傳送到其他節點上。但是這裡必須要注意的是，在實際的生產環境中，恐怕能夠直接用這種策略的場景還是有限的，如果 RDD 中數據比較多時（比如幾十億），直接用這種持久化級別，會導致 JVM 的 OOM 內存溢出異常。

如果使用 MEMORY_ONLY 級別時發生了內存溢出，那麼建議嘗試使用 MEMORY_ONLY_SER 級別。該級別會將 RDD 數據序列化後再保存在內存中，此時每個 partition 僅僅是一個字節數組而已，大大減少了對象數量，並降低了內存佔用。這種級別比 MEMORY_ONLY 多出來的性能開銷主要就是序列化與反序列化的開銷，但是後續算子可以基於純內存進行操作，因此性能總體還是比較高的。但可能發生 OOM 內存溢出的異常。

如果純內存的級別都無法使用，那麼建議使用 MEMORY_AND_DISK_SER 策略，而不是 MEMORY_AND_DISK 策略。因為既然到了這一步，就說明 RDD 的數據量很大，內存無法完全放下，序列化後的數據比較少，可以節省內存和磁盤的空間開銷。同時該策略會優先儘量嘗試將數據緩存在內存中，內存緩存不下才會寫入磁盤。

通常不建議使用 DISK_ONLY 和後綴為_2 的級別：因為完全基於磁盤文件進行數據的讀寫，會導致性能急劇降低。後綴為_2的級別，必須將所有數據都複製一份副本，併發送到其他節點上，數據複製以及網絡傳輸會導致較大的性能開銷。

Checkpoint 是 Spark 提供的一種緩存機制，當需要計算依賴鏈非常長又想避免重新計算之前的 RDD 時，可以對 RDD 做 Checkpoint 處理，檢查 RDD 是否被物化或計算，並將結果持久化到磁盤或 HDFS 內。Checkpoint 會把當前 RDD 保存到一個目錄，要觸發 action 操作的時候它才會執行。在 Checkpoint 應該先做持久化（persist 或者 cache）操作，否則就要重新計算一遍。若某個 RDD 成功執行 checkpoint，它前面的所有依賴鏈會被銷燬。

與 Spark 提供的另一種緩存機制 cache 相比：cache 緩存數據由 executor 管理，若 executor 消失，它的數據將被清除，RDD 需要重新計算；而 checkpoint 將數據保存到磁盤或 HDFS 內，job 可以從 checkpoint 點繼續計算。Spark 提供了 rdd.persist(StorageLevel.DISK_ONLY) 這樣的方法，相當於 cache 到磁盤上，這樣可以使 RDD 第一次被計算得到時就存儲到磁盤上，它們之間的區別在於：persist 雖然可以將 RDD 的 partition 持久化到磁盤，但一旦作業執行結束，被 cache 到磁盤上的 RDD 會被清空；而 checkpoint 將 RDD 持久化到 HDFS 或本地文件夾，如果不被手動 remove 掉，是一直存在的。

Compute 函數實現方式就是向上遞歸「獲取父 RDD 分區數據進行計算」，直到遇到檢查點 RDD 獲取有緩存的 RDD。

Iterator 用來查找當前 RDD Partition 與父 RDD 中 Partition 的血緣關係，並通過 Storage Level 確定迭代位置，直到確定真實數據的位置。它的實現流程如下：

若標記了有緩存，則取緩存，取不到則進行 computeOrReadCheckpoint(計算或讀檢查點)。完了再存入緩存，以備後續使用。
若未標記有緩存，則直接進行 computeOrReadCheckpoint。
computeOrReadCheckpoint 這個過程也做兩個判斷：有做過 checkpoint 和沒有做過 checkpoint，做過 checkpoint 則可以讀取到檢查點數據返回，沒做過則調該 RDD 的實現類的 compute 函數計算。

血統關係

一個作業從開始到結束的計算過程中產生了多個 RDD，RDD 之間是彼此相互依賴的，我們把這種父子依賴的關係稱之為「血統」。

RDD 只支持粗顆粒變換，即只記錄單個塊（分區）上執行的單個操作，然後創建某個 RDD 的變換序列（血統 lineage）存儲下來。

*變換序列指每個 RDD 都包含了它是如何由其他 RDD 變換過來的以及如何重建某一塊數據的信息。

因此 RDD 的容錯機制又稱「血統」容錯。要實現這種「血統」容錯機制，最大的難題就是如何表達父 RDD 和子 RDD 之間的依賴關係。

圖 3

如圖 3 所示，父 RDD 的每個分區最多隻能被子 RDD 的一個分區使用，稱為窄依賴（narrow dependency）；若父 RDD 的每個分區可以被子 RDD 的多個分區使用，稱為寬依賴（wide dependency）。簡單來講，窄依賴就是父子RDD分區間「一對一」的關係，而寬依賴就是「一對多」關係。從失敗恢復來看，窄依賴的失敗恢復起來更高效，因為它只需找到父 RDD 的一個對應分區即可，而且可以在不同節點上並行計算做恢復；寬依賴牽涉到父 RDD 的多個分區，需要得到所有依賴的父 RDD 分區的 shuffle 結果，恢復起來相對複雜些。

圖 4

根據 RDD 之間的寬窄依賴關係引申出 Stage 的概念，Stage 是由一組 RDD 組成的執行計劃。如果 RDD 的衍生關係都是窄依賴，則可放在同一個 Stage 中運行，若 RDD 的依賴關係為寬依賴，則要劃分到不同的 Stage。這樣 Spark 在執行作業時，會按照 Stage 的劃分, 生成一個最優、完整的執行計劃。

/ RDD 的創建方式與分區機制 /

RDD 的創建方式

RDD 的創建方式有四種：

1.使用程序中的集合創建 RDD，RDD 的數據源是程序中的集合，通過 parallelize 或者 makeRDD 將集合轉化為 RDD；

*例

val num = Array(1,2,3,4,5)
val rdd = sc.parallelize(num)

2.使用本地文件或 HDFS 創建 RDD，RDD 的數據源是本地文件系統或 HDFS 的數據，使用 textFile 方法創建RDD。

*例

val rdd = sc.textFile(“hdfs://master:9000/rec/data”)

3.使用數據流創建 RDD，使用 Spark Streaming 的相關類，接收實時的輸入數據流創建 RDD（數據流來源可以是 kafka、flume 等）。

*例

val ssc = new StreamingContext(conf, Seconds(1))
val lines = ssc.socketTextStream(“localhost”, 9999)
val words = lines.flatMap(_.split(“ ”))

4.使用其他方式創建 RDD，從其他數據庫上創建 RDD，例如 Hbase、MySQL 等。

*例

val sqlContext = new SQLContext(sc)
val url = "jdbc:mysql://ip:port/xxxx"
val prop = new Properties()
val df = sqlContext.read.jdbc(url, “play_time”, prop)

RDD 的分區機制

RDD 的分區機制有兩個關鍵點：一個是關鍵參數，即 Spark 的默認併發數 spark.default.parallelism；另一個是關鍵原則，RDD 分區儘可能使得分區的個數等於集群核心數目。

當配置文件 spark-default.conf 中顯式配置了 spark.default.parallelism，那麼 spark.default.parallelism=配置的值，否則按照如下規則進行取值：

1.本地模式（不會啟動 executor，由 SparkSubmit 進程生成指定數量的線程數來併發）

spark-shell spark.default.parallelism = 1spark-shell --master local[N] spark.default.parallelism = N （使用 N 個核）spark-shell --master local spark.default.parallelism = 1

2.偽集群模式（x 為本機上啟動的 executor 數，y 為每個 executor 使用的 core 數，z 為每個 executor 使用的內存）

spark-shell --master local-cluster[x,y,z] spark.default.parallelism = x * y

3.Yarn、standalone 等模式

spark.default.parallelism = max(所有 executor 使用的 core 總數，2)

4.Mesos

spark.default.parallelism = 8

spark.context 會生成兩個參數，由 spark.default.parallelism 推導出這兩個參數的值：

sc.defaultParallelism = spark.default.parallelism
sc.defaultMinPartitions = min(spark.default.parallelism, 2)

當 sc.defaultParallelism 和 sc.defaultMinPartitions 確認後，就可以推算 RDD 的分區數了。

以 parallelize 方法為例

val rdd = sc.parallelize(1 to 10)

如果使用 parallelize 方法時沒指定分區數， RDD 的分區數 = sc.defaultParallelism

以 textFile 方法為例

val rdd = sc.textFile(“path/file”)

分區機制分兩種情況：

1.從本地文件生成的 RDD，如果沒有指定分區數，則默認分區數規則為

rdd 的分區數 = max（本地 file 的分片數， sc.defaultMinPartitions）

2.從 HDFS 生成的 RDD，如果沒有指定分區數，則默認分區數規則為：

rdd 的分區數 = max（hdfs 文件的 block 數目， sc.defaultMinPartitions）

/ RDD 的常用操作 /

RDD 支持兩種類型的操作：轉換（Transformation）和動作（Action），轉換操作是從已經存在的數據集中創建一個新的數據集，而動作操作是在數據集上進行計算後返回結果到 Driver，既觸發 SparkContext 提交 Job 作業。轉換操作都具有 Lazy 特性，即 Spark 不會立刻進行實際的計算，只會記錄執行的軌跡，只有觸發行動操作的時候，它才會根據 DAG 圖真正執行。

轉換與動作具體包含的操作種類如下圖所示：

圖 5:轉換操作

圖 6：動作操作

最後我們通過一段代碼來看看它具體的操作：

這段代碼是用來計算某個視頻被男性或女性用戶的播放次數，其中 rdd_attr 用來記錄用戶性別，rdd_src 是用戶對某個視頻進行播放的記錄，這兩個 RDD 會進行一個 join 操作，比如這是某個男性用戶對某個視頻進行了播放，進行 map 操作之後得到視頻 id 和性別作為 key，根據這個 key 做 reduceByKey 的操作，最終得到一個視頻被男性/女性用戶總共播放了多少次的 RDD，然後使用 combineByKey 合併同一個視頻 id 的多個結果，最後保存到 HDFS 上。

附：參考文章

《Spark之深入理解RDD結構》https://blog.csdn.net/u011094454/article/details/78992293《RDD的數據結構模型》https://www.jianshu.com/p/dd7c7243e7f9?from=singlemessage《Spark RDD詳解》https://blog.csdn.net/wangxiaotongfan/article/details/51395769《Spark RDD的默認分區數：（spark 2.1.0）》https://www.jianshu.com/p/4b7d07e754fa《Spark性能優化指南——基礎篇》https://tech.meituan.com/spark_tuning_basic.html

分享到:

閱讀更多 機器不學習 的文章

關鍵字: Spark HDFS Java虛擬機

Spark-local本地環境搭建

Spark SQL

Spark 網頁式開發（五）

Spark SQL 使用反射推斷模式

Spark SQL簡介

Spark 安裝教程

Spark RDD介紹

Spark 簡介與特徵

Spark 網頁式開發（二）

Spark 網頁式開發（一）

spark-submit之後，spark集群內發生了什麼？讓我們一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常見4種數據源詳解

Spark 機器學習四大類算法

Spark for Java: SparkCore RDD Value類型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 數據傾斜解決方案

Spark JVM調優

Spark Shuffle調優

Spark 算子調優

Spark 常規性能調優

Spark BlockManager解析

Spark 內存管理

Spark-Core：調度

大數據乾貨分享：Spark Streaming 數據清理機制

Spark 核心概念

Spark Streaming狀態管理函數的選擇比較

hive on spark,spark sql 對比測試結果相差很大

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python開發環境搭建

11.14 Spark——診斷內存消耗

Spark-關於Shuffle

Spark 處理大數據的異常解決方案彙總

Spark Streaming VS Flink

Spark Graphx的API操作

Spark SQL與DataFrame詳解以及使用

Spark 彈性分佈式數據集（RDD）

Spark SQL支持的功能測試

Spark Shuffle 過程

spark-sql對多層級parquet支持

spark hadoop數據傾斜問題

Spark Runtime概述

Spark Streaming的容錯

Spark 讀取單個文本文件速度很慢解決方法

大數據實戰：spark DataFrame的union函數使用時的坑

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"